




已閱讀5頁,還剩55頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
北京大學 網(wǎng)絡與分布式系統(tǒng)實驗室碩士學位論文 北京大學碩士研究生學位論文 題目:基于網(wǎng)頁的信息系統(tǒng)的一種預處理過程 姓 名:張志剛 學 號: 10108137 院 系:計算機科學技術(shù)系 專 業(yè):計算機軟件與理論 研究方向:計算機網(wǎng)絡與分布式系統(tǒng) 導 師:李曉明 教授 2004 年 5 月 北京大學 網(wǎng)絡與分布式系統(tǒng)實驗室碩士學位論文 版權(quán)聲明 任何收存和保管本論文各種版本的單位和個人,未經(jīng)本論文作者同意,不得將本論文轉(zhuǎn)借他人,亦不得隨意復制、抄錄、拍照或以任何方式傳播。否則,引起有礙作者著作權(quán)之問題,將可能承擔法律責任。 北京大學 網(wǎng)絡與分布式系統(tǒng)實驗室碩士學位論文 摘要 隨 著 迅速發(fā)展, 的信息越來越豐富。 用方便、信息豐富,人們越來越多的使用 尋找需要的信息。為了更好的使用的信息,人們也不斷的追求能夠有效組織和利用網(wǎng)上信息的技術(shù)和系統(tǒng)。然而, 的信息存在很多問題:網(wǎng)頁內(nèi)的噪音內(nèi)容多、 近似網(wǎng)頁量大以及缺乏必要的元數(shù)據(jù)信息,這些問題嚴重影響了 息系統(tǒng)的服務質(zhì)量。 針對 息系統(tǒng)的共性需求,本文提出了一個預處理框架及相應的方法。該預處理框架包括了三個預處理工作:網(wǎng)頁凈化、近似網(wǎng)頁刪除和網(wǎng)頁元數(shù)據(jù)提取。通過預處理過程,原始網(wǎng)頁 集中的近似網(wǎng)頁被刪除,而保留下來的網(wǎng)頁被凈化并轉(zhuǎn)化為一個統(tǒng)一的結(jié)構(gòu)化模型(稱之為 該模型中提供了各個領(lǐng)域需求較多的元數(shù)據(jù)和內(nèi)容數(shù)據(jù), 它包括網(wǎng)頁標識、 網(wǎng)頁類型、內(nèi)容類別、 標題、 關(guān)鍵詞、摘要、正文、相關(guān)鏈接等元素。本文提出的預處理方法的一個重要優(yōu)點是它不需要除原始網(wǎng)頁以外的其他信息,而這些額外信息是該領(lǐng)域中其他方法所必須的;另一個優(yōu)點是將 息系統(tǒng)的共性需求放到一個過程中一次性提取出來,可以避免相同中間過程的重復執(zhí)行,從而提高信息提取效率。 本文中提出的預處理框架和方法已經(jīng)應用到了“天 網(wǎng)”搜索引擎和網(wǎng)頁自動分類系統(tǒng)中。通過使用預處理后應用系統(tǒng)質(zhì)量的提高,驗證了該預處理方法的有效性。不難看出,通過這樣一個預處理過程,可以在任何一個網(wǎng)頁集上(包括 建一個組織良好的、凈化的、更易使用的信息層。 關(guān)鍵詞: 萬維網(wǎng) , 數(shù)據(jù)預處理,數(shù)據(jù)凈化,近似網(wǎng)頁識別,元數(shù)據(jù)提取 北京大學 網(wǎng)絡與分布式系統(tǒng)實驗室碩士學位論文 of of eb eb to of ebs of In to eb eb eb in eb as in eb eb in of on of eb of eb eb of in In we a to of eb eb a of of of is no is to of in of 京大學 網(wǎng)絡與分布式系統(tǒng)實驗室碩士學位論文 of Its to a we up a on of eb eb 京大學 網(wǎng)絡與分布式系統(tǒng)實驗室碩士學位論文 目 錄 第 1 章 引言 . 1 究背景 . 1 文研究內(nèi)容 . 2 文貢獻 . 3 文組織 . 3 第 2 章 相關(guān)研究 . 4 索引擎 . 4 頁自動分類 . 7 息提取 . 9 數(shù)據(jù)提取 . 10 第 3 章 息系統(tǒng)面臨的問題及共性需求 . 12 第 4 章 預處理方法與技術(shù) . 14 處理框架及結(jié)果描述 . 14 處理框架 . 14 處理結(jié)果描述 . 14 頁表示 . 15 頁標簽樹表示 . 16 頁量化表示 . 19 頁凈化 . 24 頁類型判斷 . 24 題網(wǎng)頁凈化 . 25 錄網(wǎng)頁凈化 . 25 片網(wǎng)頁凈化 . 26 頁凈化時空效率分析 . 26 似網(wǎng)頁的發(fā)現(xiàn) . 27 似網(wǎng)頁發(fā)現(xiàn)算法 . 27 能分析 . 29 頁元數(shù)據(jù)提取 . 29 頁元數(shù)據(jù)提取流程描述 . 30 北京大學 網(wǎng)絡與分布式系統(tǒng)實驗室碩士學位論文 文提取 . 30 鍵詞提取 . 30 容類別判斷 . 31 題提取 . 32 要提取 . 32 題相關(guān)超鏈提取 . 33 章小結(jié) . 35 第 5 章 應用與評測 . 36 頁凈化在網(wǎng)頁自動分類系 統(tǒng)中的應用與評測 . 36 用 . 36 測標準 . 37 測結(jié)果與分析 . 37 似網(wǎng)頁消除在搜索引擎中的應用與評測 . 38 驗設計 . 38 測標準 . 39 測結(jié)果與分析 . 40 頁元數(shù)據(jù)在搜索引擎的索引過程中的應用與評測 . 41 索效率評測 . 41 索精度評測 . 42 章小結(jié) . 44 第 6 章 總結(jié)與展望 . 45 結(jié) . 45 望 . 45 參考資料 . 47 作者就讀期間參加的科研項目和發(fā)表的論文 . 51 致謝 . 52 北京大學 網(wǎng)絡與分布式系統(tǒng)實驗室碩士學位論文 1 第 1章 引言 究背景 萬維網(wǎng)( 記為 因特網(wǎng)上最成功的應用,起源于 1989 年歐洲粒子物理研究室 最初計劃是由 物理學家 1989 年 3 月提出的,第一個基于文本原型于18 個月后運行。 1991 年 12 月在德克薩斯州的 1 超文本會議上進行了一次演示,次年繼續(xù)發(fā) 展,并于 1993 年 2 月,隨著第一個圖形界面發(fā)布而達到了其發(fā)展的高峰 1995 年 4 月, 網(wǎng)上的流量超過了 其它服務的流量,成為 的第一大應用服務。到 1997 年 12 月,網(wǎng)上大約有 3 億 2000 萬網(wǎng)頁 根據(jù) 000 年的數(shù)據(jù)庫數(shù)據(jù)表明,網(wǎng)頁數(shù)目已經(jīng)超過了 10 億。 002 年 4 月索引網(wǎng)頁表明,網(wǎng)頁數(shù)已經(jīng)超過 20 億 而在 2004 年 4 月, 索引擎索引網(wǎng)頁數(shù)已經(jīng)超過 42 億。 隨 著 迅速擴展, 的信息也飛速膨脹。這一方面使得 一方面也使得其中絕大多數(shù)的信息對于絕大多數(shù)的用戶是沒有意義的,而且對于一個用戶而言,極小部分的有用信息也淹沒在無用信息中很難被找到。為了更好的使用 的信息,人們不斷的追求能夠有效組織和利用網(wǎng)上信息的技術(shù)和系統(tǒng),包括搜索引擎、網(wǎng)頁自動分類、信息提取以及主題搜索,等等。我們通常把以網(wǎng)頁為處理對象的系統(tǒng)稱為 基于網(wǎng)頁的信息系統(tǒng) ,為表達簡單,本文中我們稱其為 在相關(guān)的技術(shù)中,一方面涉及到對網(wǎng)頁內(nèi)容的分析,另一 方面也涉及到對網(wǎng)頁間鏈接關(guān)系的分析。其最終目的是通過對 信息的有效組織來方便用戶對所需信息的獲取。 在內(nèi)容分析的過程中傳統(tǒng)信息檢索領(lǐng)域的技術(shù)自然的會被引用進來。但 網(wǎng)頁與傳統(tǒng)的文檔相比有著自己的特點: 一、 有用信息通常伴隨著大量的“噪音”內(nèi)容,而噪音內(nèi)容正是 頁與傳統(tǒng)文檔的一個主要區(qū)別。根據(jù)噪音內(nèi)容的粒度大小, 網(wǎng)絡與分布式系統(tǒng)實驗室碩士學位論文 2 上的噪音內(nèi)容可以被分為兩類 全局噪音 : 全局噪音 是指 具有較大粒度的噪音內(nèi)容,它通常包含鏡像網(wǎng)站、重復網(wǎng)頁。 局部噪音 : 局部噪音 是指 頁內(nèi) 與網(wǎng)頁主題內(nèi)容無關(guān)的噪音內(nèi)容,比如:廣告、導航條以及版權(quán)聲明等內(nèi)容。 二、 網(wǎng)頁缺乏必要的元數(shù)據(jù)信息。而元數(shù)據(jù)在信息管理過程中有著重要的作用。 三、 文本信息大多數(shù)是以 頁的形式存在的, 定義了一套標簽來描述網(wǎng)頁中內(nèi)容的布局和顯示方式,因而,網(wǎng)頁中的標簽信息隱含了網(wǎng)頁內(nèi)容的重要性信息以及相關(guān)性信息。 信息的這些特點使得傳統(tǒng)信息檢索領(lǐng)域中的技術(shù)已經(jīng)不能滿足各種 息系統(tǒng)的要求。針對 頁的不足給各種 息系統(tǒng)帶來的問題,各個領(lǐng)域都有一套具體的解決方法。但并沒有一 個較為通用的預處理框架及相應的方法。通過分析可以看到,這些問題都是源自 信息本身的不足,因而各種 息系統(tǒng)的需求是有共性的。這意味著我們有必要也有可能建立一個較為通用的預處理框架并給出相應的方法,從而方便大多數(shù) 息系統(tǒng)的需求。本文中的研究工作就是在這樣一個背景下展開的。 文研究內(nèi)容 本文中的研究圍繞以下幾個方面展開: 分析 網(wǎng)頁的特點以及其不足對 應用系統(tǒng)造成的影響,從而發(fā)現(xiàn) 各種應用系統(tǒng)的共性需求。 針對 應用系統(tǒng)的共性需求,給出一個較為通用的預處理框架和相應的方 法,從而滿足大多數(shù) 息系統(tǒng)的需求。 將提出的預處理框架中的方法應用到實際系統(tǒng)中,包括:搜索引擎和網(wǎng)頁自動分類系統(tǒng)。 通過對應用的效果評測和一系列實驗,發(fā)現(xiàn)方法中的不足,繼續(xù)改進方法。 北京大學 網(wǎng)絡與分布式系統(tǒng)實驗室碩士學位論文 3 文貢獻 基于對 網(wǎng)頁的特點和 息系統(tǒng)共性需求的分析,提出一個較為通用的預處理框架,包括:網(wǎng)頁凈化、近似網(wǎng)頁發(fā)現(xiàn)和元數(shù)據(jù)提取。 提出一個新的網(wǎng)頁內(nèi)容凈化方法,該方法的一個重要優(yōu)點是它不需要除原始網(wǎng)頁以外的其他信息(例如: 網(wǎng)頁模板 ),而這些額外信息是該領(lǐng)域中其他方法所必須的。 在參考了 C和 ,提出了一個包含元數(shù)據(jù)和內(nèi)容數(shù)據(jù)的網(wǎng)頁表示模型(稱為該模型包含這樣幾項信息元素: 網(wǎng)頁標識 、 網(wǎng)頁類型 、 內(nèi)容類別 、 標題 、 關(guān)鍵詞 、 摘要 、 正文 、 相關(guān)鏈接 。并給出了該模型中元素的自動提取方法。( ) 將本文中提出的方法應用到實際的系統(tǒng)中:搜 索引擎和網(wǎng)頁自動分類系統(tǒng),通過對原有系統(tǒng)質(zhì)量的提高,驗證了方法的有效性和實用性。 通過本文中提出的方法,一方面能夠自動去除 噪音網(wǎng)頁以及網(wǎng)頁內(nèi)與網(wǎng)頁主題內(nèi)容無關(guān)的噪音內(nèi)容,另一方面也能自動的從網(wǎng)頁中提取相關(guān)的元數(shù)據(jù),從而使我們看到了在原始 搭建一個噪音小、描述清晰、更易于處理和利用的網(wǎng)頁信息平臺。 文組織 本文后面是這樣組織的,第 2 章是相關(guān)領(lǐng)域的研究;第 3 章討論 4 章講述預處理過程的框架和其中的方法;第 5 章介紹本文中提出方法的應用以及實驗和實驗結(jié)果分析;第 6章是對本文的總結(jié)和對未來工作的展望。 北京大學 網(wǎng)絡與分布式系統(tǒng)實驗室碩士學位論文 4 第 2章 相關(guān)研究 索引擎 搜索引擎是 信息檢索的典型系統(tǒng),它的作用是幫助人們快速準確的在 找到所需的信息。根據(jù)搜索引擎基于的技術(shù)原理,可以分為三個類型: 基于機器人( 搜索引擎 這種搜索引擎利用一個稱為 程序以某種策略自動的將 的網(wǎng)頁搜集起來,并由一個索引器為搜集到的網(wǎng)頁建立索引。當用戶通過服務提交查詢請求時,由檢索器從索引庫中檢索出相關(guān)的文檔返回給用戶。該類搜索引擎的優(yōu)點是提供服務的信息量大、無需人工參與;缺點是返回的信息過多,包 括很多與查詢無關(guān)的信息。 目錄式搜索引擎( 這種搜索引擎以人工或半自動方式搜集信息。由人工來訪問其中的網(wǎng)站,并對該網(wǎng)站撰寫一段描述,并根據(jù)網(wǎng)站中的信息將網(wǎng)站加入到一個預先定義好的分類體系下。用戶訪問時,通過該分類體系不斷按照自己關(guān)心的類別向下找,可以找到自己關(guān)心的網(wǎng)站。該搜索引擎的優(yōu)點是用戶找到的結(jié)果較為準確;缺點是需要大量人工介入、信息量少。 元搜索引擎( 元搜索引擎是建立在其他獨立搜索引擎之上的搜索引擎。當用戶提交一 個查詢,元搜索引擎將查詢項做一定處理后,提交給多個獨立的搜索引擎,并將所有的查詢結(jié)果集中起來處理后返回給用戶。 本節(jié)中,我們將重點介紹基于 搜索引擎,并探討 息中的噪音內(nèi)容對搜索引擎中某些環(huán)節(jié)的影響。下圖是一個搜索引擎通用的結(jié)構(gòu)圖。 北京大學 網(wǎng)絡與分布式系統(tǒng)實驗室碩士學位論文 5 圖表 1 搜索引擎通用結(jié)構(gòu)圖 基于 搜索引擎通常包含以下四個步驟: 網(wǎng)頁抓?。喊l(fā)現(xiàn)、搜集 的網(wǎng)頁信息。 網(wǎng)頁消重:消除搜集到的網(wǎng)頁中重復或近似重復的網(wǎng)頁。 建立索引:對搜集到的 息 建立索引庫。 提供檢索服務:根據(jù)用戶輸入的查詢項,在索引庫中檢索出文檔。 下面詳細討論網(wǎng)頁消重和建立索引。 網(wǎng)頁消重是指將搜集到的網(wǎng)頁中重復網(wǎng)頁去掉的過程,在消重后的網(wǎng)頁集上建索引再提供服務可以保證用戶查詢時不會出現(xiàn)大量內(nèi)容重復的網(wǎng)頁,同時節(jié)省建立索引的時間以及檢索的時間。 三種比較常用的重復網(wǎng)頁判斷方法,其中 使用。這些重復網(wǎng)頁發(fā)現(xiàn)算法都是基于相同的想法:為每張網(wǎng)頁計算一組指紋( 如果兩張網(wǎng)頁中相同的指紋數(shù)量 超過一個閾值,這兩張網(wǎng)頁就被認為是互為重復的網(wǎng)頁。然而,大量的重復網(wǎng)頁并不是對原始網(wǎng)頁的簡單拷貝,而是將要轉(zhuǎn)載的主題內(nèi)容放在不同的模板中形成的。我們把這種近似的重復網(wǎng)頁以及完全相同的重復網(wǎng)頁統(tǒng)稱為 近似網(wǎng)頁 。由于模板中的內(nèi)容絕大多數(shù)是與主題內(nèi)容無關(guān)的,因此模板中的內(nèi)容就會干擾近似網(wǎng)頁識別程序?qū)魄闆r的判斷,從而導致錯誤消重。常見的錯誤消重有北京大學 網(wǎng)絡與分布式系統(tǒng)實驗室碩士學位論文 6 以下兩種情況: 情況 1:相同的內(nèi)容,由于放在了不同的模板中導致應該被消掉但實際上被消重程序判斷為非近似網(wǎng)頁而保留。 情況 2:不同的內(nèi)容,由于放在了相同的模 板中導致不應該被消掉但實際上被消重程序判斷為近似網(wǎng)頁而消掉。 對于完全相同的近似網(wǎng)頁,消重算法是容易識別的,因而,如何識別主題內(nèi)容相同但模板不同的情況是消重算法面臨的問題。 在索引過程中,索引器為搜集到的文檔建立了一個(或若干個)索引文件,索引文件是用來在檢索時對查詢詞與文檔進行匹配的,從而找到與查詢詞相關(guān)的文檔。為了合理的對檢索到的文檔排序,研究人員提出了 法,這兩個算法通過分析 的鏈接結(jié)構(gòu)來計算網(wǎng)頁的重要性。正如 附錄所講述 的,由于廣告等噪音內(nèi)容通常伴隨著超鏈出現(xiàn), 法得到的排序通常偏向于廣告網(wǎng)頁。另外,如果不去除原始網(wǎng)頁中的噪音內(nèi)容,檢索系統(tǒng)必然對噪音內(nèi)容也建立索引,從而導致僅僅因為查詢詞在某張網(wǎng)頁的噪音內(nèi)容中出現(xiàn),而把該網(wǎng)頁作為結(jié)果返回,而網(wǎng)頁的主題內(nèi)容可能和這個查詢詞完全無關(guān)??梢钥闯?,噪音內(nèi)容不僅使索引結(jié)構(gòu)的規(guī)模變大,而且還導致了檢索準確性的下降。針對這個問題, 提出了一個去除網(wǎng)頁中噪音內(nèi)容的方法,該方法首先依據(jù) 標簽構(gòu)造網(wǎng)頁的標簽樹,從而依據(jù) 標簽將一張網(wǎng)頁規(guī)劃為相 互嵌套的內(nèi)容塊;而后,對于使用同一個模板作出的網(wǎng)頁集,利用基于信息熵的方法找出在該網(wǎng)頁集中多次出現(xiàn)的內(nèi)容,作為冗余內(nèi)容,而在該網(wǎng)頁集中出現(xiàn)較少的內(nèi)容塊就是有效信息塊。實驗證明該方法是有效的,但該方法必須局限在基于同一個模板的網(wǎng)頁集,而 的網(wǎng)頁模板不計其數(shù),該方法顯然不夠通用。 也提出了一個噪音內(nèi)容判斷方法,該方法必須針對某一個網(wǎng)站,通過對網(wǎng)站建立一棵特殊的標簽樹的方法,自動發(fā)現(xiàn)網(wǎng)站中網(wǎng)頁內(nèi)的噪音內(nèi)容。但這種方法的局限在于,它只能以網(wǎng)站為單位進行處理。實際上,任意一張網(wǎng)頁,人是比較容易區(qū)別 其中的噪音內(nèi)容和主題內(nèi)容的。這說明我們有可能追求自動識別一張網(wǎng)頁中的主題內(nèi)容和噪音內(nèi)容而不需要依賴于一個網(wǎng)頁集合;這樣就可以使去除網(wǎng)北京大學 網(wǎng)絡與分布式系統(tǒng)實驗室碩士學位論文 7 頁噪音內(nèi)容的方法更加通用和獨立。 頁自動分類 網(wǎng)頁自動分類是指用計算機程序來自動確定網(wǎng)頁與預先定義類別之間的隸屬關(guān)系 從總體上,分類器的整個工作周期可以分成訓練過程和分類過程。 訓練過程是指為預先確定的分類體系中的每個類別人工挑選一定量的樣本(我們稱這個樣本集合為訓練集),目的在于通過每個類別內(nèi)的樣本來最大程度地體現(xiàn)每個類的特征并區(qū)別不同類之間的特征。 在訓練 過程中,訓練集實例經(jīng)過分詞和特征選取處理后被表示成向量形式。在 該特征向量集 上,統(tǒng)計不同類別內(nèi)的詞的分布,形成類別與詞之間的一個加權(quán)映射。這個映射關(guān)系將是后續(xù)分類過程的依據(jù)。另外, 校驗集是訓練集的一部分,通過應用相應的閾值策略來預先確定每個類別的截尾閾值。截尾閾值的作用在于,在分類過程中,每個網(wǎng)頁都會被賦予一些候選類,以及該網(wǎng)頁與每個候選類的類屬關(guān)系權(quán)值,那么候選類中,類屬關(guān)系權(quán)值大于對應類截尾閾值的類別將被保留下來作為該網(wǎng)頁的分類結(jié)果。在分類過程中,一個待分類的中文網(wǎng)頁表示成向量形式后,應用分類算法同訓練過 程得到的類別模式逐一比較,得到候選類別列表,然后同訓練過程中得到的每個類別的閾值相比較,保留大于閾值的類別,并作為該網(wǎng)頁的分類結(jié)果。 在這兩個過程中,包含以下幾個關(guān)鍵技術(shù): 訓練集整理:從上述的介紹可以知道,訓練集是分類器的一個重要分類依據(jù),訓練集的質(zhì)量直接影響到后續(xù)分類的質(zhì)量。 特征項選?。涸谟柧毜倪^程中,對每個類別內(nèi)文檔中包含的詞項進行取舍,選取那些能夠明確體現(xiàn)一個類別特征并有很強區(qū)分能力的詞項,而去掉那些區(qū)分能力弱,模糊不同類別間特征邊界的詞項。同時,特征項選取還有降低向量空間維度的作用,從而提高分類 系統(tǒng)的效率。 人們已經(jīng)研究了多種特征選取方法,如:文檔頻率( 信息增益( 互信息( 開方擬和檢驗( 2術(shù)語強度( 等。 北京大學 網(wǎng)絡與分布式系統(tǒng)實驗室碩士學位論文 8 分類算法:通過比較給定網(wǎng)頁的特征向量與每個類別內(nèi)特征項的分布,確定網(wǎng)頁與類別的隸屬關(guān)系。常用的分類算法有以下幾種: 法、 算法、基于 分類算法、決策樹( 法、 法,等等。 訓練集 預處理 分類算法參數(shù)調(diào)整測試特征選取 分類結(jié)果 截尾算法I n d e p e n d e n c y B i n a r y 分類 M - a r y 分類圖表 2 實現(xiàn)中文網(wǎng)頁自動分類的一般過程 待分類中文網(wǎng)頁向量表示預處理訓練集實例預處理特征選取算法分類算法校驗集 測試每個類的閾值訓練結(jié)果類別表閾值策略候選類列表特征項向量表示訓練過程 分類過程圖表 3 中文網(wǎng)頁分類器的工作原理圖 由于噪音內(nèi)容與主題內(nèi)容無關(guān),因此,噪音內(nèi)容對上述的幾個關(guān)鍵技術(shù)都造成了不同程度的影響。在訓練過程中,訓練集中的噪音內(nèi)容會導致各個類別的特征變得模糊,甚至造成噪 音中的關(guān)鍵詞成為類別的重要特征項。在分類過程中,待分類網(wǎng)頁中的噪音內(nèi)容則會導致該網(wǎng)頁類別不明確,甚至網(wǎng)頁的分類結(jié)果被大量的噪音內(nèi)容所誤導,因而影響了網(wǎng)頁自動分類的效果。 提出了通過去掉網(wǎng)頁中的噪音特征項來提高網(wǎng)頁分類質(zhì)量的方法。這兩個方法中,作者著重考慮如何從訓練集中選取有代表性的特征項而去掉噪音的特征項,而沒有考慮先去掉訓練集網(wǎng)頁中的噪音內(nèi)容,而后在網(wǎng)頁的主題內(nèi)容中選取特征項。 北京大學 網(wǎng)絡與分布式系統(tǒng)實驗室碩士學位論文 9 息提取 信息提取是從文本中提取用戶感預先定義好的某些類型的信息(定義、實體、關(guān)系)并以結(jié)構(gòu)化的形式返回提 取結(jié)果的過程 它與信息檢索的區(qū)別在于:信息檢索是在一個文檔集合中找到與查詢詞相關(guān)的文檔子集;而信息提取是在文檔內(nèi)部提取出預先定義的某些類型的信息。信息提取的結(jié)果通常自動導入數(shù)據(jù)庫中,在這些數(shù)據(jù)之上可以作許多應用層次上的分析,例如:趨勢分析;也可以直接在 提供服務,例如:當前市場上某類商品價格表。 信息提取研究的目標是建立具有如下功能的系統(tǒng): 1、 從無結(jié)構(gòu)或半結(jié)構(gòu)化的文檔中自動發(fā)現(xiàn)有用信息,并將其中相關(guān)的信息聯(lián)系起來。 2、 能夠在只做簡單修改的情況下方便的應用到不同的領(lǐng)域。 3、 性能要滿 足用戶的需求。 一個信息提取系統(tǒng)通常分為三個自過程: 1、 從每個文檔內(nèi)提取有用信息。 2、 如果一個完整的記錄內(nèi)容分布在不同文檔中,則需要將不同文檔中提取的相關(guān)信息連接為一個完整的記錄。 3、 將用戶需要的信息按照一定格式輸出。 針對 頁的信息提取,較早的方法是:針對某一類具體網(wǎng)頁,人工提取該類網(wǎng)頁的內(nèi)容組織模式。然后,信息提取系統(tǒng)根據(jù)該模式從屬于該類的網(wǎng)頁中提取相應的內(nèi)容 但這些方法有一個共同的局限性,那就是需要人工提取內(nèi)容組織模式,這對于內(nèi)容組織風格繁多的說顯然是不適用的。因此,在 ,作者提出了 5 條啟發(fā)式規(guī)則,綜合利用這 5 條規(guī)則系統(tǒng)可以自動地發(fā)現(xiàn)網(wǎng)頁中各個主題信息塊( 邊界。 出了一種基于視覺相似性來自動分析網(wǎng)頁語義結(jié)構(gòu)的方法,該方法首先比較 頁內(nèi)容的視覺相似性,然后使用一個模式發(fā)現(xiàn)算法來確定這些視覺相似的內(nèi)容最有可能的組織模式,最后按照該模式將內(nèi)容重新組合。 在網(wǎng)頁信息提取過程中,自動識別網(wǎng)頁模式以及按照一定模式從網(wǎng)頁北京大學 網(wǎng)絡與分布式系統(tǒng)實驗室碩士學位論文 10 中提取信息都是很費時的,時間開銷主要取決于網(wǎng)頁中標簽結(jié)構(gòu)的復雜性以及提取出的模式的復雜性。傳統(tǒng)的方法必須要從整個網(wǎng)頁中提取模式,而 不是只針對主題內(nèi)容提取。由于主題內(nèi)容的結(jié)構(gòu)是相對簡單的,因此直接從主題內(nèi)容中提取模式或信息可以大大節(jié)省時間開銷。綜上,在凈化后的網(wǎng)頁上作信息提取不僅可以排除噪音信息對信息提取的干擾,提高信息提取的準確性,而且可以使得網(wǎng)頁中的結(jié)構(gòu)簡單化,提高信息提取的效率。 數(shù)據(jù)提取 元數(shù)據(jù)是指面向應用的、能被計算機所理解和處理的、描述 檔特征的數(shù)據(jù) 長期以來,元數(shù)據(jù)在數(shù)據(jù)庫領(lǐng)域和圖書館領(lǐng)域扮演著重要角色。隨著 研究與應用的發(fā)展,單純的網(wǎng)頁內(nèi)容已經(jīng)不能滿足需求,網(wǎng)頁元數(shù)據(jù)得到越來越廣泛的使用。在 息檢索領(lǐng)域,單純依賴關(guān)鍵詞匹配的檢索手段過于單一。內(nèi)容類別、摘要等元數(shù)據(jù)信息的合理使用,不僅使用戶可以從不同的角度進行查詢,而且也使得查詢的準確性得到提高。而主題搜索、個性化信息服務以及數(shù)字圖書館也都強烈的依賴資源的元數(shù)據(jù)信息。因此,準確且高效的提取必要的元數(shù)據(jù)是 各個研究領(lǐng)域面臨的重要問題。 一個得到廣泛應用的網(wǎng)絡資源元數(shù)據(jù)標準,它提供了一個描述網(wǎng)絡信息資源的元素集合。 在元數(shù)據(jù)提取領(lǐng)域,關(guān)鍵詞提取是一個比較活躍的分支。在關(guān)鍵詞提取的各種方法中,基于統(tǒng)計的方法被廣泛的 接受并被證明是有效的。 式通常被用來量化一個詞項的重要性。但 頁中有著豐富的標簽信息,如果將這些有用信息與傳統(tǒng)的公式結(jié)合起來,將會提高關(guān)鍵詞提取的準確性。在傳統(tǒng)的摘要提取方法中,摘要是通過選取權(quán)值較高的句子形成的,而句子的權(quán)值則是由它所包含的關(guān)鍵詞的權(quán)值決定的。除此之外,一些啟發(fā)式規(guī)則也起到了重要的作用,比如出現(xiàn)“綜上所述”、“本文論述了”等短語的句子通常有總結(jié)全文的功能。但基于啟發(fā)式規(guī)則的方法過于機械。 在本文中,我們首先對凈化后的網(wǎng)頁按照標簽結(jié)構(gòu)進行語義分段。在分段的基礎(chǔ)上,我們在 每段內(nèi)按照句子的權(quán)值選取重要句子。通過這種方北京大學 網(wǎng)絡與分布式系統(tǒng)實驗室碩士學位論文 11 法,可以保證自動生成的摘要能夠覆蓋整篇網(wǎng)頁的內(nèi)容,而不會被幾個權(quán)值很高的關(guān)鍵詞所引導。 北京大學 網(wǎng)絡與分布式系統(tǒng)實驗室碩士學位論文 12 第 3章 目前, 息系統(tǒng)通常面臨以下兩個問題: 一、 有用信息通常伴隨著大量的“噪音”內(nèi)容,而噪音內(nèi)容正是 頁與傳統(tǒng)文檔的一個主要區(qū)別。根據(jù)噪音內(nèi)容的粒度大小, 全局噪音 : 全局噪音 是指 具有較大粒度的噪音內(nèi)容,它通常包含鏡像網(wǎng)站以及近似網(wǎng)頁。 全局噪音 內(nèi)容不僅影響了 信息檢索系統(tǒng)(比如搜索引擎)的網(wǎng)頁搜集、索引和檢索結(jié)果排序的質(zhì)量,也使得 局部噪音 : 局部噪音 是指 頁內(nèi)與網(wǎng)頁主題內(nèi)容無關(guān)的噪音內(nèi)容,比如:廣告、導航條以及版權(quán)聲明等內(nèi)容。 局部噪音 使得應用程序很難確切得到網(wǎng)頁的主題內(nèi)容,因此它嚴重的影響了基于網(wǎng)頁內(nèi)容的應用程序。同時, 局部噪音 很多情況下是伴隨著超鏈出現(xiàn)的,因此, 局部噪音 也對基于網(wǎng)頁間鏈接關(guān)系的應用程序造成影響。 雖然噪音內(nèi)容在某些應用程序中是有用的,但對于大多數(shù)的 息系統(tǒng)而言,它們是有害的。 二、隨著 研究與應用的發(fā)展,單純的網(wǎng)頁內(nèi)容已經(jīng)不能滿足需求,網(wǎng)頁元數(shù)據(jù)得到越來越廣泛的使用。在 息檢索領(lǐng)域,單純依賴關(guān)鍵詞匹配的檢索手段過于單一,內(nèi)容類別、摘要等元數(shù)據(jù)信息的合理使用,不僅使用戶可以從不同的角度進行查詢,而且也使得查詢的準確性得到提高。而主題搜索、個性化以及數(shù)字圖書館也都強烈的依賴資源的元數(shù)據(jù)信息。但網(wǎng)頁的元數(shù)據(jù)信息在網(wǎng)頁中并沒有被明確的表示出來。因此,準確且高效的提取必要的元數(shù)據(jù)是 各個研究領(lǐng)域面臨的重要問題。 通過對各個領(lǐng)域工作及研究成果的分析,我們發(fā)現(xiàn)不同領(lǐng)域的工作存在兩個共性: 1、工作結(jié)果的共性。 雖然各個領(lǐng)域所做的工作都是為了解決網(wǎng)頁復雜化給本領(lǐng)域帶來的問題,但各個領(lǐng)域的工作結(jié)果中有著共同的部分。譬如,各個領(lǐng)域都需要去北京大學 網(wǎng)絡與分布式系統(tǒng)實驗室碩士學位論文 13 除原始網(wǎng)頁中的噪音內(nèi)容,然后在凈化后的網(wǎng)頁上進行后續(xù)工作;很多領(lǐng)域都需要獲取網(wǎng)頁的元數(shù)據(jù)信息。即凈化的網(wǎng)頁和元數(shù)據(jù)是它們都需要的結(jié)果。 2、 工作過程的共性。 在獲得不同結(jié)果的過程中存在著共同的中間環(huán)節(jié)。譬如:網(wǎng)頁分類、摘要的提取以及關(guān)鍵詞的選取都需要對文檔進行分詞操作。而這些中間環(huán)節(jié)有時是整個工作中效率上的瓶頸。 這些共性啟示我們有可能通過歸納不同應 用需求中的通用元素, 并作為一個模型一次性提取出來,從而對多種應用提供一個統(tǒng)一的支持??梢韵胂螅?這樣做既便于提高所需信息的質(zhì)量,又最大限度地避免重復工作帶來的時間開銷,從而在信息量和復雜性這兩個相互制約的因素之間找到一個合理的折衷點。 北京大學 網(wǎng)絡與分布式系統(tǒng)實驗室碩士學位論文 14 第 4章 預處理方法與技術(shù) 處理框架及結(jié)果描述 處理框架 本文中提出的預處理框架包括三部分:網(wǎng)頁凈化(局部噪音清除)、近似網(wǎng)頁消除(全局噪
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 石棉在環(huán)境保護領(lǐng)域中的應用考核試卷
- 船舶水上求生與逃生技術(shù)考核試卷
- 《睡眠障礙的影響與對策》課件
- 2025年防眩光太陽鏡項目建議書
- 學生資助誠信教育體系構(gòu)建
- 節(jié)能建筑生態(tài)景觀施工技術(shù)考核試卷
- 《STEAMI-診療指南》課件
- 纖維增強合成材料的制造與應用考核試卷
- 《亞太財務報告》課件
- 室內(nèi)設計材料匯報
- 耐藥菌耐藥性監(jiān)測策略-全面剖析
- 北京市通州區(qū)2025年初中學業(yè)水平模擬考試(一模)英語試卷(含答案)
- 手術(shù)中大出血搶救流程
- 2025重慶武工工業(yè)技術(shù)研究院有限公司招聘15人筆試參考題庫附帶答案詳解
- 輸液導管相關(guān)靜脈血栓形成中國專家共識 課件
- 光伏電站面試題庫及答案
- 2024年泉州實驗中學初一新生入學考試數(shù)學試卷
- 車間技能矩陣管理制度
- 陶藝店管理制度
- 2025-2030中國儲能電站行業(yè)市場深度分析及前景趨勢與投資研究報告
- 2025年標準租房合同范本
評論
0/150
提交評論