論web爬蟲技術(shù)工作原理的專題研究_第1頁
論web爬蟲技術(shù)工作原理的專題研究_第2頁
論web爬蟲技術(shù)工作原理的專題研究_第3頁
論web爬蟲技術(shù)工作原理的專題研究_第4頁
論web爬蟲技術(shù)工作原理的專題研究_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、. . . . 目錄 (Content)一、緒論21.1 引言21.2 背景21.3 定義3二、聚焦爬蟲工作原理與關(guān)鍵技術(shù)32.1 聚焦爬蟲相關(guān)概念32.2聚焦爬蟲的研究容32.3網(wǎng)絡(luò)爬蟲工作原理42.3.1抓取目標42.3.2 抓取目標描述4三、網(wǎng)頁搜索策略53.1 廣度優(yōu)先搜索策略53.2 最佳優(yōu)先搜索策略5四、網(wǎng)頁分析算法54.1 基于網(wǎng)絡(luò)拓撲的分析算法54.1.1 網(wǎng)頁(Webpage)粒度的分析算法54.1.2 粒度的分析算法64.1.3 網(wǎng)頁塊粒度的分析算法64.2 基于網(wǎng)頁容的網(wǎng)頁分析算法64.2.1 基于文本的網(wǎng)頁分析算法64.2.2 Hidden Web的網(wǎng)頁分析方法64.2

2、.3 數(shù)據(jù)密集型網(wǎng)頁的分析方法74.3 用戶協(xié)作網(wǎng)頁分析算法74.4 基于領(lǐng)域概念定制的網(wǎng)頁評價算法7五、 聚焦爬蟲系統(tǒng)體系結(jié)構(gòu)85.1 基于分類器的聚焦爬蟲85.2 基于數(shù)據(jù)抽取器的聚焦爬蟲85.3 基于用戶學(xué)習(xí)的聚焦爬蟲。8六、 總結(jié)8結(jié)論9參考文獻9一、緒論1.1 引言隨著網(wǎng)絡(luò)的迅速發(fā)展,萬維網(wǎng)成為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。搜索引擎(Search Engine),例如傳統(tǒng)的通用搜索引擎AltaVista,Yahoo和Google等,作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性,如:(1)

3、不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁。(2) 通用搜索引擎的目標是盡可能大的網(wǎng)絡(luò)覆蓋率,有限的搜索引擎服務(wù)器資源與無限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾將進一步加深。(3) 萬維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,圖片、數(shù)據(jù)庫、音頻/視頻多媒體等不同數(shù)據(jù)大量出現(xiàn),通用搜索引擎往往對這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無能為力,不能很好地發(fā)現(xiàn)和獲取。(4) 通用搜索引擎大多提供基于關(guān)鍵字的檢索,難以支持根據(jù)語義信息提出的查詢。以上4個局限性已經(jīng)將目前通用的搜索引擎的“信息涉與領(lǐng)域太廣”,“返回冗余信息多”,“結(jié)果不夠準確”等一系列的問題都

4、反映出來;結(jié)果將是導(dǎo)致在某些特定領(lǐng)域的查詢上則不夠深入和專業(yè)化。為了解決上述問題,定向抓取相關(guān)網(wǎng)頁資源的聚焦爬蟲應(yīng)運而生。聚焦爬蟲是一個自動下載網(wǎng)頁的程序,它根據(jù)既定的抓取目標,有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的,獲取所需要的信息。與通用爬蟲(generalpurpose web crawler)不同,聚焦爬蟲并不追求大的覆蓋,而將目標定為抓取與某一特定主題容相關(guān)的網(wǎng)頁,為面向主題的用戶查詢準備數(shù)據(jù)資源。1.2 背景近年來,隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)信息呈指數(shù)級的增長,這種信息量的飛速增長對通用網(wǎng)絡(luò)爬蟲和搜索引擎呈現(xiàn)了空前的挑戰(zhàn),越來越多的人希望能夠快速且有效地找到自己所需要的信息。聚焦爬蟲是

5、一種面向主題的信息搜集系統(tǒng),可以根據(jù)用戶需要從互聯(lián)網(wǎng)上自動搜集到主題相關(guān)信息,在主題搜索引擎、站點結(jié)構(gòu)分析等方面取得越來越廣泛的應(yīng)用。 傳統(tǒng)的聚焦爬蟲抓取的目標是與某一特定主題容相關(guān)的網(wǎng)頁,而在有些應(yīng)用中,如網(wǎng)絡(luò)目錄,更多的是給用戶提供主題相關(guān)。隨著互聯(lián)網(wǎng)信息的日益增多,目前靠人工來維護的網(wǎng)絡(luò)目錄越來越顯得低效和不可行。為了實現(xiàn)具有自動維護功能的網(wǎng)絡(luò)目錄,將抓取目標鎖定為主題的聚焦爬蟲應(yīng)運而生。 聚焦爬蟲是在現(xiàn)有聚焦爬蟲的基礎(chǔ)上加入選取和分類機制,從用戶提供的種子開始,以Best-first原則獲取最佳候選并開始新一輪的爬行分類。1.3 定義網(wǎng)絡(luò)爬蟲源自Spider (或Crawler、rob

6、ots、wanderer)等的意譯。網(wǎng)絡(luò)爬蟲的定義有廣義和狹義之分1,狹義的定義為:利用標準的協(xié)議,根據(jù)超級和Web文檔檢索的方法遍歷萬維網(wǎng)信息空間的軟件程序。廣義的定義為:所有能利用協(xié)議檢索Web文檔的軟件都稱之為網(wǎng)絡(luò)爬蟲。網(wǎng)絡(luò)爬蟲是一個功能很強大的自動提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)下載網(wǎng)頁,是搜索引擎的重要組成部分。它通過請求站點上的HTML文檔訪問某一站點。它遍歷Web空間,不斷從一個站點移動到另一個站點,自動建立索引,并加入到網(wǎng)頁數(shù)據(jù)庫中。網(wǎng)絡(luò)爬蟲進入某個超級文本時。利用HTML語言的標記結(jié)構(gòu)來搜索信息與獲取指向其他超級文本的URL地址可以完全不依賴用戶干預(yù)實現(xiàn)網(wǎng)絡(luò)上的自動“爬行

7、”和搜索。二、聚焦爬蟲工作原理與關(guān)鍵技術(shù)2.1 聚焦爬蟲相關(guān)概念       聚焦爬蟲,又稱主題爬蟲(或?qū)I(yè)爬蟲),是“面向特定主題”的一種網(wǎng)絡(luò)爬蟲程序。它與我們通常所說的爬蟲(通用爬蟲)的區(qū)別之處就在于,聚焦爬蟲在實施網(wǎng)頁抓取時要進行主題篩選。它盡量保證只抓取與主題相關(guān)的網(wǎng)頁信息。2.2聚焦爬蟲的研究容聚焦爬蟲的研究核心,集中在以下兩點:(一)主題相關(guān)度計算:即計算當(dāng)前已經(jīng)抓下來的頁面的主題相關(guān)程度。對主題相關(guān)度超過某一規(guī)定閾值的,即與主題相關(guān)的網(wǎng)頁,將其保存到網(wǎng)頁庫;不相關(guān)的,則拋棄不管。(二)主題相關(guān)度預(yù)測:主題相關(guān)度預(yù)測是針對

8、待抓URL的。也就是我們在分析當(dāng)前已下載網(wǎng)頁時所分離出來的哪些URLS。我們要通過計算它們的主題預(yù)測值來決定接下來是否對該URL所對應(yīng)的網(wǎng)頁進行抓取。針對以上兩個問題,研究聚焦爬蟲的學(xué)者們大體提出了如下思路和方法來進行該課題的研究:(一)基于網(wǎng)絡(luò)拓撲結(jié)構(gòu)的研究方法:網(wǎng)絡(luò)的拓撲結(jié)構(gòu)表征了網(wǎng)頁間的一種關(guān)系,而大部分互相的網(wǎng)頁間還是有一定的主題關(guān)聯(lián)性的。比方說,一個介紹“計算機學(xué)科知識”的首頁上可能會出現(xiàn)“數(shù)據(jù)庫”、“操作系統(tǒng)”等相關(guān)子學(xué)科的。這種本身就體現(xiàn)了一種主題上的關(guān)聯(lián)性。再者,了解PageRank和HITS算法的朋友都知道,網(wǎng)頁間的關(guān)系還能反映網(wǎng)頁的重要程度,越是重要的網(wǎng)頁被別的網(wǎng)頁到的機會

9、便越大。而比較重要的網(wǎng)頁往往聚集了最上層的主題,它的主題可以反饋到它所的所有網(wǎng)頁中。(二)基于網(wǎng)頁容的分析算法:基于網(wǎng)頁容的分析算法指的是利用網(wǎng)頁容(文本、數(shù)據(jù)等資源)特征進行的網(wǎng)頁評價算法。它包括純文本的分類與聚類算法和超文本的分類聚類算法。純文本即網(wǎng)頁上的文字容,分析它的主題相關(guān)度主要從兩個方面入手,一個是它主題詞出現(xiàn)的頻率(詞頻),再者就是主題詞出現(xiàn)的位置,我們知道在網(wǎng)頁標題中出現(xiàn)的詞匯往往更能反映網(wǎng)頁的主題信息。超文本,就是網(wǎng)頁連接上的文字信息。它一方面可以作為當(dāng)前頁面主題相關(guān)度的一個判別標準,更主要的,它被用作主題預(yù)測值的計算,即判斷該URL所對應(yīng)的網(wǎng)頁的主題相關(guān)性。(三)基于URL

10、的分析:主要還是用于主題預(yù)測。從三個方面進行考慮:1 URL串自身所攜帶的信息。對于以下兩個的分析:URL1:beijing.koubei./fang URL2:beijing.koubei./lvyoupiaowu/lvyou我們很容易知道URL1是有關(guān)(beijing)的與“房(fang)”的話題,而URL2則是有關(guān)beijing方面與旅游(lvyou)有關(guān),并且會涉與到旅游票務(wù)(lvyoupiaowu)的網(wǎng)頁。2 URL可分為三個部分 前面部分的主題信息可以反饋到后面的子目錄中;一個URL分成三個部分(去掉 協(xié)議部分):host,path,query。其中,path由一系列directo

11、ry組成,query由一系列鍵值對組成。比如 ,其host為 ;path為/news_show.php;query為id=15,組成該query的鍵值對為(id,15)。URL的host往往說明的一個大的主題,如 所對應(yīng)的是“科技大學(xué)”的,他的大主題就是“科技大學(xué)”;而其后的path則表征了有關(guān)與“科技大學(xué)”有關(guān)的子類主題信息,比如時事新聞、科研建設(shè)、校園活動等等;query項所對應(yīng)的是最為具體的信息,該實例中id=15對應(yīng)的就是“科技大學(xué) 信息中心 - 科學(xué)研究”目錄下的“科研概況”信息。3 URL錨文本所體現(xiàn)的信息。錨文本也叫文本,指超的文本容,一般認為,錨文本代表了網(wǎng)頁作者對超所指向網(wǎng)頁

12、的評價和描述。因此,錨文本可能不會為網(wǎng)頁自身的主題預(yù)測提供有用的信息,但是它極有可能為它的目標網(wǎng)頁的主題預(yù)測提供非常重要的信息。比如對于<a href=”hyperlink”>聚焦爬蟲</a>,所代表的網(wǎng)頁主題很可能是聚焦爬蟲方面的。擴展錨文本指錨文本和錨文本附近文本的組合。引入擴展錨文本的概念是為了更準確地預(yù)測目標網(wǎng)頁的主題相關(guān)度。在有些情況錨下,文本僅僅是“點擊這里”、“詳細信息”等較抽象的描述,這個時候擴展錨文本比錨文本身更具有描述能力。2.3網(wǎng)絡(luò)爬蟲工作原理網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從Internet網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。傳統(tǒng)爬

13、蟲從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的,保留有用的并將其放入等待抓取的URL隊列。然后,它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)上述過程,直到達到系統(tǒng)的某一條件時停止,另外,所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對于聚焦爬蟲來說,這一過程所得到的分析結(jié)果還可能對以后的抓取過程給出反饋和指導(dǎo)。聚焦爬蟲是以一定的網(wǎng)頁分析算法,提取與主題相關(guān)的

14、超,加入待抓取隊列根據(jù)一定的搜索策略,從待抓取隊列中選擇下一步抓取,并重復(fù)上述過程,直到滿足某一條件停止從被抓取網(wǎng)頁中提取結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù)信息基礎(chǔ)核心工作環(huán)節(jié):網(wǎng)頁抓取和信息提取。        相對于通用網(wǎng)絡(luò)爬蟲,聚焦爬蟲還需要解決三個主要問題:       (1) 對抓取目標的描述或定義;      (2) 對網(wǎng)頁或數(shù)據(jù)的分析與過濾;      (3) 對URL的搜索策略。

15、0; 2.3.1抓取目標抓取目標的描述和定義,是決定網(wǎng)頁分析算法與URL搜索策略如何制訂的基礎(chǔ)。而網(wǎng)頁分析算法和候選URL排序算法是決定搜索引擎所提供的服務(wù)形式和爬蟲網(wǎng)頁抓取行為的關(guān)鍵所在。這兩個部分的算法又是緊密相關(guān)的。  2.3.2 抓取目標描述  現(xiàn)有聚焦爬蟲對抓取目標的描述可分為基于目標網(wǎng)頁特征、基于目標數(shù)據(jù)模式和基于領(lǐng)域概念3種。基于目標網(wǎng)頁特征的爬蟲所抓取、存儲并索引的對象一般為或網(wǎng)頁。根據(jù)種子樣本獲取方式可分為:  (1) 預(yù)先給定的初始抓取種子樣本;  (2) 預(yù)先給定的網(wǎng)頁分類目錄和與分類目錄對應(yīng)的種子樣本,如Yahoo!分類結(jié)構(gòu)等;&

16、#160; (3) 通過用戶行為確定的抓取目標樣例,分為:  a) 用戶瀏覽過程中顯示標注的抓取樣本;  b) 通過用戶日志挖掘得到訪問模式與相關(guān)樣本。  其中,網(wǎng)頁特征可以是網(wǎng)頁的容特征,也可以是網(wǎng)頁的結(jié)構(gòu)特征,等等。  現(xiàn)有的聚焦爬蟲對抓取目標的描述或定義可以分為基于目標網(wǎng)頁特征,基于目標數(shù)據(jù)模式和基于領(lǐng)域概念三種。基于目標網(wǎng)頁特征的爬蟲所抓取、存儲并索引的對象一般為或網(wǎng)頁。具體的方法根據(jù)種子樣本的獲取方式可以分為:(1)預(yù)先給定的初始抓取種子樣本;(2)預(yù)先給定的網(wǎng)頁分類目錄和與分類目錄對應(yīng)的種子樣本,如Yahoo!分類結(jié)構(gòu)等;(3)通過用戶行為確

17、定的抓取目標樣例。其中,網(wǎng)頁特征可以是網(wǎng)頁的容特征,也可以是網(wǎng)頁的結(jié)構(gòu)特征,等等。  基于目標數(shù)據(jù)模式的爬蟲針對的是網(wǎng)頁上的數(shù)據(jù),所抓取的數(shù)據(jù)一般要符合一定的模式,或者可以轉(zhuǎn)化或映射為目標數(shù)據(jù)模式。另一種描述方式是建立目標領(lǐng)域的本體或詞典,用于從語義角度分析不同特征在某一主題中的重要程度。三、網(wǎng)頁搜索策略網(wǎng)頁的抓取策略可以分為深度優(yōu)先、廣度優(yōu)先和最佳優(yōu)先三種。深度優(yōu)先在很多情況下會導(dǎo)致爬蟲的陷入(trapped)問題,目前常見的是廣度優(yōu)先和最佳優(yōu)先方法。 3.1 廣度優(yōu)先搜索策略廣度優(yōu)先搜索策略是指在抓取過程中,在完成當(dāng)前層次的搜索后,才進行下一層次的搜索。該算法的設(shè)計和實現(xiàn)相對簡單

18、。在目前為覆蓋盡可能多的網(wǎng)頁,一般使用廣度優(yōu)先搜索方法。也有很多研究將廣度優(yōu)先搜索策略應(yīng)用于聚焦爬蟲中。其基本思想是認為與初始URL在一定距離的網(wǎng)頁具有主題相關(guān)性的概率很大。另外一種方法是將廣度優(yōu)先搜索與網(wǎng)頁過濾技術(shù)結(jié)合使用,先用廣度優(yōu)先策略抓取網(wǎng)頁,再將其中無關(guān)的網(wǎng)頁過濾掉。這些方法的缺點在于,隨著抓取網(wǎng)頁的增多,大量的無關(guān)網(wǎng)頁將被下載并過濾,算法的效率將變低。 3.2 最佳優(yōu)先搜索策略最佳優(yōu)先搜索策略按照一定的網(wǎng)頁分析算法,預(yù)測候選URL與目標網(wǎng)頁的相似度,或與主題的相關(guān)性,并選取評價最好的一個或幾個URL進行抓取。它只訪問經(jīng)過網(wǎng)頁分析算法預(yù)測為“有用”的網(wǎng)頁。存在的一個問題是,在爬蟲抓取

19、路徑上的很多相關(guān)網(wǎng)頁可能被忽略,因為最佳優(yōu)先策略是一種局部最優(yōu)搜索算法。因此需要將最佳優(yōu)先結(jié)合具體的應(yīng)用進行改進,以跳出局部最優(yōu)點。將在第4節(jié)中結(jié)合網(wǎng)頁分析算法作具體的討論。研究表明,這樣的閉環(huán)調(diào)整可以將無關(guān)網(wǎng)頁數(shù)量降低30%90%。四、網(wǎng)頁分析算法網(wǎng)頁分析算法可以歸納為基于網(wǎng)絡(luò)拓撲、基于網(wǎng)頁容和基于用戶訪問行為三種類型。 4.1 基于網(wǎng)絡(luò)拓撲的分析算法基于網(wǎng)頁之間的,通過已知的網(wǎng)頁或數(shù)據(jù),來對與其有直接或間接關(guān)系的對象(可以是網(wǎng)頁或等)作出評價的算法。又分為網(wǎng)頁粒度、粒度和網(wǎng)頁塊粒度這三種。 4.1.1 網(wǎng)頁(Webpage)粒度的分析算法PageRank和HITS算法是最常見的分析算法,兩

20、者都是通過對網(wǎng)頁間度的遞歸和規(guī)化計算,得到每個網(wǎng)頁的重要度評價。PageRank算法雖然考慮了用戶訪問行為的隨機性和Sink網(wǎng)頁的存在,但忽略了絕大多數(shù)用戶訪問時帶有目的性,即網(wǎng)頁和與查詢主題的相關(guān)性。針對這個問題,HITS算法提出了兩個關(guān)鍵的概念:權(quán)威型網(wǎng)頁(authority)和中心型網(wǎng)頁(hub)。 基于的抓取的問題是相關(guān)頁面主題團之間的隧道現(xiàn)象,即很多在抓取路徑上偏離主題的網(wǎng)頁也指向目標網(wǎng)頁,局部評價策略中斷了在當(dāng)前路徑上的抓取行為。以上提出了一種基于反向(BackLink)的分層式上下文模型(Context Model),用于描述指向目標網(wǎng)頁一定物理跳數(shù)半徑的網(wǎng)頁拓撲圖的中心Laye

21、r0為目標網(wǎng)頁,將網(wǎng)頁依據(jù)指向目標網(wǎng)頁的物理跳數(shù)進行層次劃分,從外層網(wǎng)頁指向?qū)泳W(wǎng)頁的稱為反向。 4.1.2 粒度的分析算法粒度的資源發(fā)現(xiàn)和管理策略也比網(wǎng)頁粒度的更簡單有效。粒度的爬蟲抓取的關(guān)鍵之處在于站點的劃分和站點等級(SiteRank)的計算。SiteRank的計算方法與PageRank類似,但是需要對之間的作一定程度抽象,并在一定的模型下計算的權(quán)重。 劃分情況分為按域名劃分和按IP地址劃分兩。以上討論了在分布式情況下,通過對同一個域名下不同主機、服務(wù)器的IP地址進行站點劃分,構(gòu)造站點圖,利用類似PageRank的方法評價SiteRank。同時,根據(jù)不同文件在各個站點上的分布情況,構(gòu)造文檔

22、圖,結(jié)合SiteRank分布式計算得到DocRank。從而證明了,利用分布式的SiteRank計算,不僅大大降低了單機站點的算法代價,而且克服了單獨站點對整個網(wǎng)絡(luò)覆蓋率有限的缺點。附帶的一個優(yōu)點是,常見PageRank 造假難以對SiteRank進行欺騙。4.1.3 網(wǎng)頁塊粒度的分析算法在一個頁面中,往往含有多個指向其他頁面的,這些中只有一部分是指向主題相關(guān)網(wǎng)頁的,或根據(jù)網(wǎng)頁的錨文本表明其具有較高重要性。但是,在PageRank和HITS算法中,沒有對這些作區(qū)分,因此常常給網(wǎng)頁分析帶來廣告等噪聲的干擾。 4.2 基于網(wǎng)頁容的網(wǎng)頁分析算法基于網(wǎng)頁容的分析算法指的是利用網(wǎng)頁容(文本、數(shù)據(jù)等資源)特

23、征進行的網(wǎng)頁評價。網(wǎng)頁的容從原來的以超文本為主,發(fā)展到后來動態(tài)頁面(或稱為Hidden Web)數(shù)據(jù)為主,后者的數(shù)據(jù)量約為直接可見頁面數(shù)據(jù)(PIW,Publicly Indexable Web)的400500倍。另一方面,多媒體數(shù)據(jù)、Web Service等各種網(wǎng)絡(luò)資源形式也日益豐富。因此,基于網(wǎng)頁容的分析算法也從原來的較為單純的文本檢索方法,發(fā)展為涵蓋網(wǎng)頁數(shù)據(jù)抽取、機器學(xué)習(xí)、數(shù)據(jù)挖掘、語義理解等多種方法的綜合應(yīng)用。本節(jié)根據(jù)網(wǎng)頁數(shù)據(jù)形式的不同,將基于網(wǎng)頁容的分析算法,歸納以下三類:第一種針對以文本和超為主的無結(jié)構(gòu)或結(jié)構(gòu)很簡單的網(wǎng)頁;第二種針對從結(jié)構(gòu)化的數(shù)據(jù)源(如RDBMS)動態(tài)生成的頁面,其數(shù)

24、據(jù)不能直接批量訪問;第三種針對的數(shù)據(jù)界于第一和第二類數(shù)據(jù)之間,具有較好的結(jié)構(gòu),顯示遵循一定模式或風(fēng)格,且可以直接訪問。 4.2.1 基于文本的網(wǎng)頁分析算法1) 純文本分類與聚類算法 很大程度上借用了文本檢索的技術(shù)。文本分析算法可以快速有效的對網(wǎng)頁進行分類和聚類,但是由于忽略了網(wǎng)頁間和網(wǎng)頁部的結(jié)構(gòu)信息,很少單獨使用。 2) 超文本分類和聚類算法4.2.2 Hidden Web的網(wǎng)頁分析方法大約80%的數(shù)據(jù)是動態(tài)生成的。這些容 大多“隱藏”存儲在后臺的可查詢數(shù)據(jù)庫中,因此稱為“Hidden Web”。目前大多數(shù)的通用搜索引擎僅僅覆蓋了部分的PIW,卻忽略了數(shù)據(jù)量約為PIW 400500倍的Hidd

25、en Web(或稱為Deep Web)。針對Hidden Web的爬蟲與普通的聚焦爬蟲相比,需要更多地對網(wǎng)頁中表單進行發(fā)現(xiàn)、探測查詢(probing query)和分析。對于網(wǎng)頁上表單的處理很多時候需要采用用戶輔助的半自動方法,如典型的HIWE系統(tǒng)。該方法將表單表示為一組(element, domain)二元組,并嘗試通過標注、頁面布局等信息確定表單的輸入數(shù)據(jù)模式。另一種無需人工輔助的方法則需要更多對網(wǎng)頁后臺數(shù)據(jù)庫的反復(fù)查詢,分析結(jié)果的數(shù)量和屬性,在利用熵理論上,采用了無需人工輔助的方法來自動發(fā)現(xiàn)領(lǐng)域相關(guān)的Hidden Web資源。4.2.3 數(shù)據(jù)密集型網(wǎng)頁的分析方法數(shù)據(jù)密集型(data in

26、tensive)網(wǎng)頁的數(shù)據(jù)形式介于Hidden Web和文本密集型網(wǎng)頁之間。它們具有良好的結(jié)構(gòu)性,又可以直接從頁面讀?。欢覕?shù)據(jù)的語義在網(wǎng)頁上顯示標注,因此不需要對這些網(wǎng)頁之后的數(shù)據(jù)庫進行探測查詢。例如電子商務(wù)的產(chǎn)品信息頁面,具有統(tǒng)一的風(fēng)格,其中的數(shù)據(jù)表示具有固定格式,并按照一定目錄層次結(jié)構(gòu)來組織,因此也稱為分類導(dǎo)向型(taxonomy directed)網(wǎng)頁。的獲取工作主要集中在對網(wǎng)頁數(shù)據(jù)的抽取,如頁面塊或目錄發(fā)現(xiàn),結(jié)構(gòu)化數(shù)據(jù)的記錄邊界確定等等。爬蟲將這些數(shù)據(jù)抽取出來,以一定格式在本地存儲、分析,從而指導(dǎo)下一步的抓取工作?;舅悸肥?,將html頁面轉(zhuǎn)化為token序列或標記樹(tag tre

27、e),如DOM樹等數(shù)據(jù)結(jié)構(gòu),再在這種轉(zhuǎn)化的數(shù)據(jù)結(jié)構(gòu)上進行模式發(fā)現(xiàn),實現(xiàn)從抽取出結(jié)構(gòu)化的數(shù)據(jù)。普遍采用的方抽取法是wrapper提取頁面信息。Wrapper可人工維護,或半自動的生成。這種方法通常具有較強的針對性和局限性,動態(tài)性常常導(dǎo)致wrapper失效,因此需要大量的wrapper維護和用互。另一種方法是從具有統(tǒng)一風(fēng)格和顯示規(guī)則的若干網(wǎng)頁來學(xué)習(xí)并抽取結(jié)構(gòu)化數(shù)據(jù)。包括:進行連續(xù)數(shù)據(jù)記錄之間的記錄邊界發(fā)現(xiàn);在頁面所轉(zhuǎn)化成的標記串上做模式發(fā)現(xiàn)分析;當(dāng)網(wǎng)頁上的數(shù)據(jù)記錄不連續(xù),記錄的顯示風(fēng)格也不完全一致時,就需要更魯棒的算法查找標記樹種的重復(fù)結(jié)點。在很多情況下,這些數(shù)據(jù)是以HTML的表格形式(table

28、/table)出現(xiàn)的。4.3 用戶協(xié)作網(wǎng)頁分析算法提供的網(wǎng)頁關(guān)聯(lián)度往往帶有噪音,網(wǎng)絡(luò)的異構(gòu)性和動態(tài)性使得對結(jié)構(gòu)的建模很難達到令人滿意的效果。而用戶的訪問模式往往可靠反映了資源的主題相關(guān)性,且具有時效性,可即時反應(yīng)網(wǎng)絡(luò)的變更等情況。提出了通過用戶協(xié)作、學(xué)習(xí)瀏覽模式來抓取網(wǎng)頁的方法。協(xié)作抓取需要獲取用戶瀏覽行為,一般有兩種方法:日志挖掘和用戶標注。這個用戶瀏覽模式挖掘法,對與某一特定查詢謂詞相關(guān)的網(wǎng)頁作相似性建模。以大量公共域名代理的用戶訪問日志為參考,經(jīng)過對大群組用戶信息過濾,統(tǒng)計并總結(jié)出了三種需要考慮的用戶訪問信息:對不同網(wǎng)頁訪問頻率;對不同網(wǎng)頁特征訪問頻率;訪問同一主題網(wǎng)頁的時間局域性。其中

29、,試驗表明,協(xié)作抓取比基于的智能抓?。╥ntelligent crawling)策略有更好的準確性。用戶在瀏覽過程中,對“有用”網(wǎng)頁進行顯式標注的網(wǎng)頁集合為參考。利用隱含馬爾可夫模型(Hidden Markov Model) 適于進行動態(tài)模式識別模型的特性,學(xué)習(xí)用戶的瀏覽行為,預(yù)測不同網(wǎng)頁聚類之間的語義聯(lián)系。4.4 基于領(lǐng)域概念定制的網(wǎng)頁評價算法聚焦抓取常以三種方法表示:(1)預(yù)給初始種子樣本(如種子URL,目標網(wǎng)頁樣本等);(2)預(yù)定網(wǎng)頁分類結(jié)構(gòu)(如yahoo!)和網(wǎng)頁訓(xùn)練集生成的分類器;(3)用戶顯式標注的或從日志推理得到的“有用”樣本。三種方法都只是對抓取行為的“主題性”或所關(guān)心的“領(lǐng)域

30、”給出了模糊的定義,并采用了預(yù)定義的本體信息,領(lǐng)域核心概念的模式定義以與領(lǐng)域相關(guān)的詞典以與預(yù)定義的元搜索查詢語句來表示領(lǐng)域概念。領(lǐng)域本體由不同的概念、實體與其之間的關(guān)系,以與與之對應(yīng)的詞匯入構(gòu)項(lexical entry)組成。網(wǎng)頁中的關(guān)鍵詞在通過與領(lǐng)域本體對應(yīng)的詞典作規(guī)化轉(zhuǎn)換之后,進行計數(shù)和加權(quán),算出與所選領(lǐng)域的相關(guān)度。對規(guī)化后的詞進行加權(quán)時,根據(jù)本體的概念層次,離核心概念越近的權(quán)重越高。該方法比廣度優(yōu)先抓取策略和基于關(guān)鍵字的分類分析算法具有更高的準確性和效率。另一個優(yōu)點在于,即使初始URL與領(lǐng)域不直接相關(guān),也具有較好的抗干擾能力,并逐漸趨近于主題相關(guān)的抓取路徑。五、 聚焦爬蟲系統(tǒng)體系結(jié)構(gòu)

31、下面分析三種具有帶表性的體系結(jié)構(gòu)。5.1 基于分類器的聚焦爬蟲目前大多數(shù)的聚焦抓取都采用了類似的工作流程。根據(jù)一個主題目錄和用戶指定的初始點(如書簽)來描述抓取目標,并在用戶瀏覽過程中,將用戶標注的感興趣網(wǎng)頁放入相應(yīng)的主題目錄,修改主題樣本。系統(tǒng)的兩個主要部分是網(wǎng)頁分類器和網(wǎng)頁選擇器(distiller)。網(wǎng)頁分類器負責(zé)學(xué)習(xí)抓取目標的特點,計算網(wǎng)頁的關(guān)聯(lián)度,并過濾網(wǎng)頁。選擇器負責(zé)計算網(wǎng)頁的重要程度,發(fā)現(xiàn)中心型網(wǎng)頁,并由此動態(tài)決定網(wǎng)頁的訪問順序。5.2 基于數(shù)據(jù)抽取器的聚焦爬蟲聚焦爬蟲從網(wǎng)絡(luò)上發(fā)現(xiàn)所需要的資源網(wǎng)頁,傳遞給數(shù)據(jù)抽取器進行數(shù)據(jù)抽取工作。數(shù)據(jù)抽取可能是對Hidden Web之后的數(shù)據(jù)庫

32、進行探測查詢,也可能是通過wrapper或網(wǎng)頁外觀格式信息進行數(shù)據(jù)抽取。得到的原數(shù)據(jù)將由數(shù)據(jù)分析器作分析和標注,才能轉(zhuǎn)化為符合系統(tǒng)數(shù)據(jù)庫模式的結(jié)構(gòu)化數(shù)據(jù)進行存儲和索引。5.3 基于用戶學(xué)習(xí)的聚焦爬蟲。協(xié)作聚焦爬蟲的體系結(jié)構(gòu)關(guān)鍵在于對用戶的瀏覽模式的學(xué)習(xí)模塊。系統(tǒng)通過記錄用戶在瀏覽到感興趣的網(wǎng)頁時,點擊“有用”按鈕的行為,記錄相相關(guān)網(wǎng)頁,為用戶建立瀏覽模型。之后,系統(tǒng)對經(jīng)過標注的網(wǎng)頁進行LSI聚類,根據(jù)聚類結(jié)果構(gòu)建概念圖,表示不同類別之間的聯(lián)系。這樣,系統(tǒng)就可以利用不同網(wǎng)頁間的關(guān)系,學(xué)習(xí)用戶的瀏覽行為。用戶瀏覽模式學(xué)習(xí)還可以通過對日志的挖掘來獲得,但是系統(tǒng)同樣要通過建模和學(xué)習(xí)兩個部分來完成對爬蟲的指導(dǎo)。六、 總結(jié)本文介紹并分析了聚焦爬蟲中的關(guān)鍵技術(shù):抓取目標定義與描述,網(wǎng)頁分析算法和網(wǎng)頁搜索策略,并根據(jù)網(wǎng)絡(luò)拓撲、網(wǎng)頁數(shù)據(jù)容、用戶行為等方面將各種網(wǎng)頁分析算法作了分類和比較。雖然目前已經(jīng)存在多種算法和實現(xiàn)系統(tǒng),聚焦爬蟲技術(shù)仍有許多值得研究和探討的課題,歸納起來有以下幾個方面: (1) 面

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論