下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)碼產(chǎn)品信息的主題爬蟲設(shè)計(jì)
0查詢結(jié)果的干擾自web站點(diǎn)出現(xiàn)以來,該網(wǎng)站一直在開發(fā)。通用搜索引擎是基于整個(gè)Web采集信息,采集的頁面數(shù)量非常大,因此在檢索的結(jié)果中,包含了大量與查詢不相關(guān)或相關(guān)性很小的內(nèi)容,這些查詢結(jié)果都極大地干擾到了用戶。隨著Web信息的急劇膨脹,這種干擾也越來越嚴(yán)重,同時(shí)用戶也越來越渴望得到與特定主題相關(guān)的信息。通用搜索引擎向用戶提供幾乎所有類型、任何主題的資源,這顯然已經(jīng)不能滿足用戶針對(duì)特定主題的查詢要求。針對(duì)這種情況,需要一個(gè)數(shù)據(jù)全面深入精確且更新及時(shí)的主題搜索引擎。1開展特定領(lǐng)域、特定人群開展的檢索服務(wù)主題搜索引擎是相對(duì)通用搜索引擎的信息量大、查詢不準(zhǔn)確、深度不夠等因素而提出來的新的搜索引擎服務(wù)模式,它是通用搜索引擎在某個(gè)類別的專業(yè)化,就是針對(duì)性地為某一特定主題、特定領(lǐng)域、特定人群或是特定需求提供的信息檢索服務(wù)。通用搜索引擎好比是“超市”,商品應(yīng)有盡有,而主題搜索引擎就好比是“家具城”、“電腦城”,提供專項(xiàng)服務(wù)。主題搜索引擎因?yàn)榫哂休^強(qiáng)的領(lǐng)域針對(duì)性,能夠排除很多冗余信息,在很大程度上減少了不相關(guān)的檢索結(jié)果,從而提高了檢索的準(zhǔn)確性。主題搜索引擎與通用搜索引擎在工作原理上是相似的,也是由信息采集、信息處理和信息檢索三部分組成。不同的是主題搜索引擎只采集與主題相關(guān)的信息。主題爬蟲就是為其搜集與主題相關(guān)的網(wǎng)頁資源。2主題設(shè)計(jì)2.1種子網(wǎng)頁的體系結(jié)構(gòu)如果將互聯(lián)網(wǎng)看成是一張圖,那么每個(gè)網(wǎng)頁就是其中的節(jié)點(diǎn),網(wǎng)頁與網(wǎng)頁之間的鏈接則構(gòu)成弧,用圖的遍歷算法通過弧可以遍歷每個(gè)節(jié)點(diǎn)。爬蟲就是這樣順著鏈接按圖索驥,爬行整個(gè)網(wǎng)絡(luò)的。爬蟲從種子網(wǎng)頁出發(fā),向服務(wù)器發(fā)送HTTP請(qǐng)求,請(qǐng)求URL對(duì)應(yīng)的資源,分析下載的頁面,提取鏈接,將鏈接加入U(xiǎn)RL隊(duì)列,以便后續(xù)讀取。普通爬蟲的體系結(jié)構(gòu)如圖1所示。種子網(wǎng)頁用來賦予抓取模塊初始的URL,抓取模塊以這些初始URL去Internet上爬行;爬行模塊向URL對(duì)應(yīng)的Server發(fā)送HTTP請(qǐng)求,請(qǐng)求URL所標(biāo)識(shí)的資源,Server返回響應(yīng)消息,響應(yīng)消息中的響應(yīng)正文即為我們請(qǐng)求的資源;鏈接抓取模塊,得到我們請(qǐng)求的網(wǎng)頁之后,抓取其中的超級(jí)鏈接,將沒有訪問過的鏈接存放到URL哈希表中。抓取到的網(wǎng)頁存放在網(wǎng)頁庫中,為后面的預(yù)處理索引模塊提供基礎(chǔ)。主題爬蟲是以普通爬蟲為基礎(chǔ)的,實(shí)際上它是對(duì)普通爬蟲功能上的擴(kuò)充,用于搜集與主題相關(guān)的網(wǎng)頁,其組成如圖2所示。包括種子網(wǎng)頁、主題確立模塊、爬行模塊、過濾模塊、鏈接抓取模塊和排序模塊等等。種子網(wǎng)頁和普通爬蟲的種子網(wǎng)頁的作用一樣,爬蟲以種子網(wǎng)頁為起始網(wǎng)頁爬行,但是所不同的是種子網(wǎng)頁的選取有一定的限制;主題確立模塊用于確立爬行的主題;爬行模塊和普通爬蟲的相應(yīng)模塊功能相同;過濾模塊對(duì)爬行的網(wǎng)頁進(jìn)行相關(guān)性判定,提取與主題相關(guān)性強(qiáng)的網(wǎng)頁;鏈接抓取是抓取網(wǎng)頁中的鏈接以便爬蟲的后續(xù)爬行;排序模塊是對(duì)與主題相關(guān)的網(wǎng)頁進(jìn)行重要性判定。2.2種子網(wǎng)頁的自動(dòng)選取由于主題搜索引擎是面向特定主題或是領(lǐng)域的,所以初始種子網(wǎng)頁的選取是比較關(guān)鍵的。種子網(wǎng)頁首先應(yīng)該是與該主題相關(guān)的,否則爬蟲無法工作。那么如何來選取種子網(wǎng)頁呢?種子網(wǎng)頁的選取可以自動(dòng)選取,但是不確定因素太多,作者采用的是人工干預(yù)方式,好處是實(shí)現(xiàn)簡(jiǎn)單,而且比較準(zhǔn)確;缺點(diǎn)是加入了過多的主觀因素,導(dǎo)致種子選取不夠全面,這點(diǎn)通過下面的主題確立模塊改善。首先,通過咨詢?cè)擃I(lǐng)域?qū)<耀@取主題關(guān)鍵詞集合,利用這些關(guān)鍵詞去元搜索引擎中查找,從中選取質(zhì)量較高的網(wǎng)頁作為種子網(wǎng)頁。關(guān)鍵詞主要集中于數(shù)碼產(chǎn)品的性能元素。2.3.基于文本特征的權(quán)值提取關(guān)鍵詞集合采取專家意見,比較準(zhǔn)確,可以將專家提供的關(guān)鍵詞集合作為主題,但是由于主觀因素分量太重,導(dǎo)致可能會(huì)有遺漏不全面,所以需要重設(shè)主題關(guān)鍵詞集合。本文采用的是專家意見和特征提取相結(jié)合的方式。特征提取是利用一個(gè)與主題相關(guān)的網(wǎng)頁集合,由程序自動(dòng)提取網(wǎng)頁集合的共同特征。這里利用種子網(wǎng)頁集合更新主題關(guān)鍵詞集合。特征提取主要基于以下兩種方式:(1)基于主題詞典的特征詞向量提取主題搜索引擎網(wǎng)頁的特征項(xiàng)一般都是專業(yè)詞匯或是特定領(lǐng)域的常見詞匯,所以用主題相關(guān)的詞條才能更好地表征網(wǎng)頁。參照主題詞典進(jìn)行特征提取,只匹配那些在詞典中存在的詞,文檔向量空間維數(shù)大大降低,可以用少量的詞匯較好地涵蓋某一主題的同時(shí)降低計(jì)算復(fù)雜度。這種方式存在的缺陷在于特征項(xiàng)的權(quán)值量化不夠精確,不具備全面概括性。本文采用的是下面一種方式。(2)基于權(quán)重特征詞提取文本詞條數(shù)量眾多,如果用文本中的所有詞條做文本向量,向量空間的維數(shù)可想而知,進(jìn)而影響系統(tǒng)效率,而且文本詞條包括大量如停用詞等與主題沒有多大關(guān)聯(lián)的詞條,所以必須進(jìn)行特征提取,用有代表性的特征詞表征網(wǎng)頁。這里用到向量空間模型VSM(VectorSpaceModel)算法。VSM是一種文本特征的表示方法,它的基本思想就是任何文本文檔都可以用一組文本向量(T1,T2,…,Tn)表示,其中Ti(1≤i≤n)是文本中的詞條。每個(gè)特征項(xiàng)Ti在網(wǎng)頁中都有一定的權(quán)重,于是網(wǎng)頁就可以用一個(gè)向量(W1,W2,…,Wn)(其中Wi為特征項(xiàng)Ti在頁面中的權(quán)重)來表征其特性。權(quán)重大的詞也必然是文檔中較重要的詞,將這些詞條抽取作為特征詞Ti(1≤i≤n)。在這里計(jì)算權(quán)重使用的是TF-IDF算法。TF(TermFrequency),即詞條頻率,用詞條在文檔中出現(xiàn)的次數(shù)進(jìn)行歸一化來表示,也就是詞條出現(xiàn)的次數(shù)除以網(wǎng)頁的總詞數(shù)(Fi/Z)。但是這明顯存在漏洞。如“的”等詞通常沒有什么意義,但是它往往占了總詞頻的80%以上,稱這種詞為“應(yīng)刪除詞”。針對(duì)上面的情況,信息檢索中又提出了逆文本頻率IDF(InverseDocumentFrequency)計(jì)算權(quán)重,使得在越多文檔中出現(xiàn)的詞條的權(quán)重越小,在越少文檔中出現(xiàn)的詞條權(quán)重越大。,其中D為全部網(wǎng)頁數(shù),Di為出現(xiàn)了詞條Ti的網(wǎng)頁個(gè)數(shù)。所以特征項(xiàng)Ti的權(quán)重Wi=(Fi/Z)·log(D/Di)。2.4下載資源獲取爬行模塊和通用搜索引擎的對(duì)應(yīng)模塊基本上沒有什么區(qū)別,讀取等待隊(duì)列中URL,向?qū)?yīng)服務(wù)器請(qǐng)求資源,服務(wù)器予以響應(yīng),爬蟲下載資源。在爬行模塊中,為便于爬行數(shù)碼產(chǎn)品的性能參數(shù)頁面,在該部分加入了正則表達(dá)式加以限制。2.5.種子網(wǎng)頁的相似度爬行模塊下載了網(wǎng)頁內(nèi)容,為了確保網(wǎng)頁的主題相關(guān)性,必須對(duì)網(wǎng)頁進(jìn)行相關(guān)性判定。與主題不相關(guān)或是相關(guān)性較低的網(wǎng)頁的價(jià)值甚小,必須將它們過濾掉,這是普通蜘蛛與主題蜘蛛的根本區(qū)別之所在。如何判斷網(wǎng)頁與主題的相關(guān)性呢?在上文中已經(jīng)提到了VSM,每一個(gè)網(wǎng)頁都可以用一個(gè)特征向量來表征。計(jì)算兩個(gè)向量的相似度,在向量代數(shù)中,可以簡(jiǎn)化為求兩個(gè)向量的一致性,確定向量是否一致,可以用余弦定理來實(shí)現(xiàn)。兩個(gè)向量的夾角越小說明這兩個(gè)向量越接近,表現(xiàn)在網(wǎng)頁上就是兩個(gè)網(wǎng)頁的內(nèi)容越相似。假設(shè)網(wǎng)頁A的特征項(xiàng)的權(quán)重向量為α=(W1,W2,…,Wn);網(wǎng)頁B的權(quán)重向量β=(V1,V2,…,Vn)(WI和Vi分別為向量α、β的特征項(xiàng)權(quán)重),那么A和B的相似度就可以用如下的公式來判定:如何比較相似度已經(jīng)解決了,余下的問題是新的網(wǎng)頁和種子網(wǎng)頁中的哪個(gè)網(wǎng)頁進(jìn)行比較呢?種子網(wǎng)頁中某一個(gè)網(wǎng)頁是不能代表主題的,所以提供了下面兩種方法:(1)將新的網(wǎng)頁與種子網(wǎng)頁中的每一個(gè)求相似度,然后求相似度的平均值,缺點(diǎn)是每個(gè)網(wǎng)頁都要重復(fù)多次計(jì)算,增加了計(jì)算復(fù)雜度。本文采用下面的計(jì)算中心向量的方法。(2)求出主題中心向量Vector,新的網(wǎng)頁再與中心向量求相似度。種子網(wǎng)頁可以看成是與主題密切相關(guān)的一類網(wǎng)頁,可以用類內(nèi)的全部元素的質(zhì)心(Centroid)來刻畫一個(gè)類的總體特性,從而得到中心向量Vector。設(shè)種子網(wǎng)頁的集合為D=(D1,D2,…,Dn),每個(gè)網(wǎng)頁向量Di∈D,其中Di=(W1i,W2i,…,Wni)(Wji為特征項(xiàng)的權(quán)重),那么主題中心向量可以用如下公式來計(jì)算:得到了中心向量,將新的網(wǎng)頁向量與之求相似度,指定一個(gè)閾值r,當(dāng)相似度大于r時(shí)就認(rèn)為該頁面和主題是相關(guān)的,添加到網(wǎng)頁庫中,以待后續(xù)的索引,否則丟棄該頁面。2.6選擇匹配頁面的方案得到新的網(wǎng)頁后,需要進(jìn)一步提取新網(wǎng)頁的鏈接以便爬蟲繼續(xù)展開工作。鏈接的提取可以設(shè)定URL模板,通常是采用正則表達(dá)式來提取與之匹配的URL,這樣可以針對(duì)性的采集網(wǎng)頁,適合規(guī)模比較小、信息源穩(wěn)定的需求,但是后期維護(hù)成本太高,不太適合網(wǎng)頁庫搜索引擎級(jí)別的要求。但是既然是一種技術(shù),就可以與其他的技術(shù)相互補(bǔ)充,因?yàn)榧夹g(shù)只是手段,目的是切返用戶之需??偟膩碚f鏈接的抓取模塊和普通蜘蛛的相應(yīng)模塊沒什么本質(zhì)區(qū)別。2.7網(wǎng)頁具體的相似度和選擇實(shí)驗(yàn)數(shù)據(jù)顯示,約85%的用戶只翻看搜索引擎返回結(jié)果的前10個(gè)結(jié)果,即返回結(jié)果頁面的第一頁。這個(gè)用戶行為決定了盡管搜索引擎返回的結(jié)果數(shù)據(jù)十分龐大,但真正可能被用戶所瀏覽的只是前面的很小一部分而已,所以排序策略是至關(guān)重要的,也是搜索引擎成敗的關(guān)鍵。用戶排序模塊的作用是依據(jù)網(wǎng)頁的質(zhì)量進(jìn)行排序,將價(jià)值大的網(wǎng)頁排在前面,以便用戶方便獲得所需資源?,F(xiàn)在的排序算法有很多,諸如HITS、詞頻和位置的加權(quán)排序、基于Alexa的網(wǎng)站排序等等,這里提出的是相似度和PageRank的結(jié)合算法。PageRank基于“從許多優(yōu)質(zhì)網(wǎng)頁鏈接過來的網(wǎng)頁,必定還是優(yōu)質(zhì)網(wǎng)頁”的回歸關(guān)系來判定所有網(wǎng)頁的重要性的。PageRank的思想源于學(xué)術(shù)引文機(jī)制:當(dāng)從網(wǎng)頁A鏈接到網(wǎng)頁B時(shí),就認(rèn)為網(wǎng)頁A投了網(wǎng)頁B一票,增加了B的重要性,最后根據(jù)B的得票數(shù)來評(píng)定其重要性。計(jì)算公式如下:其中:PR(B)為頁面B的網(wǎng)頁級(jí)別;Pi為頁面B的鏈入網(wǎng)頁;PR(Pi)為頁面Pi的網(wǎng)頁級(jí)別;C(Pi)為頁面Pi鏈出的鏈接數(shù)量;d為阻尼系數(shù),取值范圍為(0,1),一般為0.85,因?yàn)椴⒉皇敲恳粋€(gè)網(wǎng)頁都有出度或入度的;N為總網(wǎng)頁數(shù)量;n為頁面B的入度;(1-d)非鏈接進(jìn)入頁面瀏覽的概率,即用戶沒有對(duì)當(dāng)前頁面繼續(xù)鏈接訪問,而是轉(zhuǎn)到其他的頁面隨機(jī)訪問的概率;(1-d)/N即為隨機(jī)訪問頁面B的概率。頁面Pi(i=1,…,n)擁有到頁面B的鏈接,頁面Pi的出度為C(Pi),所以由頁面Pi到頁面B的概率為1/C(Pi),進(jìn)而頁面Pi通過鏈接進(jìn)入頁面B的概率為d/C(Pi),那么頁面Pi傳遞給頁面B的PR值則為,入度為n,將n個(gè)頁面?zhèn)鬟f給B的PR值求和即可得到通過鏈接傳遞到B的PR值。PageRank算法在很多大型搜索引擎中都有很好的效果,網(wǎng)頁P(yáng)R值成為網(wǎng)頁質(zhì)量的評(píng)價(jià)標(biāo)準(zhǔn)。在主題網(wǎng)頁集合中,相似度可以從很大程度上決定該網(wǎng)頁的重要性,與主題越相似,所含的信息也必然與主題也相近,其質(zhì)量也就越高。綜合PageRank和相似度的分析,網(wǎng)頁質(zhì)量可以用下面的方法計(jì)算:其中t∈(0,1)。3主題跟蹤計(jì)劃的實(shí)現(xiàn)3.1確定使用md5算法的生成和傳播信息根據(jù)URL的處理狀態(tài)將URL存放在四個(gè)不同的隊(duì)列中,分別是等待隊(duì)列、處理隊(duì)列、異常隊(duì)列和完成隊(duì)列。當(dāng)有新的鏈接產(chǎn)生時(shí),為防止重復(fù)抓取,則要檢查隊(duì)列,查看當(dāng)前URL是否已經(jīng)被處理過,這勢(shì)必要用到查找算法。URL的最大長度可達(dá)2083字節(jié),同時(shí)URL數(shù)量龐大,用順序匹配顯然是不合理的;URL的排列也沒有什么順序可言,所以用二分法等都是不可取的,這里用到的是MD5算法。信息摘要MD5(Message-Digest)算法,是一種單向的HASH函數(shù),它的功能是將輸入的任意長度的信息,生成一個(gè)128位信息,而且不同的輸入得到的結(jié)果不同,通常將它比喻成“信息指紋”,就好像我們每個(gè)人都有獨(dú)一無二的指紋一樣,MD5算法就是給不同的信息加指紋。根據(jù)它的唯一性,可以對(duì)每個(gè)URL生成其指紋(MD5值)存儲(chǔ),將新的URL的指紋與已存儲(chǔ)的URL的指紋進(jìn)行比較,如果指紋不同,則必定是兩個(gè)不同的URL,將該URL加入到等待隊(duì)列中等待抓取,否則即表明兩個(gè)URL相同,則丟棄。3.2使用線程池的注意事項(xiàng)為了控制速度,使用線程池來實(shí)現(xiàn),多線程充分利用資源,提高了效率。當(dāng)然采用線程池也有一定的弊端,如果因?yàn)榫W(wǎng)絡(luò)不暢通或是其它原因而導(dǎo)致當(dāng)前占有的資源的線程始終等待,那么其它任務(wù)也會(huì)因?yàn)榈却Y源
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)產(chǎn)品冷鏈運(yùn)輸協(xié)議樣本
- 2025年新能源車銷售服務(wù)合同范本2篇
- 2025年新能源發(fā)電項(xiàng)目設(shè)備采購與服務(wù)合同3篇
- 湛江2025年廣東湛江市坡頭區(qū)社會(huì)保險(xiǎn)基金管理局招聘編外工作人員筆試歷年參考題庫附帶答案詳解
- 深圳廣東深圳市光明區(qū)區(qū)屬公辦幼兒園招聘園長副園長財(cái)務(wù)人員筆試歷年參考題庫附帶答案詳解
- 2025年房屋買賣貸款服務(wù)合同3篇
- 延安2025年陜西延安市教育類事業(yè)單位校園招聘141人筆試歷年參考題庫附帶答案詳解
- 個(gè)體服裝店2024年度承包經(jīng)營合同版
- 2025年度雞肉制品安全生產(chǎn)與監(jiān)管合同3篇
- 廣東廣東海洋大學(xué)后勤保障部招聘非編制水電維修工筆試歷年參考題庫附帶答案詳解
- 手術(shù)室護(hù)理實(shí)踐指南2023年
- 電力安全工作規(guī)程(變電部分)課件
- 新人教版六年級(jí)下冊(cè)數(shù)學(xué)全冊(cè)課件
- 環(huán)保設(shè)施安全風(fēng)險(xiǎn)告知卡
- 卵石地層樁基旋挖鉆施工方案
- 江蘇對(duì)口單招英語考綱詞匯總結(jié)
- (完整word版)手卡模板
- GB/T 4091-2001常規(guī)控制圖
- GB/T 13912-2020金屬覆蓋層鋼鐵制件熱浸鍍鋅層技術(shù)要求及試驗(yàn)方法
- GB 18399-2001棉花加工機(jī)械安全要求
- 陜西省延安市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名居民村民委員會(huì)明細(xì)
評(píng)論
0/150
提交評(píng)論