北郵畢設(shè)答辯網(wǎng)絡(luò)爬蟲設(shè)計(jì)及算法研究(課堂PPT)_第1頁
北郵畢設(shè)答辯網(wǎng)絡(luò)爬蟲設(shè)計(jì)及算法研究(課堂PPT)_第2頁
北郵畢設(shè)答辯網(wǎng)絡(luò)爬蟲設(shè)計(jì)及算法研究(課堂PPT)_第3頁
北郵畢設(shè)答辯網(wǎng)絡(luò)爬蟲設(shè)計(jì)及算法研究(課堂PPT)_第4頁
北郵畢設(shè)答辯網(wǎng)絡(luò)爬蟲設(shè)計(jì)及算法研究(課堂PPT)_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、.1網(wǎng)絡(luò)爬蟲設(shè)計(jì)及相應(yīng)算法研究網(wǎng)絡(luò)爬蟲設(shè)計(jì)及相應(yīng)算法研究姓名:指導(dǎo)教師:.2項(xiàng)目介紹項(xiàng)目介紹1完成內(nèi)容完成內(nèi)容4選題背景選題背景2主要工作主要工作3總結(jié)及展望總結(jié)及展望5.3 項(xiàng)目名稱:項(xiàng)目名稱: 網(wǎng)絡(luò)爬蟲設(shè)計(jì)及相應(yīng)算法研究網(wǎng)絡(luò)爬蟲設(shè)計(jì)及相應(yīng)算法研究 The Research and Design of Web Crawler 項(xiàng)目類別:項(xiàng)目類別:軟件研究設(shè)計(jì)類軟件研究設(shè)計(jì)類 項(xiàng)目來源:項(xiàng)目來源:科研項(xiàng)目科研項(xiàng)目項(xiàng)目簡介項(xiàng)目簡介1.4項(xiàng)目介紹項(xiàng)目介紹1完成內(nèi)容完成內(nèi)容4選題背景選題背景2主要工作主要工作3總結(jié)及展望總結(jié)及展望5.5 搜索引擎介紹: 互聯(lián)網(wǎng)的迅速發(fā)展,使得網(wǎng)上信息越來越多,搜索引

2、擎正是為了解決在浩瀚的信息海洋中快速高效的尋找信息的問題。 搜索引擎是通過互聯(lián)網(wǎng)搜索信息的重要途徑,涉及到多個(gè)領(lǐng)域的理論和技術(shù),具有很高的綜合性和很強(qiáng)的挑戰(zhàn)性。本課題研究的內(nèi)容是搜索引擎的關(guān)鍵部分網(wǎng)絡(luò)爬蟲。選題背景選題背景2.6 網(wǎng)絡(luò)爬蟲介紹: 網(wǎng)絡(luò)爬蟲是搜索引擎系統(tǒng)中十分重要的組成部分,它負(fù)責(zé)從互聯(lián)網(wǎng)中搜集網(wǎng)頁、采集信息,這些網(wǎng)頁信息用于建立索引從而為搜索引擎提供支持,它決定著整個(gè)引擎系統(tǒng)的內(nèi)容是否豐富,信息是否即時(shí),因此其性能的優(yōu)劣直接影響著搜索引擎的效果。 選題背景選題背景2.7 網(wǎng)絡(luò)爬蟲的基本原理:1)從一個(gè)初始URL集合中挑選一個(gè)URL,下載該URL對(duì)應(yīng)的頁面; 2)解析該頁面,從該

3、頁面中抽取出其包含的URL集合,接下來將抽取的URL集合再添加到初始URL集合中; 3)重復(fù)前兩個(gè)過程,直到爬蟲達(dá)到某種停止標(biāo)準(zhǔn)為止。 選題背景選題背景2.8項(xiàng)目介紹項(xiàng)目介紹1完成結(jié)果完成結(jié)果4選題背景選題背景2主要工作主要工作3總結(jié)及展望總結(jié)及展望5.9 學(xué)習(xí)爬蟲的基本技術(shù)學(xué)習(xí)爬蟲的基本技術(shù) 網(wǎng)頁抓取技術(shù) 網(wǎng)頁去重技術(shù) 多線程技術(shù) 主要工作主要工作3.10網(wǎng)頁抓取技術(shù)網(wǎng)頁抓取技術(shù)寬度優(yōu)先遍歷算法和廣度優(yōu)先算法PageRank算法基于鏈接的搜索算法主要工作主要工作3.11網(wǎng)頁去重技術(shù)網(wǎng)頁去重技術(shù) Bloom Filter 算法 錯(cuò)誤率估計(jì) 最優(yōu)哈希函數(shù)個(gè)數(shù) 位數(shù)組大小主要工作主要工作3.12多

4、線程技術(shù)多線程技術(shù) 多線程 半同步/半異步并發(fā)模式 多線程的問題主要工作主要工作3.13項(xiàng)目介紹項(xiàng)目介紹1完成結(jié)果完成結(jié)果4選題背景選題背景2主要工作主要工作3總結(jié)及展望總結(jié)及展望5.14設(shè)計(jì)實(shí)現(xiàn)爬蟲系統(tǒng),并對(duì)系統(tǒng)性能就以下兩方面進(jìn)行比較分析:在測試時(shí)間、最大連接數(shù)等基本參數(shù)相同的情況下,通過給爬蟲系統(tǒng)設(shè)置不同的多線程數(shù)進(jìn)行頁面抓取,并對(duì)結(jié)果進(jìn)行比較分析。在測試時(shí)間、請(qǐng)求線程數(shù)、頁面抓取線程數(shù)等基本參數(shù)相同的情況下,通過改變爬蟲系統(tǒng)的最大頁面連接數(shù)進(jìn)行頁面抓取,并對(duì)結(jié)果進(jìn)行比較分析。完成結(jié)果完成結(jié)果4.151. 測試爬蟲在測試時(shí)間、最大連接數(shù)等基本參數(shù)相同的情況下,采用單線程或多線程方式抓取頁

5、面的速度,結(jié)果如下表:2. 測試爬蟲系統(tǒng)在測試時(shí)間、請(qǐng)求線程數(shù)、頁面抓取線程數(shù)等基本參數(shù)相同的情況下,采用不同的并行連接數(shù)抓取頁面的速度,結(jié)果如下表:完成結(jié)果完成結(jié)果4.161. 測試爬蟲在測試時(shí)間、最大連接數(shù)等基本參數(shù)相同的情況下,采用單線程或多線程方式抓取頁面得到的表格繪制曲線圖如下:從圖中可以看出,在多線程的情況下,爬蟲系統(tǒng)的效率的確有所提高,但是提高的效果并不十分明顯。而理論上,多線程的抓取效率應(yīng)該是要明顯高于單線程的,但是由于測試是在單CPU機(jī)器上進(jìn)行的,所以效率的提高并不能很好的體現(xiàn)出來。完成結(jié)果完成結(jié)果4.171.測試爬蟲系統(tǒng)在測試時(shí)間、請(qǐng)求線程數(shù)、頁面抓取線程數(shù)等基本參數(shù)相同的情況下,采用不同的并行連接數(shù)抓取頁面得到的表格繪制曲線圖如下:從圖中可以看出,在其他條件相同的情況下,最大并行連接數(shù)對(duì)爬蟲的爬取效率的影響比較大。當(dāng)最大連接數(shù)從16變化到32時(shí),抓取效率提高了將近1倍,之后又逐漸趨于平緩。這是因?yàn)橄到y(tǒng)的線程數(shù)限制了抓取效率。在相同的HTTP請(qǐng)求和頁面抓取的線程數(shù)的條件下,在一定的范圍內(nèi),最大連接數(shù)越高,爬蟲效率也越高,當(dāng)超過某一范圍,爬蟲的效率會(huì)趨于平穩(wěn)。完成結(jié)果完成結(jié)果4.18項(xiàng)目介紹項(xiàng)目介紹1完成結(jié)果完成結(jié)果4選題背景選題背景2主要工作主要工作3總結(jié)及展望總結(jié)及展望5.19總結(jié):總結(jié):1、完成了爬蟲系統(tǒng)的學(xué)習(xí)與設(shè)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論