版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、.1網(wǎng)絡(luò)爬蟲設(shè)計(jì)及相應(yīng)算法研究網(wǎng)絡(luò)爬蟲設(shè)計(jì)及相應(yīng)算法研究姓名:指導(dǎo)教師:.2項(xiàng)目介紹項(xiàng)目介紹1完成內(nèi)容完成內(nèi)容4選題背景選題背景2主要工作主要工作3總結(jié)及展望總結(jié)及展望5.3 項(xiàng)目名稱:項(xiàng)目名稱: 網(wǎng)絡(luò)爬蟲設(shè)計(jì)及相應(yīng)算法研究網(wǎng)絡(luò)爬蟲設(shè)計(jì)及相應(yīng)算法研究 The Research and Design of Web Crawler 項(xiàng)目類別:項(xiàng)目類別:軟件研究設(shè)計(jì)類軟件研究設(shè)計(jì)類 項(xiàng)目來源:項(xiàng)目來源:科研項(xiàng)目科研項(xiàng)目項(xiàng)目簡介項(xiàng)目簡介1.4項(xiàng)目介紹項(xiàng)目介紹1完成內(nèi)容完成內(nèi)容4選題背景選題背景2主要工作主要工作3總結(jié)及展望總結(jié)及展望5.5 搜索引擎介紹: 互聯(lián)網(wǎng)的迅速發(fā)展,使得網(wǎng)上信息越來越多,搜索引
2、擎正是為了解決在浩瀚的信息海洋中快速高效的尋找信息的問題。 搜索引擎是通過互聯(lián)網(wǎng)搜索信息的重要途徑,涉及到多個(gè)領(lǐng)域的理論和技術(shù),具有很高的綜合性和很強(qiáng)的挑戰(zhàn)性。本課題研究的內(nèi)容是搜索引擎的關(guān)鍵部分網(wǎng)絡(luò)爬蟲。選題背景選題背景2.6 網(wǎng)絡(luò)爬蟲介紹: 網(wǎng)絡(luò)爬蟲是搜索引擎系統(tǒng)中十分重要的組成部分,它負(fù)責(zé)從互聯(lián)網(wǎng)中搜集網(wǎng)頁、采集信息,這些網(wǎng)頁信息用于建立索引從而為搜索引擎提供支持,它決定著整個(gè)引擎系統(tǒng)的內(nèi)容是否豐富,信息是否即時(shí),因此其性能的優(yōu)劣直接影響著搜索引擎的效果。 選題背景選題背景2.7 網(wǎng)絡(luò)爬蟲的基本原理:1)從一個(gè)初始URL集合中挑選一個(gè)URL,下載該URL對(duì)應(yīng)的頁面; 2)解析該頁面,從該
3、頁面中抽取出其包含的URL集合,接下來將抽取的URL集合再添加到初始URL集合中; 3)重復(fù)前兩個(gè)過程,直到爬蟲達(dá)到某種停止標(biāo)準(zhǔn)為止。 選題背景選題背景2.8項(xiàng)目介紹項(xiàng)目介紹1完成結(jié)果完成結(jié)果4選題背景選題背景2主要工作主要工作3總結(jié)及展望總結(jié)及展望5.9 學(xué)習(xí)爬蟲的基本技術(shù)學(xué)習(xí)爬蟲的基本技術(shù) 網(wǎng)頁抓取技術(shù) 網(wǎng)頁去重技術(shù) 多線程技術(shù) 主要工作主要工作3.10網(wǎng)頁抓取技術(shù)網(wǎng)頁抓取技術(shù)寬度優(yōu)先遍歷算法和廣度優(yōu)先算法PageRank算法基于鏈接的搜索算法主要工作主要工作3.11網(wǎng)頁去重技術(shù)網(wǎng)頁去重技術(shù) Bloom Filter 算法 錯(cuò)誤率估計(jì) 最優(yōu)哈希函數(shù)個(gè)數(shù) 位數(shù)組大小主要工作主要工作3.12多
4、線程技術(shù)多線程技術(shù) 多線程 半同步/半異步并發(fā)模式 多線程的問題主要工作主要工作3.13項(xiàng)目介紹項(xiàng)目介紹1完成結(jié)果完成結(jié)果4選題背景選題背景2主要工作主要工作3總結(jié)及展望總結(jié)及展望5.14設(shè)計(jì)實(shí)現(xiàn)爬蟲系統(tǒng),并對(duì)系統(tǒng)性能就以下兩方面進(jìn)行比較分析:在測試時(shí)間、最大連接數(shù)等基本參數(shù)相同的情況下,通過給爬蟲系統(tǒng)設(shè)置不同的多線程數(shù)進(jìn)行頁面抓取,并對(duì)結(jié)果進(jìn)行比較分析。在測試時(shí)間、請(qǐng)求線程數(shù)、頁面抓取線程數(shù)等基本參數(shù)相同的情況下,通過改變爬蟲系統(tǒng)的最大頁面連接數(shù)進(jìn)行頁面抓取,并對(duì)結(jié)果進(jìn)行比較分析。完成結(jié)果完成結(jié)果4.151. 測試爬蟲在測試時(shí)間、最大連接數(shù)等基本參數(shù)相同的情況下,采用單線程或多線程方式抓取頁
5、面的速度,結(jié)果如下表:2. 測試爬蟲系統(tǒng)在測試時(shí)間、請(qǐng)求線程數(shù)、頁面抓取線程數(shù)等基本參數(shù)相同的情況下,采用不同的并行連接數(shù)抓取頁面的速度,結(jié)果如下表:完成結(jié)果完成結(jié)果4.161. 測試爬蟲在測試時(shí)間、最大連接數(shù)等基本參數(shù)相同的情況下,采用單線程或多線程方式抓取頁面得到的表格繪制曲線圖如下:從圖中可以看出,在多線程的情況下,爬蟲系統(tǒng)的效率的確有所提高,但是提高的效果并不十分明顯。而理論上,多線程的抓取效率應(yīng)該是要明顯高于單線程的,但是由于測試是在單CPU機(jī)器上進(jìn)行的,所以效率的提高并不能很好的體現(xiàn)出來。完成結(jié)果完成結(jié)果4.171.測試爬蟲系統(tǒng)在測試時(shí)間、請(qǐng)求線程數(shù)、頁面抓取線程數(shù)等基本參數(shù)相同的情況下,采用不同的并行連接數(shù)抓取頁面得到的表格繪制曲線圖如下:從圖中可以看出,在其他條件相同的情況下,最大并行連接數(shù)對(duì)爬蟲的爬取效率的影響比較大。當(dāng)最大連接數(shù)從16變化到32時(shí),抓取效率提高了將近1倍,之后又逐漸趨于平緩。這是因?yàn)橄到y(tǒng)的線程數(shù)限制了抓取效率。在相同的HTTP請(qǐng)求和頁面抓取的線程數(shù)的條件下,在一定的范圍內(nèi),最大連接數(shù)越高,爬蟲效率也越高,當(dāng)超過某一范圍,爬蟲的效率會(huì)趨于平穩(wěn)。完成結(jié)果完成結(jié)果4.18項(xiàng)目介紹項(xiàng)目介紹1完成結(jié)果完成結(jié)果4選題背景選題背景2主要工作主要工作3總結(jié)及展望總結(jié)及展望5.19總結(jié):總結(jié):1、完成了爬蟲系統(tǒng)的學(xué)習(xí)與設(shè)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版宿舍樓智能監(jiān)控設(shè)施承包合同3篇
- 2025年度木材貿(mào)易與木工加工合作合同4篇
- 夏令營2025非傳統(tǒng)教育項(xiàng)目合作合同3篇
- 2025年度木材加工廠設(shè)備租賃合同范本7篇
- 《漢服唯美古詩句》課件
- 2025版實(shí)習(xí)員工實(shí)習(xí)期間住宿安排合同3篇
- 養(yǎng)生保健與中醫(yī)養(yǎng)生藥物考核試卷
- 合成革表面處理與涂飾技術(shù)考核試卷
- 2025版智能電網(wǎng)信息安全防護(hù)合同4篇
- 創(chuàng)業(yè)空間科技創(chuàng)新平臺(tái)考核試卷
- 《天潤乳業(yè)營運(yùn)能力及風(fēng)險(xiǎn)管理問題及完善對(duì)策(7900字論文)》
- 醫(yī)院醫(yī)學(xué)倫理委員會(huì)章程
- xx單位政務(wù)云商用密碼應(yīng)用方案V2.0
- 農(nóng)民專業(yè)合作社財(cái)務(wù)報(bào)表(三張報(bào)表)
- 動(dòng)土作業(yè)專項(xiàng)安全培訓(xùn)考試試題(帶答案)
- 大學(xué)生就業(yè)指導(dǎo)(高職就業(yè)指導(dǎo)課程 )全套教學(xué)課件
- 死亡病例討論總結(jié)分析
- 第二章 會(huì)展的產(chǎn)生與發(fā)展
- 空域規(guī)劃與管理V2.0
- JGT266-2011 泡沫混凝土標(biāo)準(zhǔn)規(guī)范
- 商戶用電申請(qǐng)表
評(píng)論
0/150
提交評(píng)論