爬蟲知識——環(huán)境準(zhǔn)備與入門_第1頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、爬蟲知識環(huán)境準(zhǔn)備與入門網(wǎng)絡(luò)爬蟲,是一種根據(jù)一定的規(guī)章,自動地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常用法的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。因為特地用于檢索信息的機(jī)器人程序象蜘蛛一樣在網(wǎng)絡(luò)間爬來爬去,因此,搜尋引擎的機(jī)器人程序就被稱為蜘蛛程序。上手簡單免費(fèi)開源,用法不受限制說明執(zhí)行,跨平臺不受限制面對對象框架和庫支持豐盛,有大量的歷史堆積http = hypertext transfer protocoluri = uniform resource identifierurl = uniform resource locatoruri和url的區(qū)分:uri強(qiáng)調(diào)的是資源,而url強(qiáng)調(diào)的

2、是資源的位置。常用哀求類型options: 返回服務(wù)器針對特定資源所支持的http哀求辦法。head: 向服務(wù)器索要與get哀求相全都的響應(yīng),只不過響應(yīng)體將不會被返回。(發(fā)送哀求但是不返回響應(yīng))get: 向特定資源發(fā)出哀求put: 向指定資源位置上傳其最新內(nèi)容post: 向指定資源提交數(shù)據(jù)舉行處理哀求delete: 哀求服務(wù)器刪除指定uri所標(biāo)識的資源patch: 用來將局部修改應(yīng)用于某一資源(get, post 用的比較多)http常見狀態(tài)碼200/ok: 哀求勝利201/created: 哀求已被實現(xiàn),且一個新資源已按照哀求被建立,uri尾隨location頭信息返回。202/accept

3、ed: 服務(wù)器已接受哀求,但尚未處理。400/bad request: 哀求無法被服務(wù)器理解常見狀況:格式錯誤401/unauthorized: 當(dāng)前哀求需要用戶驗證用戶名,密碼錯誤403/forbidden: 服務(wù)器已理解哀求,但否決執(zhí)行。沒有權(quán)限等404/not foundhtml (hypertext markup language)推舉教程:htmlhtml不是編程語言,而是一種標(biāo)志語言。即html用法標(biāo)志標(biāo)簽來描述網(wǎng)頁。標(biāo)簽和元素dom文檔模型在網(wǎng)頁上,組織頁面(或文檔)的對象被組織在一個樹形結(jié)構(gòu)中,用來表示文檔中對象的標(biāo)準(zhǔn)模型就稱為dom就是一個大數(shù)組xmlextensible m

4、arkup languagexml 被設(shè)計用來傳輸和存儲數(shù)據(jù)。html 被設(shè)計用來顯示數(shù)據(jù)。json語法類似xml,但是更小、更快、更簡單解析。對javascript特殊友好。mysqlwindows:下載免費(fèi)社區(qū)版mysql server??蛻舳瞬僮骺梢杂梅╩ysqlworkbenchlinux(以debian為例):apt-get install mysql-server mysql-client登陸mysql: mysql -p hostname -u username -p,然后用法use dbname指定需要操作的數(shù)據(jù)庫安裝phpmyadmin便利在掃瞄器操作數(shù)據(jù)庫sqlite本地數(shù)

5、據(jù)庫windows挺直去下載可執(zhí)行文件即可用法,linux下apt-get install sqlite3即可完成安裝。相比mysql越發(fā)輕巧好用。大數(shù)據(jù)狀況下效率變差,適合單機(jī)小程序。mysql常用指令show databases: 顯示當(dāng)前服務(wù)器上的數(shù)據(jù)庫create database dbname: 創(chuàng)建一個新數(shù)據(jù)庫use dbname: 用法指定的數(shù)據(jù)庫show tables: 顯示當(dāng)前數(shù)據(jù)庫的全部表desc tbname: 顯示表結(jié)構(gòu)爬蟲工作流程將種子url放入隊列從隊列中獵取url,抓取內(nèi)容。解析抓取內(nèi)容,將需要進(jìn)一步抓取的url放入工作隊列,存儲解析后的內(nèi)容抓取策略深度優(yōu)先廣度優(yōu)先pagerank: 按照pr值對網(wǎng)站舉行排序大站優(yōu)先策略如何去重hash表bloom過濾器:實際商業(yè)大型應(yīng)用用法bloom過濾器,優(yōu)點(diǎn):節(jié)約內(nèi)存爬蟲質(zhì)量標(biāo)準(zhǔn)-分布式:效率-可伸縮性-性能和有效性-質(zhì)量-新奇性-更新-可擴(kuò)展性扯得遠(yuǎn)點(diǎn)-map/reduce背后-bloom過濾器robots規(guī)范robots協(xié)議(也稱為爬蟲協(xié)議、機(jī)器人協(xié)議等)的全稱是網(wǎng)絡(luò)爬蟲排解標(biāo)準(zhǔn)(robots exclusion protocol),網(wǎng)站通過robots協(xié)議告知搜尋引擎哪些頁面可以抓取,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論