百度spider對(duì)常用返回碼的處理邏輯_第1頁(yè)
百度spider對(duì)常用返回碼的處理邏輯_第2頁(yè)
百度spider對(duì)常用返回碼的處理邏輯_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

百度spider對(duì)常用返回碼的處理邏輯

百度spider對(duì)常用的http返回碼的處理邏輯:1、404404返回碼的含義是“NOTFOUND”,百度會(huì)認(rèn)為網(wǎng)頁(yè)已經(jīng)失效,那么通常會(huì)從搜索結(jié)果中刪除,并且短期內(nèi)spider再次發(fā)現(xiàn)這條url也不會(huì)抓取。2、503503返回碼的含義是“ServiceUnavailable”,百度會(huì)認(rèn)為該網(wǎng)頁(yè)臨時(shí)不可訪問(wèn),通常網(wǎng)站臨時(shí)關(guān)閉,帶寬有限等會(huì)產(chǎn)生這種情況。對(duì)于網(wǎng)頁(yè)返回503,百度spider不會(huì)把這條url直接刪除,短期內(nèi)會(huì)再訪問(wèn)。屆時(shí)如果網(wǎng)頁(yè)已恢復(fù),則正常抓??;如果繼續(xù)返回503,短期內(nèi)還會(huì)反復(fù)訪問(wèn)幾次。但是如果網(wǎng)頁(yè)長(zhǎng)期返回503,那么這個(gè)url仍會(huì)被百度認(rèn)為是失效鏈接,從搜索結(jié)果中刪除。3、403403返回碼的含義是“Forbidden”,百度會(huì)認(rèn)為網(wǎng)頁(yè)當(dāng)前禁止訪問(wèn)。對(duì)于這種情況,如果是新發(fā)現(xiàn)的url,百度spider暫不會(huì)抓取,短期內(nèi)會(huì)再次檢查;如果是百度已收錄url,當(dāng)前也不會(huì)直接刪除,短期內(nèi)同樣會(huì)再訪問(wèn)。屆時(shí)如果網(wǎng)頁(yè)允許訪問(wèn),則正常抓取;如果仍不允許訪問(wèn),短期內(nèi)還會(huì)反復(fù)訪問(wèn)幾次。但是如果網(wǎng)頁(yè)長(zhǎng)期返回403,百度也會(huì)認(rèn)為是失效鏈接,從搜索結(jié)果中刪除。4、301301返回碼的含義是“MovedPermanently”,百度會(huì)認(rèn)為網(wǎng)頁(yè)當(dāng)前跳轉(zhuǎn)至新url。當(dāng)遇到站點(diǎn)遷移,域名更換、站點(diǎn)改版的情況時(shí),推薦使用301返回碼,盡量減少改版帶來(lái)的流量損失。雖然百度spider現(xiàn)在對(duì)301跳轉(zhuǎn)的響應(yīng)周期較長(zhǎng),但我們還是推薦大家這么做。百度對(duì)于某些常見(jiàn)情況的使用建議:1、如果站點(diǎn)臨時(shí)關(guān)閉,當(dāng)網(wǎng)頁(yè)不能打開(kāi)時(shí),不要立即返回404,建議使用503狀態(tài)。503可以告知百度spider該頁(yè)面臨時(shí)不可訪問(wèn),請(qǐng)過(guò)段時(shí)間再重試。2、如果百度spider對(duì)您的站點(diǎn)抓取壓力過(guò)大,請(qǐng)盡量不要使用404,同樣建議返回503。這樣百度spider會(huì)過(guò)段時(shí)間再來(lái)嘗試抓取這個(gè)鏈接,如果那個(gè)時(shí)間站點(diǎn)空閑,那它就會(huì)被成功抓取了。3、有一些網(wǎng)站希望百度只收錄部分內(nèi)容,例如審核后的內(nèi)容,累積一段時(shí)間的新用戶頁(yè)等等。在這種情況,建議新發(fā)內(nèi)容暫時(shí)返回403,等審核或做好處理之后,再返回正常狀態(tài)的返回碼。4、站點(diǎn)遷移,或域名更換時(shí),請(qǐng)使用301返回碼。案例:我曾經(jīng)為一家電子商務(wù)網(wǎng)站提供SEO顧問(wèn)服務(wù),網(wǎng)站每日新增商品由商家發(fā)布,商品發(fā)布后便成為一個(gè)有效的商品,并會(huì)出現(xiàn)到網(wǎng)站平臺(tái)的商品檢索結(jié)果以及商品列表中,同時(shí),平臺(tái)運(yùn)營(yíng)方需要對(duì)商品進(jìn)行審核,對(duì)于沒(méi)有審核通過(guò)的商品則進(jìn)行刪除操作;于是,會(huì)出現(xiàn)一些情況:新增商品頁(yè)面被百度爬蟲(chóng)抓取,但隨之該頁(yè)面被刪除。由于網(wǎng)站在百度的權(quán)重比較高,幾乎每日新增商品頁(yè)都會(huì)很快收錄,因此,在這批新收錄的商品頁(yè)面中有一定比例的頁(yè)面很快不存在了,即:一批剛被收錄的頁(yè)面又向百度Spider返回了404狀態(tài)碼,簡(jiǎn)單以蔽之,“讓百度收了再讓百度刪”,我覺(jué)得百度可能會(huì)“很生氣,后果很?chē)?yán)重”。為解決這個(gè)問(wèn)題,我之前采取了如下方法:既然將商家發(fā)布的商品包含兩種狀態(tài):已審核和未審核,那么就為商品頁(yè)面設(shè)計(jì)2種URL規(guī)則,如果商品未審核,則使用第1套URL規(guī)則,同時(shí),利用robots協(xié)議限制百度Spider爬蟲(chóng)抓取這些頁(yè)面;如果商品已審核,那么就與已有商品一樣,使用第2套URL規(guī)則。這樣就可以確保百度Spider抓取到的商品頁(yè)面都是有效頁(yè)面,不會(huì)由于商品審核不通過(guò)而單日內(nèi)出現(xiàn)大量404頁(yè)面。是否可以利用403狀態(tài)碼來(lái)解決該問(wèn)題?思路如下:判斷商品是否通過(guò)平臺(tái)運(yùn)營(yíng)方審核,是的話,頁(yè)面就返回200,否的話,就返回403;對(duì)于正常的商品頁(yè)面,可以確保百度Spider正常抓??;對(duì)于新增商品,百度新發(fā)現(xiàn)的URL是返回403的,當(dāng)再次回訪這些頁(yè)面時(shí),由于

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論