百度spider對常用返回碼的處理邏輯_第1頁
百度spider對常用返回碼的處理邏輯_第2頁
百度spider對常用返回碼的處理邏輯_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

百度spider對常用返回碼的處理邏輯

百度spider對常用的http返回碼的處理邏輯:1、404404返回碼的含義是“NOTFOUND”,百度會認為網(wǎng)頁已經(jīng)失效,那么通常會從搜索結(jié)果中刪除,并且短期內(nèi)spider再次發(fā)現(xiàn)這條url也不會抓取。2、503503返回碼的含義是“ServiceUnavailable”,百度會認為該網(wǎng)頁臨時不可訪問,通常網(wǎng)站臨時關(guān)閉,帶寬有限等會產(chǎn)生這種情況。對于網(wǎng)頁返回503,百度spider不會把這條url直接刪除,短期內(nèi)會再訪問。屆時如果網(wǎng)頁已恢復(fù),則正常抓??;如果繼續(xù)返回503,短期內(nèi)還會反復(fù)訪問幾次。但是如果網(wǎng)頁長期返回503,那么這個url仍會被百度認為是失效鏈接,從搜索結(jié)果中刪除。3、403403返回碼的含義是“Forbidden”,百度會認為網(wǎng)頁當前禁止訪問。對于這種情況,如果是新發(fā)現(xiàn)的url,百度spider暫不會抓取,短期內(nèi)會再次檢查;如果是百度已收錄url,當前也不會直接刪除,短期內(nèi)同樣會再訪問。屆時如果網(wǎng)頁允許訪問,則正常抓??;如果仍不允許訪問,短期內(nèi)還會反復(fù)訪問幾次。但是如果網(wǎng)頁長期返回403,百度也會認為是失效鏈接,從搜索結(jié)果中刪除。4、301301返回碼的含義是“MovedPermanently”,百度會認為網(wǎng)頁當前跳轉(zhuǎn)至新url。當遇到站點遷移,域名更換、站點改版的情況時,推薦使用301返回碼,盡量減少改版帶來的流量損失。雖然百度spider現(xiàn)在對301跳轉(zhuǎn)的響應(yīng)周期較長,但我們還是推薦大家這么做。百度對于某些常見情況的使用建議:1、如果站點臨時關(guān)閉,當網(wǎng)頁不能打開時,不要立即返回404,建議使用503狀態(tài)。503可以告知百度spider該頁面臨時不可訪問,請過段時間再重試。2、如果百度spider對您的站點抓取壓力過大,請盡量不要使用404,同樣建議返回503。這樣百度spider會過段時間再來嘗試抓取這個鏈接,如果那個時間站點空閑,那它就會被成功抓取了。3、有一些網(wǎng)站希望百度只收錄部分內(nèi)容,例如審核后的內(nèi)容,累積一段時間的新用戶頁等等。在這種情況,建議新發(fā)內(nèi)容暫時返回403,等審核或做好處理之后,再返回正常狀態(tài)的返回碼。4、站點遷移,或域名更換時,請使用301返回碼。案例:我曾經(jīng)為一家電子商務(wù)網(wǎng)站提供SEO顧問服務(wù),網(wǎng)站每日新增商品由商家發(fā)布,商品發(fā)布后便成為一個有效的商品,并會出現(xiàn)到網(wǎng)站平臺的商品檢索結(jié)果以及商品列表中,同時,平臺運營方需要對商品進行審核,對于沒有審核通過的商品則進行刪除操作;于是,會出現(xiàn)一些情況:新增商品頁面被百度爬蟲抓取,但隨之該頁面被刪除。由于網(wǎng)站在百度的權(quán)重比較高,幾乎每日新增商品頁都會很快收錄,因此,在這批新收錄的商品頁面中有一定比例的頁面很快不存在了,即:一批剛被收錄的頁面又向百度Spider返回了404狀態(tài)碼,簡單以蔽之,“讓百度收了再讓百度刪”,我覺得百度可能會“很生氣,后果很嚴重”。為解決這個問題,我之前采取了如下方法:既然將商家發(fā)布的商品包含兩種狀態(tài):已審核和未審核,那么就為商品頁面設(shè)計2種URL規(guī)則,如果商品未審核,則使用第1套URL規(guī)則,同時,利用robots協(xié)議限制百度Spider爬蟲抓取這些頁面;如果商品已審核,那么就與已有商品一樣,使用第2套URL規(guī)則。這樣就可以確保百度Spider抓取到的商品頁面都是有效頁面,不會由于商品審核不通過而單日內(nèi)出現(xiàn)大量404頁面。是否可以利用403狀態(tài)碼來解決該問題?思路如下:判斷商品是否通過平臺運營方審核,是的話,頁面就返回200,否的話,就返回403;對于正常的商品頁面,可以確保百度Spider正常抓??;對于新增商品,百度新發(fā)現(xiàn)的URL是返回403的,當再次回訪這些頁面時,由于

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論