百度搜索引擎工作原理_第1頁
百度搜索引擎工作原理_第2頁
百度搜索引擎工作原理_第3頁
百度搜索引擎工作原理_第4頁
百度搜索引擎工作原理_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

工作原理編輯1、抓取網(wǎng)頁。每個獨(dú)立的搜索引擎都有自己的網(wǎng)頁抓取程序爬蟲(spider)。爬蟲Spider順著網(wǎng)頁中的超鏈接,從這個網(wǎng)站爬到另一個網(wǎng)站,通過超鏈接分析連續(xù)訪問抓取更多網(wǎng)頁。被抓取的網(wǎng)頁被稱之為網(wǎng)頁快照。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍,理論上,從一定范圍的網(wǎng)頁出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁。2、處理網(wǎng)頁。搜索引擎抓到網(wǎng)頁后,還要做大量的預(yù)處理工作,才能提供檢索服務(wù)。其中,最重要的就是提取關(guān)鍵詞,建立索引庫和索引。其他還包括去除重復(fù)網(wǎng)頁、分詞(中文)、判斷網(wǎng)頁類型、分析超鏈接、計算網(wǎng)頁的重要度/豐富度等。3、提供檢索服務(wù)。用戶輸入關(guān)鍵詞進(jìn)行檢索,搜索引擎從索引數(shù)據(jù)庫中找到匹配該關(guān)鍵詞的網(wǎng)頁;為了用戶便于判斷,除了網(wǎng)頁標(biāo)題和URL外,還會提供一段來自網(wǎng)頁的摘要以及其他信息。搜索引擎基本工作原理搜索引擎編輯在搜索引擎分類部分我們提到過全文搜索引擎從網(wǎng)站提取信息建立網(wǎng)頁數(shù)據(jù)庫的概念。搜索引擎的自動信息搜集功能分兩種。一種是定期搜索,即每隔一段時間(比如Google一般是28天),搜索引擎主動派出“蜘蛛”程序,對一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進(jìn)行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會自動提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫。另一種是提交網(wǎng)站搜索,即網(wǎng)站擁有者主動向搜索引擎提交網(wǎng)址,它在一定時間內(nèi)(2天到數(shù)月不等)定向向你的網(wǎng)站派出“蜘蛛”程序,掃描你的網(wǎng)站并將有關(guān)信息存入數(shù)據(jù)庫,以備用戶查詢。由于搜索引擎索引規(guī)則發(fā)生了很大變化,主動提交網(wǎng)址并不保證你的網(wǎng)站能進(jìn)入搜索引擎數(shù)據(jù)庫,因此目前最好的辦法是多獲得一些外部鏈接,讓搜索引擎有更多機(jī)會找到你并自動將你的網(wǎng)站收錄。當(dāng)用戶以關(guān)鍵詞查找信息時,搜索引擎會在數(shù)據(jù)庫中進(jìn)行搜尋,如果找到與用戶要求內(nèi)容相符的網(wǎng)站,便采用特殊的算法——通常根據(jù)網(wǎng)頁中關(guān)鍵詞的匹配程度,出現(xiàn)的位置、頻次,鏈接質(zhì)量等——計算出各網(wǎng)頁的相關(guān)度及排名等級,然后根據(jù)關(guān)聯(lián)度高低,按順序?qū)⑦@些網(wǎng)頁鏈接返回給用戶。目錄索引編輯與全文搜索引擎相比,目錄索引有許多不同之處。首先,搜索引擎屬于自動網(wǎng)站檢索,而目錄索引則完全依賴手工操作。用戶提交網(wǎng)站后,目錄編輯人員會親自瀏覽你的網(wǎng)站,然后根據(jù)一套自定的評判標(biāo)準(zhǔn)甚至編輯人員的主觀印象,決定是否接納你的網(wǎng)站。其次,搜索引擎收錄網(wǎng)站時,只要網(wǎng)站本身沒有違反有關(guān)的規(guī)則,一般都能登錄成功。而目錄索引對網(wǎng)站的要求則高得多,有時即使登錄多次也不一定成功。尤其象Yahoo!這樣的超級索引,登錄更是困難。此外,在登錄搜索引擎時,我們一般不用考慮網(wǎng)站的分類問題,而登錄目錄索引時則必須將網(wǎng)站放在一個最合適的目錄(Directory)。最后,搜索引擎中各網(wǎng)站的有關(guān)信息都是從用戶網(wǎng)頁中自動提取的,所以用戶的角度看,我們擁有更多的自主權(quán);而目錄索引則要求必須手工另外填寫網(wǎng)站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認(rèn)為你提交網(wǎng)站的目錄、網(wǎng)站信息不合適,他可以隨時對其進(jìn)行調(diào)整,當(dāng)然事先是不會和你商量的。目錄索引,顧名思義就是將網(wǎng)站分門別類地存放在相應(yīng)的目錄中,因此用戶在查詢信息時,可選擇關(guān)鍵詞搜索,也可按分類目錄逐層查找。如以關(guān)鍵詞搜索,返回的結(jié)果跟搜索引擎一樣,也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站,只不過其中人為因素要多一些。如果按分層目錄查找,某一目錄中網(wǎng)站的排名則是由標(biāo)題字母的先后順序決定(也有例外)。目前,搜索引擎與目錄索引有相互融合滲透的趨勢。原來一些純粹的全文搜索引擎現(xiàn)在也提供目錄搜索,如Google就借用OpenDirectory目錄提供分類查詢。而象Yahoo!這些老牌目錄索引則通過與Google等搜索引擎合作擴(kuò)大搜索范圍(注),在默認(rèn)搜索模式下,一些目錄類搜索引擎首先返回的是自己目錄中匹配的網(wǎng)站,如國內(nèi)搜狐、新浪、網(wǎng)易等;而另外一些則默認(rèn)的是網(wǎng)頁搜索,如Yahoo。新競爭力通過對搜索引擎營銷的規(guī)律深入研究認(rèn)為:搜索引擎推廣是基于網(wǎng)站內(nèi)容的推廣——這就是搜索引擎營銷的核心思想。這句話說起來很簡單,如果仔細(xì)分析會發(fā)現(xiàn),這句話的確包含了搜索引擎推廣的一般規(guī)律。本文作者在“網(wǎng)站推廣策略之內(nèi)容推廣思想漫談”一文中提出一個觀點(diǎn):“網(wǎng)站內(nèi)容不僅是大型ICP網(wǎng)站的生命源泉,對于企業(yè)網(wǎng)站網(wǎng)絡(luò)營銷的效果同樣是至關(guān)重要的”。因為網(wǎng)站內(nèi)容本身也是一種有效的網(wǎng)站推廣手段,只是這種推廣需要借助于搜索引擎這個信息檢索工具,因此網(wǎng)站內(nèi)容推廣策略實際上也就是搜索引擎推廣策略的具體應(yīng)用。百度谷歌編輯查詢處理以及分詞技術(shù)隨著搜索經(jīng)濟(jì)的崛起,人們開始越加關(guān)注全球各大搜索引擎的性能、技術(shù)和日流量。作為企業(yè),會根據(jù)搜索引擎的知名度以及日流量來選擇是否要投放廣告等;作為普通網(wǎng)民,會根據(jù)搜索引擎的性能和技術(shù)來選擇自己喜歡的引擎查找資料;作為技術(shù)人員,會把有代表性的搜索引擎作為研究對象。搜索引擎經(jīng)濟(jì)的崛起,又一次向人們證明了網(wǎng)絡(luò)所蘊(yùn)藏的巨大商機(jī)。網(wǎng)絡(luò)離開了搜索將只剩下空洞雜亂的數(shù)據(jù),以及大量等待去費(fèi)力挖掘的金礦。meta

description是對網(wǎng)頁內(nèi)容的精練概括。如果description描述與網(wǎng)頁內(nèi)容相符,百度會把description當(dāng)做摘要的選擇目標(biāo)之一,一個好的description會幫助用戶更方便的從搜索結(jié)果中判斷你的網(wǎng)頁內(nèi)容是否和需求相符。metadescription不是權(quán)值計算的參考因素,這個標(biāo)簽存在與否不影響網(wǎng)頁權(quán)值,只會用做搜索結(jié)果摘要的一個選擇目標(biāo)。推薦做法:1.網(wǎng)站首頁、頻道頁、產(chǎn)品參數(shù)頁等沒有大段文字可以用做摘要的網(wǎng)頁最適合使用description。2.為每個網(wǎng)頁創(chuàng)建不同的description,避免所有網(wǎng)頁都使用同樣的描述。3.長度合理,不過長不過短。圖片alt建議為圖片加alt說明。因為這樣做可以在網(wǎng)速較慢圖片不能顯示時讓用戶明白圖片要傳達(dá)的信息,也能讓搜索引擎了解圖片的內(nèi)容。同理,使用圖片做導(dǎo)航時,也可以使用alt注釋,用alt告訴搜索引擎所指向的網(wǎng)頁內(nèi)容是什么。flash信息Baiduspider只能讀懂文本內(nèi)容,flash、圖片等非文本內(nèi)容暫時不能處理,放置在flash、圖片中的文字,百度無

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論