SEO工作原理資料_第1頁
SEO工作原理資料_第2頁
SEO工作原理資料_第3頁
SEO工作原理資料_第4頁
SEO工作原理資料_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

SEO(二)

--搜索引擎工作原理搜索引擎工作原理搜索引擎發(fā)展歷史1搜索引擎分類2搜索引擎工作原理3搜索引擎介紹4退出搜索引擎的發(fā)展歷史第一階段是以詞頻搜索為原理開發(fā)的,匯總互聯(lián)網(wǎng)高頻詞匯進(jìn)行信息檢索。

第二階段是以“超鏈分析”技術(shù)為核心的,分析網(wǎng)頁鏈接相關(guān)度。

第三階段是以競價排名商業(yè)模式為顯著特征的,對搜索排序進(jìn)行排名干預(yù)。

第四階段是以互動社區(qū)為基礎(chǔ)的搜索引擎,隨著人們對信息需求的增長,必

然要依靠其他用戶的力量來滿足,而社區(qū)化能很好地滿足這一需求。

第五階段?我想應(yīng)該是基于概念的搜索,還需要市場的驗(yàn)證。

詳情請查看:返回搜索引擎分類元搜索引擎目錄搜索引擎搜索引擎分類全文搜索引擎國外最具代表性的全文搜索引擎有:Google、Yahoo、AllTheWeb、AltaVista、Inktomi等;國內(nèi)比較著名的有百度等最具代表性的莫過于雅虎了(雅虎通過輪番的并購和持續(xù)的研發(fā),已經(jīng)躋身頂尖全文搜引擎行列),其他的還有ODP(即DMOZ)、LookSmart、About等著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等返回全文搜索引擎它通過從互聯(lián)網(wǎng)上提取各網(wǎng)站的信息而建立數(shù)據(jù)庫,再從這個數(shù)據(jù)庫中檢索與用戶查詢條件匹配的相關(guān)記錄,最后把這些記錄按照一定的排列順序返回給用戶。從搜索結(jié)果來源的角度,全文搜索引擎擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機(jī)器人”(Robot)程序,并自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用。返回元搜索引擎元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進(jìn)行搜索,并將結(jié)果返回給用戶。在搜索結(jié)果排列方面,有的直接按照來源排列搜索結(jié)果,如Dogpile;有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo.返回

目錄搜索引擎目錄搜索引擎雖然具備搜索功能,但嚴(yán)格地說并不是搜索引擎,僅僅是按照類別用戶展示相關(guān)網(wǎng)站列表的普通網(wǎng)站而已。除了這三大類搜索引擎外,還有以下幾種非主流形式的搜索引擎(1)集合式搜索引擎:類似于元搜索引擎,區(qū)別在于不是同時調(diào)用多個引擎進(jìn)行搜索,而是讓用戶從提供的引擎中選擇,

如HotBot在2002年底推出的搜索引擎。(2)門戶搜索引擎:雖然提供服務(wù),但自身既沒有分類目錄也沒有網(wǎng)頁數(shù)據(jù)

庫,其搜索結(jié)果完全來自其他引擎,如AOLSearch、MSNSearch等(3)免費(fèi)鏈接列表:也就是常見的鏈接交換系統(tǒng),這類網(wǎng)站一般只簡

單的排列出網(wǎng)站的鏈接條目,少部分有簡單的分

類目錄,不過規(guī)模比起雅虎等分類目錄要小得多返回搜索引擎工作原理搜索引擎優(yōu)化的主要任務(wù)之一就是提高網(wǎng)站的搜索引擎友好性,因此,搜索引擎優(yōu)化的每個環(huán)節(jié)都與搜索引擎存在必然的聯(lián)系,研究搜索引擎優(yōu)化實(shí)際上是對搜索引擎工作過程的逆向推理。所以學(xué)習(xí)搜索引擎優(yōu)化應(yīng)該從了解其工作原理開始。搜索引擎的主要工作包括:1、頁面收錄2、頁面分析3、頁面排序4、關(guān)鍵字查詢返回搜索引擎對頁面的收錄搜索引擎收錄頁面實(shí)際上就是在互聯(lián)網(wǎng)上進(jìn)行數(shù)據(jù)采集,這是搜索引擎最基礎(chǔ)的工作。搜索引擎的數(shù)據(jù)采集能力直接決定搜索引擎可提供的信息量及對互聯(lián)網(wǎng)覆蓋的范圍,從而決定搜索引擎的質(zhì)量。因此,搜索引擎總是想方設(shè)法地提高其數(shù)據(jù)采集能力。1、頁面收錄流程2、頁面收錄原理3、頁面收錄方式4、如何避免重復(fù)性收錄5、頁面維護(hù)方式6、頁面存儲返回頁面收錄流程URL列表抓取頁面原始頁面存儲提取URL如右圖所示搜索引擎抓取頁面的簡單流程URL是頁面的入口,而域名是網(wǎng)站的入口。搜索引擎要在互聯(lián)網(wǎng)上抓取到頁面的首要任務(wù)就是建立一個足夠大的域名列表,再通過域名進(jìn)入相應(yīng)的網(wǎng)站,從而抓取頁面。那么對于網(wǎng)站來說,如果想要被搜索引擎收錄,首要條件就是加入搜索引擎的域名列表。下面介紹兩種常用的加入搜索引擎域名列表的方法。第一:利用搜索引擎提供的網(wǎng)站登錄入口,向搜索引擎提交網(wǎng)站域名,例如:Google的登錄地址是

(做法較被動,從域名提交到網(wǎng)站被收錄花費(fèi)的時間較長)第二:通過與外部網(wǎng)站建立鏈接關(guān)系,使搜索引擎可

以通過外部網(wǎng)站發(fā)現(xiàn)我們的網(wǎng)站,從而實(shí)現(xiàn)對

網(wǎng)站的收錄。(主動權(quán)在我們手里,收錄速度快,一般2—7天就會被收錄)返回頁面收錄原理返回URL列表抓取頁面提取URL存儲原始頁面內(nèi)部URL域名URL如果把網(wǎng)站頁面組成的集合看作是一個有向圖,從指定的頁面出發(fā),沿著頁面中的鏈接,按照某種特定的策略對網(wǎng)站中的頁面進(jìn)行遍歷。不停地從URL列表中移出已經(jīng)訪問過的URL,并存儲原始頁面,同時提取原始頁面中的URL信息;再將URL分為域名及內(nèi)部URL兩大類,同時判斷URL是否被訪問過,將未訪問的URL加入URL列表中。遞歸地描述URL列表,直至耗盡所有的URL資源為止。經(jīng)過這些工作,搜索引擎就可以建立龐大的域名列表、頁面URL列表并存儲足夠多的原始頁面。頁面收錄方式返回頁面收錄方式是指搜索引擎抓取頁面時所使用的策略,目的是為了能再互聯(lián)網(wǎng)中篩選出相對重要的信息。頁面收錄方式的制定取決于搜索引擎對網(wǎng)站結(jié)構(gòu)的理解。加深對搜索引擎頁面收錄方式的認(rèn)識,有利于為網(wǎng)站建立友好的結(jié)構(gòu),提供頁面被收錄的數(shù)量。下面介紹3種頁面收錄方式A、廣度優(yōu)先(橫向)B、深度優(yōu)先(縱向)C、用戶提交為了提高抓取頁面的數(shù)量,我們可以采取多種方法結(jié)合的方式抓取頁面。用廣度優(yōu)先的方式抓取盡可能多的重要頁面;再使用深度優(yōu)先的方式抓取更多隱蔽的頁面;最后,結(jié)合用戶提交的信息,抓取那些被遺漏的頁面。首頁頁面1-2頁面1-1頁面1-3頁面2-1頁面2-1頁面2-1如何避免重復(fù)性收錄返回搜索引擎在對頁面進(jìn)行分析時必須具備識別重復(fù)信息的能力,因?yàn)?,大量的重?fù)信息不但占用巨大的服務(wù)器硬盤空間,而且還會增加用戶尋找信息的時間,影響用戶體驗(yàn)。重復(fù)信息主要包括轉(zhuǎn)載內(nèi)容和鏡像內(nèi)容兩種。(1)轉(zhuǎn)載頁面:搜索引擎把網(wǎng)頁正文內(nèi)容分為N個區(qū)域,如果有M個區(qū)域是相同或者相

似則搜索引擎認(rèn)為這些頁面互為轉(zhuǎn)載頁面。(2)鏡像頁面:把頁面分成N個區(qū)域,如果這N個區(qū)域的內(nèi)容完全一樣,則認(rèn)為這些頁

面互為鏡像頁面。(3)鏡像網(wǎng)站:形成鏡像網(wǎng)站主要有兩種情況:第一種是多個區(qū)域名或IP指向同一服務(wù)

器的同一個物理地址;另一種是整個網(wǎng)站內(nèi)容被復(fù)制到使用不同域名或

者IP的服務(wù)器上。搜索引擎首先判斷這些網(wǎng)站的首頁以及首頁直接鏈接

的頁面是否互為鏡像頁面。如果是,則為鏡像網(wǎng)站。頁面維護(hù)方式返回由于搜索引擎不可能一次性抓取到網(wǎng)站中所有的頁面,而且網(wǎng)站中頁面的數(shù)量也會不斷地變化,內(nèi)容也在不斷地更新。因此,搜索引擎還需要對已抓取的頁面進(jìn)行維護(hù),以便能及時獲取頁面中最新的信息已抓取更多的新頁面。常見的頁面維護(hù)方式包括以下幾種:(1)定期抓?。阂渤芍芷谛宰ト?,即周期性地對已收錄的頁面進(jìn)行全面更新,更新時

用抓到的新頁面替換原有的舊頁面,刪除不存在頁面,并存儲新發(fā)

現(xiàn)的頁面。周期性較長,Google一般是30-60天會更新一次。

(適用于維護(hù)頁面少、內(nèi)容更新緩慢的網(wǎng)站)(2)增量抓?。菏峭ㄟ^對已抓取的頁面進(jìn)行定時監(jiān)控,實(shí)現(xiàn)對頁面的更新及維護(hù)。基

于重要頁面攜帶重要內(nèi)容的思想以及80/20法則,搜索引擎只需對網(wǎng)

站中部分重要頁面進(jìn)行定時監(jiān)控,即可獲取網(wǎng)站中的相對重要信息。

(抓取時間短,能及時向用戶展示頁面中最新的內(nèi)容)(3)分類定位抓?。焊鶕?jù)頁面的類別或性質(zhì)而制定相應(yīng)更新周期的頁面監(jiān)控方式。在一個網(wǎng)站中,對于更新比較頻繁的頁面(如首頁),可以使用增量抓取方式對其進(jìn)行監(jiān)控,這樣就可以對網(wǎng)站中相對重要的頁面進(jìn)行及時更新;而對于實(shí)時性非常高的論壇頁面則可以采用分類定位的抓取方式;為了防止遺漏網(wǎng)站中的某些頁面,還需要采用定期抓取的方式。

網(wǎng)頁分析頁面抓取回來之后搜索引擎需要對原始頁面進(jìn)行一系列的分析、處理,以迎合用戶信息查詢的習(xí)慣。如圖所示搜索引擎首先對存儲的原始頁面建立索引,再過濾原始網(wǎng)頁的標(biāo)簽信息,從中提取出網(wǎng)頁中的正文內(nèi)容;然后,對正文內(nèi)容進(jìn)行切詞,并建立關(guān)鍵詞索引,得到了頁面與關(guān)鍵字間的對應(yīng)關(guān)系;最后對所有關(guān)鍵字進(jìn)行重組,從而建立關(guān)鍵字與頁面間的對應(yīng)關(guān)系。主要包括:1、網(wǎng)頁索引:為原始頁面建立索引實(shí)際上就是為頁面的URL建立索引2、網(wǎng)頁分析:

網(wǎng)頁正文信息關(guān)鍵字列表關(guān)鍵字索引網(wǎng)頁提取切詞索引重組正文信息提?。簩W(wǎng)頁中非正文信息的過濾,最重要的是對網(wǎng)頁中標(biāo)簽信息的過濾。

分詞/切詞返回分詞/切詞經(jīng)過對原始頁面提取正文信息后,為了得到與用戶相關(guān)的數(shù)據(jù),搜索引擎還需要對頁面中的內(nèi)容進(jìn)行切分,從而形成與用戶查詢條件相匹配的以關(guān)鍵字為單位的信息列表。在中文環(huán)境中,切詞算法直接影響到網(wǎng)頁內(nèi)容經(jīng)過分詞處理后會產(chǎn)生什么樣的關(guān)鍵字,而這些關(guān)鍵字是否與用戶的搜索習(xí)慣一致。因而,切詞的結(jié)果直接決定搜索引擎能否提供與用戶查詢條件相匹配的信息。(1)字符串匹配分詞:是基于一個足夠大、足夠權(quán)威的“詞典”進(jìn)行的,如果頁面

上的詞與“詞典”中的詞匹配,則為命中,就可以得到一

個詞或者短語。(2)統(tǒng)計(jì)分詞:是根據(jù)相鄰兩個字出現(xiàn)的概率判斷這兩個字組合后是否會形成一個

詞,它常常會結(jié)合“詞典”一起使用,識別一些新詞匯。(3)關(guān)鍵字索引:經(jīng)過分詞之后形成了關(guān)鍵字列表,列表中包含關(guān)鍵字所在的網(wǎng)頁

的編號、關(guān)鍵字編號、關(guān)鍵字出現(xiàn)次數(shù)以及關(guān)鍵字在文檔中的

位置。然后會對列表建立索引,能更快搜到某個關(guān)鍵字。(例子)(4)關(guān)鍵字重組:把所有頁面中的關(guān)鍵字組成一個集合,并建立關(guān)鍵字索引,形成一個不重

復(fù)的關(guān)鍵字列表集合。這樣通過某個特定的關(guān)鍵字就可以找到一個或多

個網(wǎng)頁。返回頁面排序用戶向搜索引擎提交關(guān)鍵字查詢信息后,搜索引擎就在結(jié)果頁面返回與該關(guān)鍵字相關(guān)的頁面,這些頁面按照與關(guān)鍵字的接近程度由上至下進(jìn)行排列。介紹幾種常見的決定排列次序的因素。(1)頁面相關(guān)性:指頁面內(nèi)容與用戶所查詢的關(guān)鍵字的接近程度(2)鏈接權(quán)重:某一頁面得到的鏈接越多,從一定程度上反映了該頁面越重要,鏈接

權(quán)重值越高。內(nèi)部鏈接:指網(wǎng)站內(nèi)部頁面間的鏈接關(guān)系,體現(xiàn)了網(wǎng)站內(nèi)部對某個頁面的認(rèn)可

程度,理論上,頁面獲得的鏈接質(zhì)量越高數(shù)量越多,其重要性越大外部鏈接:指與本站以外的頁面間的鏈接關(guān)系。由于不可操縱,所以是決定整

個頁面權(quán)重最重要的因素

默認(rèn)權(quán)重分配:在鏈接權(quán)重值補(bǔ)償方面,搜索引擎把頁面被抓取的日期作為一

參考因素。它認(rèn)為頁面在單位時間內(nèi)獲得鏈接的質(zhì)量越高、數(shù)

量越多,則該頁面的質(zhì)量也更高。(3)用戶行為:用戶對搜索結(jié)果的點(diǎn)擊行為是衡量頁面相關(guān)性的因素之一。W(page)=W(relevance)+W(link)+W(user)

返回頁面相關(guān)性頁面相關(guān)性是指頁面內(nèi)容與用戶所查詢的關(guān)鍵字的接近程度,主要由關(guān)鍵字匹配度、關(guān)鍵字密度、關(guān)鍵字分布及關(guān)鍵字的權(quán)重標(biāo)簽等決定。(1)關(guān)鍵字匹配度(2)關(guān)鍵字密度:為有效防止網(wǎng)站所有者惡意操縱搜索結(jié)果,搜索引擎根據(jù)關(guān)鍵

字密度值來衡量頁面中某關(guān)鍵字的詞頻是否合理。關(guān)鍵字密度

是關(guān)鍵字詞頻與網(wǎng)頁總詞匯量的比例。(3)關(guān)鍵字分布:是指關(guān)鍵字在頁面中出現(xiàn)的位置,不同的位置會對頁面的相關(guān)

性帶來不一定的影響。(4)關(guān)鍵字的權(quán)重標(biāo)簽:在網(wǎng)頁中,網(wǎng)頁制作者利用不同的HTML標(biāo)簽使頁面中

相關(guān)的內(nèi)容實(shí)現(xiàn)不同的視覺效果(字體的樣式、字號、

顏色等),靈活地運(yùn)用各種HTML標(biāo)簽還有助于提高頁

面相關(guān)性。在頁面權(quán)重分配里,按招標(biāo)簽的作用,可以

把HTML標(biāo)簽分為“權(quán)重標(biāo)簽”(<b>(10),<hl>(50))和非權(quán)重標(biāo)簽(<img>,<by>).點(diǎn)擊查看例子返回關(guān)鍵字匹配度關(guān)鍵字匹配度是指頁面P中的內(nèi)容與用戶所提交的關(guān)鍵字K間的匹配程度,主要由兩個因素決定頁面P中是否存在與查詢關(guān)鍵字K相匹配的內(nèi)容。關(guān)鍵字K在頁面P中出現(xiàn)的次數(shù)為了計(jì)算關(guān)鍵字匹配度,搜索引擎為每個頁面分配一個關(guān)鍵字匹配值,該值由關(guān)鍵字在頁面中出現(xiàn)的次數(shù)決定。假如某關(guān)鍵字在頁面中出現(xiàn)一次,關(guān)鍵字匹配值為10;那么,如果某一關(guān)鍵字在頁面中出現(xiàn)10次,則關(guān)鍵字匹配值=10*10返回例子返回通過對關(guān)鍵字匹配度、關(guān)鍵字密度、關(guān)鍵字分布以及關(guān)鍵字的權(quán)重標(biāo)簽進(jìn)行說明后,我們推算出頁面相關(guān)性的計(jì)算公式:W(relevance)=W(match)+W(density)+W(position)+W(tag)(頁面相關(guān)性)=(關(guān)鍵字匹配值)+(關(guān)鍵字密度值)+(關(guān)鍵字分布值)+(標(biāo)簽權(quán)重值)例如某頁面的內(nèi)容為:<html><body><b>搜索引擎優(yōu)化</b><hl>搜索引擎</hl>…</body></html>根據(jù)前面的假設(shè)值對于“搜索引擎優(yōu)化”這個關(guān)鍵字來說,由于只出現(xiàn)一次,則關(guān)鍵字匹配值W(match)=10;關(guān)鍵字密度為50%,關(guān)鍵字密度值W(density)=20;關(guān)鍵字出現(xiàn)在頁面頂部,關(guān)鍵字分布值W(position)=50;權(quán)重標(biāo)簽<b>在突出關(guān)鍵字“搜索引擎優(yōu)化”時出現(xiàn)了一次,則標(biāo)簽權(quán)重值W(tag)=10;即W(relevance)=10+20+50+10=90。關(guān)鍵字查詢搜索引擎查詢功能的實(shí)現(xiàn)非常復(fù)雜,用戶對返回結(jié)果的時間要求也非常高(秒級),要在短時間內(nèi)進(jìn)行這么復(fù)雜的計(jì)算是不現(xiàn)實(shí)的,所以搜索引擎需要通過一套高效的機(jī)制處理來自用戶的查詢。主要包括(1)在用戶發(fā)出查詢請求前就完成被查詢關(guān)鍵字的反向索引、相關(guān)頁面權(quán)重計(jì)算等工作。(2)為那些查詢最頻繁的關(guān)鍵字對應(yīng)的頁面排序列表建立緩存機(jī)制。下面介紹搜索引擎如何建立信息查詢的緩存機(jī)制1、查詢流程2、用戶行為3、緩存機(jī)制返回查詢流程返回切詞查詢Q關(guān)鍵字反向索引表空列表返回經(jīng)過分配權(quán)重頁面列表是否(1)先對用戶提供的查詢條件進(jìn)行切詞,并刪除

查詢條件中沒有意義的字或詞,例如(的、得)(2)再以切詞結(jié)果作為條件在關(guān)鍵字反向索引列

表中進(jìn)行匹配。(3)如果存在匹配結(jié)果,則把所有關(guān)鍵字相匹配

的頁面組成一個列表。(4)最后,把匹配的頁面按照權(quán)重值從高到低進(jìn)

行排序,并返回給用戶。用戶行為返回用戶在搜索引擎中的行為主要包括搜索和點(diǎn)擊。搜索是用戶獲取信息的過程,點(diǎn)擊是用戶得到需要信息后的表現(xiàn)。搜索引擎通過對用戶行為的分析可以進(jìn)一步發(fā)掘用戶的需求,提高搜索結(jié)果的精準(zhǔn)度。(1)搜索:是用戶獲取信息的途徑(2)點(diǎn)擊:是用戶找到所需信息后的表現(xiàn),反映了用戶對信息的關(guān)注。因此,用戶對

鏈接的點(diǎn)擊也是衡量頁面相關(guān)性的因素之一,是衡量頁面相關(guān)性的一個重

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論