SEO是什么與搜索引擎原理_第1頁
SEO是什么與搜索引擎原理_第2頁
SEO是什么與搜索引擎原理_第3頁
SEO是什么與搜索引擎原理_第4頁
SEO是什么與搜索引擎原理_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、SEO是什么與搜索引擎原理沈陽沈陽SEO 目錄1、SEO的含義2、SEO常見方向3、Spider4、內(nèi)容處理、中文分詞和索引5、頁面去重原理、頁面去重原理6、用戶需求分析、用戶需求分析7 7、內(nèi)容相關(guān)性計算、內(nèi)容相關(guān)性計算8 8、連接分析、連接分析9 9、用戶體驗判斷、用戶體驗判斷1010、有效索引和緩存機制、有效索引和緩存機制1111、反作弊和人工干預(yù)、反作弊和人工干預(yù)沈陽沈陽SEO 1、SEO的含義SEO原始定義搜索引擎優(yōu)化,指為了提升網(wǎng)頁在搜索引擎自然搜索結(jié)果中的收錄數(shù)量及排序位置而做的優(yōu)化行為,這一行為的目的,是為了從搜索引擎中獲得更多的免費流量,以及更好的展現(xiàn)網(wǎng)站形象。SEO現(xiàn)實含義

2、還需要對搜索流量在網(wǎng)站中整個行為(PV和轉(zhuǎn)化)負(fù)責(zé)。沈陽沈陽SEO 思考SEO是忽悠還是技術(shù),策略還是藝術(shù)?面試官問“你認(rèn)為SEO是什么?”沈陽沈陽SEO 2、SEO常見方向原始方向發(fā)發(fā)外鏈,寫寫文章,堆堆關(guān)鍵詞現(xiàn)實方向技術(shù),產(chǎn)品,運營沈陽沈陽SEO 搜索引擎原理互聯(lián)網(wǎng)Spider內(nèi)容處理分詞索引去重反作弊內(nèi)容相關(guān)性鏈接分析用戶體驗查詢分析緩存機制頁面排序沈陽沈陽SEO 搜索引擎原理搜索引擎主動抓取網(wǎng)頁進(jìn)行的流程和機制1、派出Spider,按照一定策略把網(wǎng)頁抓回到搜索引擎服務(wù)器用戶進(jìn)行查詢后,搜索引擎工作流程和機制2、對抓回的網(wǎng)頁進(jìn)行鏈接抽離、內(nèi)容處理,消除噪聲、提取該頁面文本內(nèi)容3、對網(wǎng)頁的

3、文本內(nèi)容進(jìn)行中文分詞、去除停止詞4、判斷該頁面內(nèi)容與已索引網(wǎng)頁是否重復(fù),剔除重復(fù)頁,對剩余網(wǎng)頁進(jìn)行倒排索引,然后等待用戶檢索1、對用戶所查關(guān)鍵詞進(jìn)行分詞,并根據(jù)用戶地理位置和歷史檢索特征進(jìn)行用戶需求分析2、查找緩存中是否有該關(guān)鍵詞的查詢結(jié)果,如果有,搜索引擎會根據(jù)當(dāng)下用戶的各種信息判斷其真正需求,對緩存中的結(jié)果進(jìn)行微調(diào)或直接呈現(xiàn)給用戶3、如果用戶查詢的關(guān)鍵詞在緩存中不存在,那么就在索引庫中的網(wǎng)頁進(jìn)行調(diào)取排名呈現(xiàn),并將該關(guān)鍵詞和對應(yīng)的搜索結(jié)果加入到緩存中4、網(wǎng)頁排名是根據(jù)用戶的搜索詞和搜索需求,對索引庫中的網(wǎng)頁進(jìn)行相關(guān)性、重要性(鏈接權(quán)重分析)和用戶體驗的高低進(jìn)行分析所得出的沈陽沈陽SEO 3、

4、SpiderSpider也就是大家常說的爬蟲、蜘蛛或機器人,是處于整個搜索引擎最上游的一個模塊,只有Spider抓回的頁面或URL才會被索引和參與排名首先,Spider想要抓取網(wǎng)頁,要發(fā)現(xiàn)網(wǎng)頁抓取入口,所以要給Spider一些網(wǎng)頁入口,然后順著入口進(jìn)行爬行抓取,這就涉及抓取策略問題其次,網(wǎng)頁內(nèi)容是有時效性的,所以Spider對不同網(wǎng)頁的抓取頻率也要有一定的策略性,這就涉及再次抓取和更新策略問題再次,互聯(lián)網(wǎng)中的網(wǎng)頁總有一部分是沒有外部鏈接導(dǎo)入的,也就是常說的“暗網(wǎng)”并且這部分網(wǎng)頁也是需要呈現(xiàn)給網(wǎng)民瀏覽的,這就涉及如何解決暗網(wǎng)問題最后,大型搜索引擎的Spider不可能只有一個,為了節(jié)省資源,要保證

5、多個Spider同時作業(yè)且抓取頁面不重復(fù),這就涉及分布抓取策略沈陽沈陽SEO 3.1Spider分類批量型Spider增量型Spider垂直型Spider有明顯的抓取范圍和目標(biāo),設(shè)置抓取時間限制、抓取數(shù)據(jù)量的限制,或抓取固定范圍內(nèi)頁面的限制沒有固定目標(biāo)、范圍和時間限制,會無休止地抓取下去直到把全網(wǎng)的數(shù)據(jù)抓完為止只對特定主題、特定內(nèi)容或特定行業(yè)的網(wǎng)頁進(jìn)行抓取,一般都會聚焦在某一個限制的范圍內(nèi)進(jìn)行增量型的抓取沈陽沈陽SEO 3.2Spider的抓取策略Spider眼中的互聯(lián)網(wǎng)頁面已經(jīng)抓取過的頁面待抓取的頁面可抓取的頁面暗網(wǎng)中的頁面123456789已抓取頁面待抓取頁面可抓取頁面暗網(wǎng)中頁面沈陽沈陽S

6、EO 3.2Spider的抓取策略Spider的抓取方式深度優(yōu)先策略廣度優(yōu)先策略即一條道走到黑,當(dāng)沿著一個路徑走到無路可走時,再返回來走另一條路Spider在一個頁面上發(fā)現(xiàn)多個連接時,先把這些頁面抓一遍,然后再抓這些頁面中提取下來的鏈接其他策略重要頁面優(yōu)先抓取策略大站優(yōu)先策略沈陽沈陽SEO 3.2Spider的抓取策略A1234567891011121314A123456781011121314深度優(yōu)先策略廣度優(yōu)先策略沈陽沈陽SEO 3.3Spider再次抓取更新策略用戶體驗歷史更新頻率網(wǎng)頁類型搜索引擎會搜集所有用戶的搜索請求,然后統(tǒng)計所有搜索結(jié)果中用戶可能看到的網(wǎng)頁,繼而進(jìn)行優(yōu)先再次抓取和更

7、新。Spider的再次抓取就是為了發(fā)現(xiàn)已經(jīng)被索引網(wǎng)頁是否有變化,如果某個網(wǎng)頁持續(xù)沒有變化,搜索引擎就會降低對其抓取的頻率不同的網(wǎng)頁類型有不同的更新頻率網(wǎng)頁權(quán)重網(wǎng)頁權(quán)重是決定抓取頻率的重要因素沈陽沈陽SEO 3.4分布式Spider和降權(quán)蜘蛛分布式Spider分布式抓取策略任務(wù)分發(fā)機制抓取范圍常規(guī)網(wǎng)頁分類站點質(zhì)量等級分類網(wǎng)頁類型分類站點或網(wǎng)頁內(nèi)容所在行業(yè)分類沈陽沈陽SEO 3.5Spider和普通用戶的區(qū)別Spider可以容易的分辨網(wǎng)頁中是否有隱藏內(nèi)容,是否被掛了黑鏈,但不能完全了解網(wǎng)頁的圖片,JS,F(xiàn)lash中的內(nèi)容,普通用戶卻恰恰相反Spider對網(wǎng)站的抓取全部都是直接訪問,而普通用戶中除了

8、直接訪問的用戶外一般都是有上級訪問路徑的Spider不支持Cookie,但普通用戶的瀏覽器一般是支持的Spider不會主動注冊登錄網(wǎng)站,但是普通用戶是可以的;Spider不會抓取網(wǎng)站Robots中屏蔽的內(nèi)容,但是普通用戶是可以訪問的Spider對于有多個動態(tài)參數(shù)網(wǎng)站的抓取,可能會陷入死循環(huán),但是普通用戶不會Spider對于列表中前幾頁的新內(nèi)容抓取可能不好,但是感興趣的普通用戶會依次瀏覽Spider暫時還不能真正判斷文章是不是原創(chuàng),但是普通用戶可以通過多種方式來確定是原創(chuàng)還是轉(zhuǎn)載沈陽沈陽SEO 4、內(nèi)容處理、中文分詞和索引4.1內(nèi)容處理即搜索引擎對Spider抓取回來的頁面進(jìn)行處理步驟要判斷該頁

9、面的類型提取頁面的文本信息去除頁面噪聲去除內(nèi)容的停止詞去除內(nèi)容的停止詞沈陽沈陽SEO 4.2中文分詞中文分詞1、基于詞典匹配2、基于統(tǒng)計對大量文字樣本進(jìn)行分析,把相鄰出現(xiàn)次數(shù)多的幾個字當(dāng)成一個詞,可以解決搜索引擎詞典更新問題,并消除歧義使用搜索引擎自己的詞典對網(wǎng)頁內(nèi)容進(jìn)行拆分正向最大匹配逆向最大匹配最小匹配匹配方式:沈陽沈陽SEO 4.3索引索引搜索引擎中使用的是倒排索引正向索引結(jié)構(gòu)倒排索引結(jié)構(gòu)沈陽沈陽SEO 5、頁面去重原理搜索引擎不想呈現(xiàn)給用戶的搜索結(jié)果都是相同的內(nèi)容,在抓取這些重復(fù)的頁面,在一定意義上就是對搜索引擎自身資源的浪費,因此去除重復(fù)內(nèi)容的網(wǎng)頁也成了搜索引擎所面臨的一大問題。沈陽

10、沈陽SEO 6、用戶需求分析6.1搜索詞分析當(dāng)用戶向搜索引擎提交查詢后,搜索引擎首先判斷用戶所提交的搜索詞的類型:是普通的文本搜索、普通文本帶有高級指令的搜索,還是純高級指令的搜索。6.2搜索意圖分析當(dāng)用戶搜索一些比較寬泛的關(guān)鍵詞時,只根據(jù)關(guān)鍵詞本身當(dāng)用戶搜索一些比較寬泛的關(guān)鍵詞時,只根據(jù)關(guān)鍵詞本身,搜索引擎并不能知道用戶確切需要什么,此時就會嘗試,搜索引擎并不能知道用戶確切需要什么,此時就會嘗試性地分析用戶的搜索意圖性地分析用戶的搜索意圖沈陽沈陽SEO 7、內(nèi)容相關(guān)性計算相關(guān)性是指內(nèi)容和關(guān)鍵詞的相關(guān)程度?,F(xiàn)在搜索引擎其實并沒有真正解決相關(guān)性計算的問題,只是通過關(guān)鍵詞分詞匹配、關(guān)鍵詞在內(nèi)容中的

11、頻率密度、關(guān)鍵詞字體位置和頁面外鏈等表面特征來進(jìn)行內(nèi)容相關(guān)度的計算。沈陽沈陽SEO 7.1關(guān)鍵詞匹配1.把用戶提交的搜索詞分成詞A和詞B2.同時使用詞A和詞B在索引庫中進(jìn)行檢索,并提出所有包含詞A或者詞B的文件組成文件集合上L3.在文件集合L中把同時包含詞A和詞B的文件優(yōu)化提出來組成文件集合M排在前面,把只包含詞A或詞B的文件排在后面4.繼續(xù)對文件集合M進(jìn)行分析,把完全包含用戶搜索詞的文檔提出來組成文件集合N,并排在前面,把內(nèi)容中沒有完全匹配搜索詞的文件排在后面5.5.在根據(jù)搜索詞在網(wǎng)頁中出現(xiàn)的次數(shù)、位置、密度和形式等對文件集合在根據(jù)搜索詞在網(wǎng)頁中出現(xiàn)的次數(shù)、位置、密度和形式等對文件集合N N

12、中中的文件進(jìn)行排序的文件進(jìn)行排序6.搜索引擎還會分析文件的外鏈數(shù)量、質(zhì)量和錨文本,根據(jù)錨文本輔助分析文件和關(guān)鍵詞的相關(guān)度。外鏈的數(shù)量和質(zhì)量來確定文件的重要程度,以進(jìn)行排序調(diào)整沈陽沈陽SEO 7.2語義分析只根據(jù)關(guān)鍵詞匹配和外部鏈接對網(wǎng)頁的描述(錨文本),搜索引擎還不能真正理解網(wǎng)頁的內(nèi)容語義分析技術(shù)其實就是同各國對海量內(nèi)容的分析找出詞匯之間的關(guān)系,當(dāng)兩個詞或一組詞經(jīng)常出現(xiàn)在同一個文檔中時,就可以認(rèn)為這些詞之間是語義相關(guān)的沈陽沈陽SEO 8、連接分析網(wǎng)頁之間的鏈接關(guān)系在一定程度上反映了每個網(wǎng)頁各自的重要程度,理論上重要的網(wǎng)頁獲得的連接數(shù)量會比較多。同時鏈接的屬性中還有錨文本,用來描述被連接頁面的內(nèi)

13、容,對搜索引擎的排名有很大的影響沈陽沈陽SEO 9、用戶體驗判斷現(xiàn)在的搜索引擎已經(jīng)不是以連接分析為中心了,而是以用戶體驗為中心。在正常的內(nèi)容相關(guān)性判斷和鏈接分析的基礎(chǔ)上,網(wǎng)頁的用戶體驗對于搜索排名的影響越來越大。網(wǎng)站的用戶體驗優(yōu)化(UEO)沈陽沈陽SEO 9.1正常用戶體驗普通用戶瀏覽網(wǎng)站時的用戶體驗,可以分以下五大類:1.感官體驗:呈現(xiàn)給用戶視聽上的體驗,強調(diào)舒適性;2.交互體驗:呈現(xiàn)給用戶操作上的體驗,強調(diào)易用、可用性;3.情感體驗:呈現(xiàn)給用戶心理上的體驗,強調(diào)友好性;4.瀏覽體驗:呈現(xiàn)給用戶瀏覽上的體驗,強調(diào)吸引性;5.信任體驗:呈現(xiàn)給用戶的信任體驗,強調(diào)可靠性。沈陽沈陽SEO 10、有

14、效索引和緩存機制 10.1有效索引用戶搜索時,可能會匹配戶幾十萬上至幾億的網(wǎng)頁,但是大部分用戶只會瀏覽前三頁,這樣搜索引擎就沒有必要相應(yīng)每次搜索時都對全部的索引文件進(jìn)行檢索,只需要對一個適當(dāng)數(shù)量范圍內(nèi)的索引文件進(jìn)行索引就可以了。百度最多呈現(xiàn)760個結(jié)果,Google最多呈現(xiàn)1000個結(jié)果。沈陽沈陽SEO 10.2緩存機制緩存就是臨時文件交換區(qū),是可以進(jìn)行高速數(shù)據(jù)交換的存儲器,它先于內(nèi)存與CPU交換數(shù)據(jù),因此速率極快。緩存淘汰機制把使用頻率小的搜索結(jié)果剔除,補充進(jìn)來使用頻率大的搜索結(jié)果,來保證緩存空間中的內(nèi)容可以相應(yīng)及命中當(dāng)下盡可能多的用戶搜索請求。緩存更新機制搜索引擎為了節(jié)約資源,不可能對緩存中的內(nèi)容進(jìn)行實時更新,而是會選擇搜索請求比較少的時間段進(jìn)行更新緩存。沈陽沈陽SEO 11、反作弊和人工干預(yù)自從有搜索引擎以來,就有人不斷研究搜索引擎的排名機制,進(jìn)而尋找搜索引擎排名的技術(shù)和邏輯漏洞,來快速提升自己網(wǎng)站的搜索排名。沈陽沈陽SEO 11.1反作弊算法反作弊就是過濾環(huán)節(jié)的重要組成部分黑白名單搜索引擎會根據(jù)網(wǎng)站內(nèi)容的質(zhì)量、權(quán)重、品牌建立白名單,也會找出明顯作弊嚴(yán)重的網(wǎng)站建立黑名單。作弊特征研究作弊特征研究是現(xiàn)在搜索引擎進(jìn)行反作弊的主要手法。當(dāng)發(fā)現(xiàn)一個對搜索結(jié)果影響很大的作弊網(wǎng)站或

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論