![SEO實戰(zhàn)密碼第二講了解搜索引擎_第1頁](http://file4.renrendoc.com/view4/M00/1C/07/wKhkGGZZCf6AfmZBAAHBYB7f3GE011.jpg)
![SEO實戰(zhàn)密碼第二講了解搜索引擎_第2頁](http://file4.renrendoc.com/view4/M00/1C/07/wKhkGGZZCf6AfmZBAAHBYB7f3GE0112.jpg)
![SEO實戰(zhàn)密碼第二講了解搜索引擎_第3頁](http://file4.renrendoc.com/view4/M00/1C/07/wKhkGGZZCf6AfmZBAAHBYB7f3GE0113.jpg)
![SEO實戰(zhàn)密碼第二講了解搜索引擎_第4頁](http://file4.renrendoc.com/view4/M00/1C/07/wKhkGGZZCf6AfmZBAAHBYB7f3GE0114.jpg)
![SEO實戰(zhàn)密碼第二講了解搜索引擎_第5頁](http://file4.renrendoc.com/view4/M00/1C/07/wKhkGGZZCf6AfmZBAAHBYB7f3GE0115.jpg)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第二講了解搜索引擎了解搜索引擎1搜索頁面結果google、百度、搜搜雅虎、新浪、搜狐InfoSpace、Dogpile、搜星google學術、百度音樂、搜酷視頻等等1搜索頁面結果自然搜索結果廣告1
.1經典搜索結果列表目錄說明鏈接、時間、快照1
.2整合搜索結果涵蓋了垂直搜索結果1.3縮進列表1.4全站鏈接1.5迷你全站鏈接1.6One-box1.7富摘要
2工作原理簡介2.1爬行和抓取蜘蛛通過跟蹤鏈接訪問網頁,獲得HTML代碼存入數(shù)據(jù)庫,完成數(shù)據(jù)收集的任務蜘蛛協(xié)議:robots.txt,是否允許搜索引擎抓取文件或目錄1.Google爬蟲名稱
1)Googlebot:網站索引和新聞索引中抓取網頁
2)Googlebot-Mobile:移動索引抓取網頁
3)Googlebot-Image:圖片索引抓取網頁
4)Mediapartners-Google:抓取AdSense,在AdSense廣告情況下,Google才會使用此漫游器來抓取您的網站。
5)Adsbot-Google:抓取AdWords目標網頁的質量,在GoogleAdWords為你的網站做廣告的情況下,Google才會使用此漫游器。
2.百度(Baidu)爬蟲:Baiduspider3.雅虎(Yahoo)爬蟲:YahooSlurp4.有道(Yodao)蜘蛛:YodaoBot5.搜狗(sogou)蜘蛛:sogouspider6.MSN蜘蛛名稱:Msnbot跟蹤鏈接深度優(yōu)先和廣度優(yōu)先混合使用吸引蜘蛛地址庫建立地址庫:為了防止重復爬行和抓取網址,會建立一個地址庫,記錄已經被發(fā)現(xiàn)還沒有抓取的頁面,以及已經被抓取的頁面文件存儲和內容檢測文件存儲:搜索引擎抓取的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫,每個Url有個唯一的文件編號復制內容檢測:權重低的網頁是否存在大量抄襲內容,如果有就可能不再抓取內容。2.2預處理預處理:索引程序對抓取來的頁面數(shù)據(jù)進行文字提取、中文分詞、索引等處理,以備排名程序調用中文分詞中文分詞方法基于詞典匹配:正向匹配和逆向匹配;最大匹配和最小匹配;正向最大匹配和逆向最大匹配基于統(tǒng)計:分析大量文字樣本,計算出字與字相鄰出現(xiàn)的統(tǒng)計概率。該方法反響快速,有利于消除歧義。搜索引擎頁面分詞取決于詞庫的規(guī)模、準確性和分詞算法、而非取決于頁面中文分詞去停止詞:除去“的、得、地”等詞消除噪音:通過區(qū)分頁頭、導航、正文、頁腳、廣告等,排除與頁面內容不相關的信息去重:識別和刪除具有相同內容頁面中權重較低的頁面。特殊文件處理:PDF、Word、WPS、TXT、PPT等,圖片、視頻等的處理?正向索引記錄每個關鍵詞在頁面出現(xiàn)的頻率、次數(shù)、格式、位置等倒排索引2.3排名用戶輸入關鍵詞后,排名程序調用索引數(shù)據(jù)庫,計算相關性,然后按一定格式生成搜索結果頁面。搜索詞處理中文分詞去停止詞指令處理:多個關鍵詞時,默認的處理方法是在關鍵詞之間使用“與邏輯”拼寫錯誤矯正文件匹配初始子集的選擇搜索結果并非完全包括所有頁面信息相關性計算對初始子集中頁面計算關鍵詞相關性,影響因素包含:關鍵詞常用程度:戴爾電腦,我們冥王星詞頻及密度:通常認為搜索詞在頁面出現(xiàn)的次數(shù)越多,密度越高關鍵詞位置及形式:標簽、標題、正文、黑體等關鍵詞距離:搜索關鍵詞中分詞間在頁面中出現(xiàn)的距離鏈接分析及頁面權重:錨文字、外部鏈接等排名過濾及調整在排名大體確定后,進行一些過濾算法,如百度11位、google的負6對有作弊嫌疑的網頁加以懲罰,往后調整。排名顯示搜索緩存2/8定律,長尾理論,為了節(jié)約資源,搜索引擎會把最常見的搜索詞存入緩存,便于用戶搜索時直接搜索,縮短時間。查詢及點擊日志搜索用戶地址、搜索關鍵詞、搜索時間、點擊頁面等信息3鏈接原理李彥宏超鏈分析專利HITS算法TrustRank算法GooglePRHilltop算法李彥宏超鏈分析專利1997“超鏈文件檢索系統(tǒng)方法”專利申請鏈接詞庫:鏈接錨文字,及其鏈接指向:///netacgi/nph-Parser?patentnumber=5,920,859一個用于檢索查詢相關的文件與索引文件的超鏈接指向那些按照文件的搜索引擎。
遍歷的索引數(shù)據(jù)庫,發(fā)現(xiàn)超文本信息,包括文檔的超鏈接指向的地址和每個超鏈接的錨文本。
該信息存儲在一個倒排索引文件,它也可用于計算各指向一個特定的文檔的超鏈接文件鏈接載體。
當輸入一個查詢,搜索引擎發(fā)現(xiàn)因在其錨文本的查詢字詞的文件所有文件載體。
也是一個查詢向量計算,點查詢的載體,每個文件鏈接向量積的計算方法。
產品的點與特定文件的總結,以確定每個文件的相關性排名。李彥宏超鏈分析專利建立一個鏈接詞庫,記錄鏈接錨文字的一些相關信息,如錨文字中包含哪些關鍵詞,發(fā)出鏈接的頁面索引,包含特定錨文字的鏈接總數(shù),包含特定關鍵詞的鏈接都指向哪些頁面。詞庫不僅包含關鍵詞原型,也包含同一個詞干的其他衍生關鍵詞。根據(jù)這些鏈接數(shù)據(jù),尤其是錨文字,計算出基于鏈接的文件相關性。在用戶搜索時,將得到的基于鏈接的相關性與基于關鍵詞匹配的傳統(tǒng)相關性綜合使用,得到更準確的排名。李彥宏超鏈分析專利要判斷哪個頁面最具權威性,不能光看頁面自己怎么說,還要看其它頁面怎么評價。當一個關鍵詞被搜索的時候,含有以關鍵詞為鏈接文字的反向鏈接數(shù)目最多的那個文件或網頁,將被作為最相關的結果排在前面HITS算法1997,JonKleinber,Hyperlink-InducedTopicSearch,“超鏈誘導主題搜索”:///netacgi/nph-Parser?patentnumber=6,112,202HITS算法會提煉出兩種比較重要的頁面,也就是樞紐頁面和權威頁面。樞紐頁面本身可能沒有多少導入鏈接,但是有很多導出鏈接指向權威頁面。典型的樞紐頁面就是如雅虎目錄、開放目錄或好123這樣的網站目錄。這種高質量的網站目錄作用就在于指向其他權威網站,所以稱為樞紐。權威頁面通常是提供真正相關內容的頁面。權威頁面本身可能導出鏈接不多,但是有很多來自樞紐頁面的導入鏈接。而權威頁面有很多導入鏈接,其中包含很多來自樞紐頁面的鏈接。HITS算法樞紐值〔HubScores〕、權威值〔AuthorityScores〕樞紐值:頁面上所有導出鏈接指向頁面的權威值之和。權威值:所有導入鏈接所在頁面的樞紐值之和。缺點:查詢時間長TrustRank算法2004,斯坦福大學和雅虎聯(lián)合研究,2006年專利根本假設:好的網站很少會鏈接到壞的網站如果能挑選出可以百分百信任的網站,這些網站的TrustRank評為最高,這些trustRank最高的網站所連接的網站信任指數(shù)稍微降低,但也會很高。與此類似,第二層別信任的網站鏈接出去的第三層網站,信任度繼續(xù)下降。離第一層網站點擊距離越近,信任指數(shù)越高,反之亦反。挑選種子網站,設定TrustRank值,挑選種子網站有兩種方式:一種是選擇導出鏈接最多的網站;另一種挑選種子網站的方法是選PR值高的網站。兩種計算TrustRank隨鏈接關系減少的公式:一是隨鏈接次數(shù)衰減;二是設置一個最低TrustRank值門檻。TrustRank算法影響網站TrustRank的因數(shù)1.域名注冊時間在五年或五年以上;2.網站托管在專用效勞器上;3.網站加載時間快;4.網站內容是原創(chuàng)的;5.訪客在每個網頁的停留時間超過90秒;6.網站被多個國際IP段引用;7.網站在其所屬行業(yè)中擁有權威性GooglePRPageRank,網頁排名,又稱網頁級別,Google的創(chuàng)始人拉里·佩奇和謝爾蓋·布林于1998年在斯坦福大學創(chuàng)造了這項技術。反向鏈接越多的頁面就越重要。PageRank通過網絡浩瀚的超鏈接關系來確定一個頁面的等級。Google把從A頁面到B頁面的鏈接解釋為A頁面給B頁面投票,Google根據(jù)投票來源〔甚至來源的來源,即鏈接到A頁面的頁面〕和投票目標的等級來決定新的等級。簡單的說,一個高等級的頁面可以使其他低等級頁面的等級提升。GooglePR根本思想:如果網頁T存在一個指向網頁A的連接,那么說明T的所有者認為A比較重要,從而把T的一局部重要性得分賦予A。這個重要性得分值為:PR〔T〕/C(T)其中PR〔T〕為T的PageRank值,C(T)為T的出鏈數(shù),那么A的PageRank值為一系列類似于T的頁面重要性得分值的累加。PR〔A〕=〔1-d〕+d〔PR〔t1〕/C〔t1〕+…+PR〔tn〕/C〔tn〕〕A代表頁面APR〔A〕那么代表頁面A的PR值d為阻尼指數(shù)。通常認為d=0.85t1…tn代表鏈接向頁面A的頁面t1到tnC代表頁面上的到外鏈接數(shù)目。C〔t1〕即為頁面t1上的到外鏈接數(shù)目優(yōu)點:是一個與查詢無關的靜態(tài)算法,所有網頁的PageRank值通過離線計算獲得;有效減少在線查詢時的計算量,極大降低了查詢響應時間。缺乏:人們的查詢具有主題特征,PageRank忽略了主題相關性,導致結果的相關性和主題性降低;另外,PageRank有很嚴重的對新網頁的歧視。GooglePRPR意義和重要性網站收錄深度和總頁面數(shù):蜘蛛爬行深度和廣度的重要因素之一更新頻率:蜘蛛訪問和更新的頻繁程度重復內容判定排名初始子集的選擇GooglePR影響GooglePR值的因素Hilltop算法可以簡單理解為與主題相關的PR值。HillTop算法集PageRank,HITs、相關性算法大成于一身,由康柏系統(tǒng)研究中心的KrishnaBharat和多倫多大學的GeorgeA.Mihaila在2001年提出并申請了專利,后授權于Google,2003年12月Google算法更新,其成為Google核心排名算法之一。傳統(tǒng)PR值與特定關鍵詞或主題沒有關聯(lián),只計算鏈接關系。這就有可能出現(xiàn)某種漏洞。如大學網站上出現(xiàn)售貨信息。Hilltop算法就嘗試矯正這種可能出現(xiàn)的疏漏。Hilltop算法同樣是計算鏈接關系,不過它更關注來自主題相關頁面的鏈接權重。在Hilltop算法中把這種主題相關頁面稱為專家文件。Hilltop算法主要包括兩個步驟:專家頁面搜索和目標頁面排序。用戶搜索關鍵詞后,Google先按正常排名算法找到一系列相關頁面并排名,然后計算這些頁面有多少來自專家文件的、與主題相關的鏈接,來自專家文件的鏈接越多,頁面的排名分值越高。優(yōu)點:相關性強,結果準確。缺乏:專家頁面的搜索和確定對算法起關鍵作用,專家頁面的質量決定了算法的準確性,而專家頁面的質量和公平性難以保證;忽略了大量非專家頁面的影響,不能反響整個Internet的民意;當沒有足夠的專家頁面存在時,返回空,所以Hilltop適合對于查詢排序進行求精。Hilltop算法提示SEOer,建設外部鏈接時更應該關注主題相關的網站Hilltop算法HillTop算法的指導思想和PageRank的是一致的,都是通過網頁被鏈接的數(shù)量和質量來確定搜索結果的排序權重。與PageRank的不同之處:僅考慮專家頁面的鏈接。HillTop認為只計算來自具有相同主題的相關文檔鏈接對于搜索者的價值會更大:即主題相關網頁之間的鏈接對于權重計算的奉獻比主題不相關的鏈接價值要更高。如果網站是介紹“服裝”的,有10個鏈接都是從“服裝”相關的網站鏈接過來,那這10個鏈接比另外10個從“電器”相關網站鏈接過來的奉獻要大。英文搜索結果頁面中文搜索結果頁面4用戶瀏覽和點擊搜索結果整合搜索及個人化搜索用戶對搜索引擎返回的10個結果的瀏覽和點擊存在很大差異。研究方法:視線跟蹤〔eye-tracking〕,用特殊設備跟蹤用戶目光在結果頁面上的瀏覽及點擊數(shù)據(jù)。Enquiro中文頁面和英文頁面的差異4用戶瀏覽和點擊搜索結果英文搜索結果頁面%ofclick%time56.3628.4313.4525.089.8214.7248.74.736.023.274.010.353.012.913.881.468.012.652.34
英文搜索結果頁面冪律分布?Why?中文搜索結果頁面
中文搜索結果頁面中文用戶無論是在Google和百度上都花了更長時間找到想要的結果。語言差異?中文搜索比英文搜索結果準確度低?
整合搜索及個人化搜索整合搜索,圖片作用
整合搜索及個人化搜索個人化搜索:更關注熟悉的網站5高級搜索指令5.1雙引號5.2減號5.3星號5.4inurl5.5inanchor5.6intitle5.7allintitle5.8allinurl5.9filetype5.10site5.11link5.12linkdomain5.13related5.14總和使用高級搜索指令5.1雙引號完全匹配搜索5.2減號搜索不包含減號后面的詞5.3inurl命令用inurl搜索命令可以幫你搜索到在URL當中出現(xiàn)你搜索的關鍵詞,很有針對性。
使用格式:inurl:〔+你需要搜索的內容〕5.4filetype命令在搜索引擎里面用filetype命令是可以幫助搜到相關的文檔
使用格式:filetype:+文件格式+搜索內容
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電子產品物流合同要點分析
- 2025年度辦公室綠植養(yǎng)護與室內環(huán)境美化合同
- 房屋租賃合同公文
- 企業(yè)人才測評及職業(yè)發(fā)展規(guī)劃支持方案設計
- 云計算服務配置與管理手冊
- 解決方案設計與實施指南
- 設計服務合同書
- 企業(yè)信息化解決方案操作手冊
- 建設工程施工分包委托協(xié)議書
- 車床購買合同樣本
- 邢臺市橋西區(qū)2024年事業(yè)單位考試《公共基礎知識》全真模擬試題含解析
- 教師述職教研組長述職報告
- 2023年寧夏中考物理試題(附答案)
- 2024年浙江首考英語聽力原文解惑課件
- 無人機法律法規(guī)與安全飛行 第2版 課件 第五章 無人機空域管理
- 構建全員參與的安全管理體系
- 國家基層糖尿病防治管理指南(2022)更新要點解讀-1074177503
- 【班級管理表格】學生檢討反思承諾書
- 湖南省長沙市長郡教育集團聯(lián)考2023-2024學年九年級上學期期中道德與法治試卷
- 農村宅基地和建房(規(guī)劃許可)申請表
- (完整版)袱子的書寫格式和稱呼
評論
0/150
提交評論