版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
搜索引擎工作原理搜索引擎工作主要分為:頁面抓?。ㄐ畔⑹占╉撁娣治觯A處理)建立索引(預處理)頁面排序(
)1
抓取頁面(信息收集)這個工作主要由叫做“機器人(robot)”、“爬蟲(crawler)”或者“蜘蛛(spider)”的程序,根據(jù)一定規(guī)則掃描存在于互聯(lián)網(wǎng)上的一個網(wǎng)頁到另一個網(wǎng)頁,從一個,并沿著網(wǎng)頁上的
從到另一個
。為保證的資料,它還會回訪已抓取過的網(wǎng)頁。這個工作是搜索引擎所有工作的基礎(chǔ)頁面抓取的兩種方式吸引蜘蛛的權(quán)重和PR值的更新頻率頁面的質(zhì)量度頁面的連接數(shù)頁面搜索引擎在
原始頁面時,不單只
原始頁面,還會
其他的附加信息,例如:文件類型、文件大小、最后修改時間、URL、IP地址、抓取
時間等頁面收錄原理URL列表抓取頁面提取URL原始頁面用戶提交搜索引擎還允許用戶自己提交交首頁或者 即可)(一般只需要提:htt:ht/search/url_submit.html2.1
頁面分析(預處理)對頁面內(nèi)容進行分析,提取相關(guān)網(wǎng)頁信息(包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的所有、位置、生成時間、大小、與其它網(wǎng)頁的關(guān)系等)。主要就是提取用于處理的網(wǎng)頁文字。對頁面正文內(nèi)容進行“切詞”,為這些詞建立索引,得到頁面和關(guān)鍵字之間的對應關(guān)系頁面分析(預處理)頁面分析主要包括:和注釋等信息的過濾{pc}標正文信息提取:主要是對簽切詞/分詞:對頁面內(nèi)容進行切分,形成與用戶查詢條件相匹配的關(guān)鍵字為單位的信息列表匹配分詞:和預設(shè)的海量詞匯的“辭典”中的詞比較,如果有匹配的詞,則為命中。統(tǒng)計分詞:根據(jù)相鄰的2個或者多個
)出現(xiàn)的概率判斷這2個
)是否會形成一個詞。2.2
建立索引(預處理)關(guān)鍵字索引:在切詞處理后,形成了關(guān)鍵字列表。關(guān)鍵字列表的每條記錄包含:關(guān)鍵字、關(guān)鍵字、出現(xiàn)次數(shù)、在網(wǎng)頁中的位置信息等。根據(jù)一定的相關(guān)度算法進行大量復雜計算,得到每一個網(wǎng)頁針對頁面文字中及超鏈中每一個的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫對抓取回來的網(wǎng)頁建立索引,以實現(xiàn)對頁面的快速定位;建立索引(預處理)3
頁面排序()結(jié)合頁面的內(nèi)外因素,計算出頁面與某個關(guān)鍵字的相關(guān)程度,從而得到與該關(guān)鍵字相關(guān)的頁面索引列表,從而確定搜索。3
頁面排序(
)用戶在搜索引擎中輸入查詢條件后,搜索引擎就在數(shù)據(jù)庫中檢索相關(guān)的信息,并將檢索結(jié)果返回給用戶。(對搜索詞進行處理)搜索引擎在往用戶端返回數(shù)據(jù)的時候,并不是隨機的,而是按照一定的計算方法進行排序的(搜索匹配,相關(guān)性計算)涉及到排序的因素主要有:頁面相關(guān)性權(quán)重用戶行為3.1
頁面相關(guān)性頁面相關(guān)性通過對檢索結(jié)果進行相關(guān)性排序,搜索引擎的最終目的是將最相關(guān)的網(wǎng)絡(luò)信息盡可能地優(yōu)先顯示在搜索結(jié)果的前面部分,以改進搜索結(jié)果的輸出。雖然各個搜索引擎中相關(guān)度排序的具體實現(xiàn)各不相同,但基本上都采用了基于內(nèi)容的分析方法,即考慮用在文檔網(wǎng)頁中的出現(xiàn)情況,包括關(guān)鍵密度、
位置、關(guān)鍵字的權(quán)重標戶所查詢的字匹配度、簽等因素。3.1
頁面相關(guān)性關(guān)鍵字匹配度:是指網(wǎng)頁中的內(nèi)容與用戶所查詢的關(guān)鍵字之間的匹配程度,主要是2個因素:頁面中是否包含關(guān)鍵字關(guān)鍵字在頁面中出現(xiàn)的次數(shù)關(guān)鍵字密度:關(guān)鍵字出現(xiàn)的次數(shù)與該網(wǎng)頁總詞匯量的比例.一般是3%-8%3.1
頁面相關(guān)性關(guān)鍵字分布:關(guān)鍵字在網(wǎng)頁中出現(xiàn)的位置關(guān)鍵字在網(wǎng)頁中出現(xiàn)的位置會影響到關(guān)鍵字的分布值關(guān)鍵字的權(quán)重實現(xiàn)了不同的視覺效果關(guān)鍵字是否使用了HTML(如加粗、顏色變換等)頁面相關(guān)性計算公式:R(relevance)=M(match)+D(density)+P(position)+T(html
Tag)3.2權(quán)重什么叫做
?的原理作用?3.2權(quán)重頁面之間的超反映了頁面之間的關(guān)系(內(nèi)鏈)頁面的相關(guān)程度,頁面被其他站點或其他網(wǎng)頁的次數(shù)(外鏈)基本上也反映了該網(wǎng)頁的受歡迎程度或重要性。影響一個
的三個要素。優(yōu)化外部優(yōu)化(
)對新
和新網(wǎng)頁的權(quán)重補償(一個月以內(nèi))3.3
用戶行為用戶行為主要包括:搜索:用戶獲得信息的過程,通過這個用戶行為,學習新詞匯,豐富辭典點擊:用戶對搜索結(jié)果的反應,被點擊的次數(shù)越多,說明越重重越高為避免效應(好的越好壞的越壞),
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 16《夏天里的成長》第二課時 說課稿-2024-2025學年統(tǒng)編版語文六年級上冊
- 2024魚池承包與漁業(yè)生態(tài)修復合作合同生態(tài)平衡3篇
- 2025年度個人信用卡透支合同范本全新版3篇
- 2023七年級語文上冊 第四單元 13 植樹的牧羊人說課稿 新人教版
- 超大型雙回字形錨碇地連墻基礎(chǔ)施工中的BIM技術(shù)應用與實踐
- 二零二五版智能門禁系統(tǒng)綠色環(huán)保認證合同4篇
- 2025年度碼頭租賃及港口物流配送服務合同范本4篇
- 二零二五版護理機構(gòu)與護理人員勞務派遣合同3篇
- 2025年民用除濕機項目可行性研究報告
- 二零二五版礦山勞務合同范本:礦山事故調(diào)查處理合同3篇
- DB33T 2570-2023 營商環(huán)境無感監(jiān)測規(guī)范 指標體系
- 上海市2024年中考英語試題及答案
- 房屋市政工程生產(chǎn)安全重大事故隱患判定標準(2024版)宣傳海報
- 垃圾車駕駛員聘用合同
- 2025年道路運輸企業(yè)客運駕駛員安全教育培訓計劃
- 南京工業(yè)大學浦江學院《線性代數(shù)(理工)》2022-2023學年第一學期期末試卷
- 2024版機床維護保養(yǎng)服務合同3篇
- 《論拒不執(zhí)行判決、裁定罪“執(zhí)行能力”之認定》
- 工程融資分紅合同范例
- 2024國家安全員資格考試題庫加解析答案
- 通信工程建設(shè)標準強制性條文匯編(2023版)-定額質(zhì)監(jiān)中心
評論
0/150
提交評論