電子商務(wù)應(yīng)用課件第4章:搜索引擎_第1頁
電子商務(wù)應(yīng)用課件第4章:搜索引擎_第2頁
電子商務(wù)應(yīng)用課件第4章:搜索引擎_第3頁
電子商務(wù)應(yīng)用課件第4章:搜索引擎_第4頁
電子商務(wù)應(yīng)用課件第4章:搜索引擎_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第4章搜索引擎

內(nèi)容引言搜索引擎網(wǎng)絡(luò)蜘蛛搜索引擎搜索引擎工作原理抓取網(wǎng)頁處理網(wǎng)頁提供檢索服務(wù)搜索引擎搜索引擎工作原理1.抓取網(wǎng)頁每個獨立的搜索引擎都有自己的網(wǎng)頁抓取程序(spider,蜘蛛程序)。Spider順著網(wǎng)頁中的超鏈接,連續(xù)地抓取網(wǎng)頁,被抓取的網(wǎng)頁被稱之為網(wǎng)頁快照。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍,理論上,從一定范圍的網(wǎng)頁出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁。搜索引擎搜索引擎工作原理2.處理網(wǎng)頁搜索引擎抓到網(wǎng)頁后,還要做大量的預處理工作,才能提供檢索服務(wù)。其中,最重要的就是提取關(guān)鍵詞,建立索引文件,其他還包括去除重復網(wǎng)頁、分詞(中文)、判斷網(wǎng)頁類型、分析超鏈接、計算網(wǎng)頁的重要度/豐富度等。搜索引擎搜索引擎工作原理3.提供檢索服務(wù)用戶輸入關(guān)鍵詞進行檢索,搜索引擎從索引數(shù)據(jù)庫中找到匹配該關(guān)鍵詞的網(wǎng)頁;為了用戶便于判斷,除了網(wǎng)頁標題和URL外,還會提供一段來自網(wǎng)頁的摘要以及其他信息。搜索引擎搜索引擎核心算法網(wǎng)頁抓取程序(網(wǎng)絡(luò)蜘蛛)關(guān)鍵詞提取索引文件創(chuàng)建方式重復網(wǎng)頁合并結(jié)果排序算法中文分詞算法(如:理念和服務(wù))網(wǎng)頁類型判斷(語言判斷:meta標簽、字符編碼、內(nèi)容分析等)超鏈接分析網(wǎng)頁重要性與豐富度計算搜索引擎搜索引擎組成部分搜索引擎一般由搜索器、索引器、檢索器和用戶接口四個部分組成:搜索器:其功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息;索引器:其功能是理解搜索器所搜索到的信息,從中抽取出索引項,用于表示文檔以及生成文檔庫的索引表;檢索器:其功能是根據(jù)用戶的查詢在索引庫中快速檢索文檔,進行相關(guān)度評價,對將要輸出的結(jié)果排序,并能按用戶的查詢需求合理反饋信息;用戶接口(HTML頁面):其作用是接納用戶查詢、顯示查詢結(jié)果、提供個性化查詢項。搜索引擎搜索引擎組成部分搜索引擎搜索引擎組成部分搜索器搜索器的功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息。它常常是一個計算機程序,日夜不停地運行,它要盡可能多、盡可能快地搜集各種類型的新信息,同時因為互聯(lián)網(wǎng)上的信息更新很快,所以還要定期更新已經(jīng)搜集過的舊信息,以避免死連接和無效連接。目前有兩種搜集信息的策略:(1)從一個起始URL集合開始,順著這些URL中的超鏈接(Hyperlink),以寬度優(yōu)先、深度優(yōu)先或啟發(fā)式方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。這些起始URL可以是任意的URL,但常常是一些非常流行、包含很多鏈接的站點(如Yahoo?。?。(2)將Web空間按照域名、IP地址或國家域名劃分,每個搜索器負責一個子空間的窮盡搜索。搜索引擎搜索引擎組成部分搜索器搜索器搜集的信息類型多種多樣,包括HTML、XML、Newsgroup文章、FTP文件、字處理文檔、多媒體信息。搜索器的實現(xiàn)常常使用分布式、并行計算技術(shù),以提高信息發(fā)現(xiàn)和更新的速度,商業(yè)搜索引擎的信息發(fā)現(xiàn)可以達到每天幾百萬網(wǎng)頁。搜索引擎搜索引擎組成部分索引器索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用于表示文檔以及生成文檔庫的索引表。索引項有客觀索引項和內(nèi)容索引項兩種:客觀項與文檔的語意內(nèi)容無關(guān),如作者名、URL、更新時間、編碼、長度、鏈接流行度(LinkPopularity)等等;內(nèi)容索引項是用來反映文檔內(nèi)容的,如關(guān)鍵詞及其權(quán)重、短語、單詞等等。搜索引擎搜索引擎組成部分索引器內(nèi)容索引項可以分為單索引項和多索引項(或稱短語索引項)兩種。單索引項對于英文來講是英語單詞,比較容易提取,因為單詞之間有天然的分隔符(空格);對于中文等連續(xù)書寫的語言,必須進行詞語的切分(分詞技術(shù))。在搜索引擎中,一般要給單索引項賦與一個權(quán)值,以表示該索引項對文檔的區(qū)分度,同時用來計算查詢結(jié)果的相關(guān)度。使用的方法一般有統(tǒng)計法、信息論法和概率法。短語索引項的提取方法有統(tǒng)計法、概率法和語言學法。搜索引擎搜索引擎組成部分索引器索引表一般使用某種形式的倒排表(InversionList),即由索引項查找相應(yīng)的文檔。索引表也可能要記錄索引項在文檔中出現(xiàn)的位置,以便檢索器計算索引項之間的相鄰或接近關(guān)系(proximity)。索引器可以使用集中式索引算法或分布式索引算法。當數(shù)據(jù)量很大時,必須實現(xiàn)即時索引(InstantIndexing),否則不能夠跟上信息量急劇增加的速度。索引算法對索引器的性能(如大規(guī)模峰值查詢時的響應(yīng)速度)有很大的影響。一個搜索引擎的有效性在很大程度上取決于索引的質(zhì)量。搜索引擎搜索引擎組成部分檢索器檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關(guān)度評價,對將要輸出的結(jié)果進行排序,并實現(xiàn)某種用戶相關(guān)性反饋機制。

檢索器常用的信息檢索模型有集合理論模型、代數(shù)模型、概率模型和混合模型四種。搜索引擎搜索引擎組成部分用戶接口用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機制。主要的目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時的信息。用戶接口的設(shè)計和實現(xiàn)使用人機交互的理論和方法,以充分適應(yīng)人類的思維習慣。搜索引擎搜索引擎組成部分用戶接口用戶輸入接口可以分為簡單接口和復雜接口兩種。簡單接口只提供用戶輸入查詢串的文本框;復雜接口可以讓用戶對查詢進行限制,如邏輯運算(與、或、非)、相近關(guān)系(相鄰、NEAR)、域名范圍(如.edu、.com)、出現(xiàn)位置(如標題、內(nèi)容)、信息時間、長度等等。目前一些公司和機構(gòu)正在考慮制定查詢選項的標準。搜索引擎搜索引擎的技術(shù)發(fā)展趨勢提高搜索引擎對用戶檢索提問的理解對檢索結(jié)果進行處理確定搜索引擎信息搜集范圍,提高搜索引擎的針對性將搜索引擎的技術(shù)開發(fā)重點放在對檢索結(jié)果的處理上,提供更優(yōu)化的檢索結(jié)果搜索引擎的分類專家系統(tǒng)網(wǎng)絡(luò)蜘蛛網(wǎng)絡(luò)蜘蛛基本原理網(wǎng)絡(luò)蜘蛛網(wǎng)絡(luò)蜘蛛基本原理網(wǎng)絡(luò)蜘蛛即WebSpider,是一個很形象的名字。把互聯(lián)網(wǎng)比喻成一個蜘蛛網(wǎng),那么Spider就是在網(wǎng)上爬來爬去的蜘蛛。網(wǎng)絡(luò)蜘蛛是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站某一個頁面(通常是首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,這樣一直循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。如果把整個互聯(lián)網(wǎng)當成一個網(wǎng)站,那么網(wǎng)絡(luò)蜘蛛就可以用這個原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取下來。網(wǎng)絡(luò)蜘蛛網(wǎng)絡(luò)蜘蛛基本原理蜘蛛是一種半自動的程序,就象現(xiàn)實當中的蜘蛛在它的Web(蜘蛛網(wǎng))上旅行一樣,蜘蛛程序也按照類似的方式在Web鏈接織成的網(wǎng)上旅行。蜘蛛程序之所以是半自動的,是因為它總是需要一個初始鏈接(出發(fā)點),但此后的運行情況就要由它自己決定了,蜘蛛程序會掃描起始頁面包含的鏈接,然后訪問這些鏈接指向的頁面,再分析和追蹤那些頁面包含的鏈接。從理論上看,最終蜘蛛程序會訪問到Internet上的幾乎每一個頁面,因為Internet上幾乎每一個頁面總是被其他或多或少的頁面引用。

網(wǎng)絡(luò)蜘蛛網(wǎng)絡(luò)蜘蛛基本原理許多搜索引擎的網(wǎng)絡(luò)蜘蛛只是抓取那些重要的網(wǎng)頁,而在抓取時評價網(wǎng)頁重要性的主要依據(jù)之一是某個網(wǎng)頁的鏈接深度。在抓取網(wǎng)頁的時候,網(wǎng)絡(luò)蜘蛛一般有兩種策略:廣度優(yōu)先和深度優(yōu)先。網(wǎng)絡(luò)蜘蛛網(wǎng)絡(luò)蜘蛛基本原理廣度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁,然后再選擇其中的一個鏈接網(wǎng)頁,繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。這是最常用的方式,因為這個方法可以讓網(wǎng)絡(luò)蜘蛛并行處理,提高其抓取速度。網(wǎng)絡(luò)蜘蛛網(wǎng)絡(luò)蜘蛛基本原理深度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路之后再轉(zhuǎn)入下一個起始頁,繼續(xù)跟蹤鏈接。這個方法有個優(yōu)點是網(wǎng)絡(luò)蜘蛛在設(shè)計的時候比較容易。網(wǎng)絡(luò)蜘蛛網(wǎng)絡(luò)蜘蛛關(guān)鍵問題HTML分析:需要某種HTML解析器來分析蜘蛛程序遇到的每一個頁面。頁面處理:需要處理每一個下載得到的頁面。下載得到的內(nèi)容可能要保存到磁盤,或者進一步分析處理。多線程:只有擁有多線程能力,蜘蛛程序才能真正做到高效。確定何時完成:不要小看這個問題,確定任務(wù)是否已經(jīng)完成并不簡單,尤其是在多線程環(huán)境下。網(wǎng)絡(luò)蜘蛛網(wǎng)絡(luò)蜘蛛程序?qū)崿F(xiàn)Java實現(xiàn):創(chuàng)建智能網(wǎng)絡(luò)蜘蛛——如何使用Java網(wǎng)絡(luò)對象和HTML對象C#實現(xiàn):VB實現(xiàn):網(wǎng)絡(luò)蜘蛛簡單模擬第一步:通過蜘蛛抓取頁面蜘蛛:Googlebot、baiduspider、Yahoo!Slurp、Msnbot;如何抓取頁面?以文本形式下載,送回服務(wù)器;可能會做一些預處理,比如:壓縮等網(wǎng)絡(luò)蜘蛛簡單模擬第二步:網(wǎng)頁文件處理首先過濾所有HTML標簽、CSS樣式表、JS代碼。網(wǎng)絡(luò)蜘蛛簡單模擬第二步:網(wǎng)頁文件處理網(wǎng)絡(luò)蜘蛛簡單模擬第二步:網(wǎng)頁文件處理網(wǎng)絡(luò)蜘蛛簡單模擬第三步:識別文字內(nèi)容通過對過濾后文字內(nèi)容的分析,來判斷網(wǎng)頁的核心內(nèi)容。搜索引擎程序通過對上面文字的分析,發(fā)現(xiàn)以下信息:一共有95個字符;其中57個中文字符?!鞍俣取背霈F(xiàn)4次,共8個中文,占16個字符。8÷57≈0.14≈14% 16÷95≈0.168≈17%判斷結(jié)論:本頁面和關(guān)鍵詞“百度”有密切關(guān)系。網(wǎng)絡(luò)蜘蛛簡單模擬第四步:進行權(quán)重分值計算假設(shè)關(guān)鍵詞重復1次得

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論