索引數(shù)據(jù)庫(kù)與搜索引擎_第1頁(yè)
索引數(shù)據(jù)庫(kù)與搜索引擎_第2頁(yè)
索引數(shù)據(jù)庫(kù)與搜索引擎_第3頁(yè)
索引數(shù)據(jù)庫(kù)與搜索引擎_第4頁(yè)
索引數(shù)據(jù)庫(kù)與搜索引擎_第5頁(yè)
已閱讀5頁(yè),還剩73頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第八章第八章 索引數(shù)據(jù)庫(kù)與搜索引擎索引數(shù)據(jù)庫(kù)與搜索引擎索引數(shù)據(jù)庫(kù)與索引機(jī)制索引數(shù)據(jù)庫(kù)與索引機(jī)制搜索引擎的誕生與發(fā)展搜索引擎的誕生與發(fā)展搜索引擎的體系結(jié)構(gòu)搜索引擎的體系結(jié)構(gòu)搜索引擎實(shí)例搜索引擎實(shí)例n 互聯(lián)網(wǎng)信息的爆炸性增長(zhǎng)p表層網(wǎng)絡(luò)表層網(wǎng)絡(luò) 鏈接相連 網(wǎng)站110,460,149p深層網(wǎng)絡(luò)深層網(wǎng)絡(luò) 數(shù)據(jù)庫(kù)、動(dòng)態(tài)信息 約為表層網(wǎng)絡(luò)500倍n 搜索引擎成為最重要的Web信息檢索工具p全面、準(zhǔn)確、快速1 索引數(shù)據(jù)庫(kù)與索引機(jī)制索引數(shù)據(jù)庫(kù)與索引機(jī)制 搜索引擎的核心是索引數(shù)據(jù)庫(kù)。索引數(shù)據(jù)搜索引擎的核心是索引數(shù)據(jù)庫(kù)。索引數(shù)據(jù)庫(kù)的核心是倒排索引文件。倒排索引文件庫(kù)的核心是倒排索引文件。倒排索引文件即即“由文檔特征

2、值指向文檔標(biāo)識(shí)由文檔特征值指向文檔標(biāo)識(shí)”的文件的文件2 搜索引擎的誕生與發(fā)展搜索引擎的誕生與發(fā)展2.1 搜索引擎的誕生搜索引擎的誕生 起源:起源:FTP文件搜索(以文件搜索(以Archie為代表)為代表) 第一代搜索引擎:第一代搜索引擎:分類目錄(以雅虎為代表)分類目錄(以雅虎為代表) 第二代搜索引擎:第二代搜索引擎:關(guān)鍵詞搜索引擎(以關(guān)鍵詞搜索引擎(以Google為為代表)代表)2 搜索引擎的誕生與發(fā)展搜索引擎的誕生與發(fā)展2.2 搜索引擎的分類搜索引擎的分類 根據(jù)檢索方式分類:根據(jù)檢索方式分類: 分類目錄、關(guān)鍵詞搜索引擎、混合搜索引擎分類目錄、關(guān)鍵詞搜索引擎、混合搜索引擎 根據(jù)信息覆蓋范圍及

3、適用用戶群分類:根據(jù)信息覆蓋范圍及適用用戶群分類: 綜合搜索引擎、專用搜索引擎(垂直搜索引擎)綜合搜索引擎、專用搜索引擎(垂直搜索引擎) 根據(jù)搜索范圍分類:根據(jù)搜索范圍分類: 獨(dú)立搜索引擎、集成搜索引擎(元搜索引擎)獨(dú)立搜索引擎、集成搜索引擎(元搜索引擎)元搜索引擎元搜索引擎又稱集合式搜索引擎。即將多個(gè)搜索引擎又稱集合式搜索引擎。即將多個(gè)搜索引擎集成在一起,并提供一個(gè)統(tǒng)一的檢索界面。集成在一起,并提供一個(gè)統(tǒng)一的檢索界面。 一個(gè)有趣的結(jié)合,實(shí)用強(qiáng)大一個(gè)有趣的結(jié)合,實(shí)用強(qiáng)大免費(fèi)有趣的搜索引擎。它將兩大搜索引擎免費(fèi)有趣的搜索引擎。它將兩大搜索引擎Google與與Baidu融二為一。在它們之間平均融二

4、為一。在它們之間平均85鏈接均不相同。鏈接均不相同。 是一個(gè)很有創(chuàng)意的網(wǎng)站,把是一個(gè)很有創(chuàng)意的網(wǎng)站,把google和和baidu的搜索框結(jié)合成了一個(gè)可以選擇的搜索框。雖然的搜索框結(jié)合成了一個(gè)可以選擇的搜索框。雖然看著有點(diǎn)頭暈,但是讓我們省了不少力氣看著有點(diǎn)頭暈,但是讓我們省了不少力氣.提高了搜索效率。提高了搜索效率。2 搜索引擎的誕生與發(fā)展搜索引擎的誕生與發(fā)展 2.3 搜索引擎的發(fā)展趨勢(shì)搜索引擎的發(fā)展趨勢(shì) 個(gè)性化;個(gè)性化; 智能化;智能化; 整合化;整合化; 垂直化;垂直化; 移動(dòng)化;移動(dòng)化; 開放化開放化2 搜索引擎的誕生與發(fā)展搜索引擎的誕生與發(fā)展 2.3 搜索引擎的發(fā)展趨勢(shì)(補(bǔ)充)搜索引擎

5、的發(fā)展趨勢(shì)(補(bǔ)充) 檢索結(jié)果的后處理檢索結(jié)果的后處理; 基于內(nèi)容的多媒體搜索;基于內(nèi)容的多媒體搜索; 即時(shí)搜索,如即時(shí)搜索,如 與與LBS結(jié)合結(jié)合, 如如http:/ ; 基于基于P2P技術(shù)的搜索技術(shù)的搜索; 語(yǔ)音搜索。語(yǔ)音搜索。3 搜索引擎的系統(tǒng)結(jié)構(gòu)搜索引擎的系統(tǒng)結(jié)構(gòu) 一個(gè)搜索引擎由以下五個(gè)部分組成:一個(gè)搜索引擎由以下五個(gè)部分組成: 搜索器搜索器 索引器索引器 索引數(shù)據(jù)庫(kù)索引數(shù)據(jù)庫(kù) 檢索器檢索器 用戶接口用戶接口 3.1 搜索器搜索器 搜索器(搜索器(Spider)俗稱蜘蛛、網(wǎng)絡(luò)機(jī)器人、爬蟲)俗稱蜘蛛、網(wǎng)絡(luò)機(jī)器人、爬蟲,是一個(gè)自動(dòng)收集網(wǎng)頁(yè)的系統(tǒng)程序。,是一個(gè)自動(dòng)收集網(wǎng)頁(yè)的系統(tǒng)程序。 搜索器的

6、功能是日夜不停地在互聯(lián)網(wǎng)中漫游,搜搜索器的功能是日夜不停地在互聯(lián)網(wǎng)中漫游,搜集信息。集信息。不光不光搜集各種類型的新信息,還要定期搜集各種類型的新信息,還要定期更新已經(jīng)搜集過(guò)的舊信息,以避免出現(xiàn)死鏈更新已經(jīng)搜集過(guò)的舊信息,以避免出現(xiàn)死鏈 搜索器首先將文檔格式過(guò)濾掉,變成純文本文件搜索器首先將文檔格式過(guò)濾掉,變成純文本文件信息送回,然后將其信息送回,然后將其放到放到“網(wǎng)頁(yè)數(shù)據(jù)庫(kù)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)”中。中。該庫(kù)里還記錄了這些網(wǎng)頁(yè)的該庫(kù)里還記錄了這些網(wǎng)頁(yè)的URL,整個(gè)網(wǎng)頁(yè)的,整個(gè)網(wǎng)頁(yè)的HTML代碼,網(wǎng)頁(yè)標(biāo)題等等信息。代碼,網(wǎng)頁(yè)標(biāo)題等等信息。 網(wǎng)頁(yè)存儲(chǔ)格式網(wǎng)頁(yè)存儲(chǔ)格式version: 1.0/ version

7、 numberurl: http:/ URLorigin: http:/ original URLdate: Tue, 15 Apr 2003 08:13:06 GMT / time of harvestip: 2 / IP addressunzip-length: 30233 / If included, the data must be compressedlength: 18133/ data length/ a blank lineXXXXXXXX/ the followings are data partXXXXXXXX.XXXXXXXX/ data end

8、/ insert a new line1)網(wǎng)頁(yè)選取策略)網(wǎng)頁(yè)選取策略 廣度優(yōu)先:廣度優(yōu)先:是指網(wǎng)絡(luò)蜘蛛會(huì)先抓取起始網(wǎng)頁(yè)中鏈?zhǔn)侵妇W(wǎng)絡(luò)蜘蛛會(huì)先抓取起始網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè),然后再選擇其中的一個(gè)鏈接網(wǎng)頁(yè),接的所有網(wǎng)頁(yè),然后再選擇其中的一個(gè)鏈接網(wǎng)頁(yè),繼續(xù)抓取在此網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè)。繼續(xù)抓取在此網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè)。 深度優(yōu)先:深度優(yōu)先: 是指網(wǎng)絡(luò)蜘蛛會(huì)從起始頁(yè)開始,一個(gè)是指網(wǎng)絡(luò)蜘蛛會(huì)從起始頁(yè)開始,一個(gè)鏈接一個(gè)鏈接跟蹤下去,處理完這條線路之后再鏈接一個(gè)鏈接跟蹤下去,處理完這條線路之后再轉(zhuǎn)入下一個(gè)起始頁(yè),繼續(xù)跟蹤鏈接。轉(zhuǎn)入下一個(gè)起始頁(yè),繼續(xù)跟蹤鏈接。 高權(quán)重優(yōu)先:高權(quán)重優(yōu)先:是指對(duì)搜索到的文檔集合進(jìn)行評(píng)

9、級(jí),是指對(duì)搜索到的文檔集合進(jìn)行評(píng)級(jí),利用計(jì)算得到的結(jié)果從中挑選評(píng)級(jí)最高的鏈接作利用計(jì)算得到的結(jié)果從中挑選評(píng)級(jí)最高的鏈接作為下一個(gè)搜索的對(duì)象。為下一個(gè)搜索的對(duì)象。2)重復(fù)爬取策略)重復(fù)爬取策略 一致策略:一致策略:即以一定的頻率對(duì)所有網(wǎng)頁(yè)進(jìn)即以一定的頻率對(duì)所有網(wǎng)頁(yè)進(jìn)行重復(fù)爬取,不區(qū)分變更頻率不同的網(wǎng)頁(yè)行重復(fù)爬取,不區(qū)分變更頻率不同的網(wǎng)頁(yè) 比率策略:比率策略:即對(duì)于更新頻率較高的網(wǎng)頁(yè),即對(duì)于更新頻率較高的網(wǎng)頁(yè),重復(fù)爬取的頻率也較高。重復(fù)爬取的頻率也較高。3)友好性策略)友好性策略 網(wǎng)站管理員可以通過(guò)設(shè)置網(wǎng)絡(luò)機(jī)器人排除網(wǎng)站管理員可以通過(guò)設(shè)置網(wǎng)絡(luò)機(jī)器人排除協(xié)議設(shè)置網(wǎng)站是否允許蜘蛛爬取、可爬取協(xié)議設(shè)置網(wǎng)

10、站是否允許蜘蛛爬取、可爬取的網(wǎng)頁(yè)范圍,進(jìn)而限制搜索器的爬取行為的網(wǎng)頁(yè)范圍,進(jìn)而限制搜索器的爬取行為(在(在ROBOT.TXT文件中進(jìn)行設(shè)置,該文件文件中進(jìn)行設(shè)置,該文件必須放在網(wǎng)站根目錄下)。爬取行為的頻必須放在網(wǎng)站根目錄下)。爬取行為的頻率主要有搜索引擎自身設(shè)定。率主要有搜索引擎自身設(shè)定。 4)并行爬取策略)并行爬取策略 并行爬取策略是針對(duì)多個(gè)并行搜索器而言并行爬取策略是針對(duì)多個(gè)并行搜索器而言的。搜索引擎要采用一定的策略協(xié)調(diào)各個(gè)的。搜索引擎要采用一定的策略協(xié)調(diào)各個(gè)搜索器的行為。搜索器的行為。 搜索器一般將搜索器一般將Web空間按照域名、空間按照域名、IP地址地址或國(guó)家域名劃分,每個(gè)搜索器負(fù)責(zé)

11、一個(gè)子或國(guó)家域名劃分,每個(gè)搜索器負(fù)責(zé)一個(gè)子空間的窮盡搜索??臻g的窮盡搜索。 搜索器的實(shí)現(xiàn)常用分布式、并行計(jì)算技術(shù)搜索器的實(shí)現(xiàn)常用分布式、并行計(jì)算技術(shù),以提高信息發(fā)現(xiàn)和更新的速度。,以提高信息發(fā)現(xiàn)和更新的速度。3.2 索引器索引器 索引器的功能是索引器的功能是理解理解搜索器所搜索的純文搜索器所搜索的純文本信息,從中抽取出索引項(xiàng)(屬性),生本信息,從中抽取出索引項(xiàng)(屬性),生成成倒排索引倒排索引文件,進(jìn)而文件,進(jìn)而建立索引數(shù)據(jù)庫(kù)建立索引數(shù)據(jù)庫(kù)。 倒排倒排索引即由索引項(xiàng)查找相應(yīng)的文檔。索引即由索引項(xiàng)查找相應(yīng)的文檔。 索引項(xiàng)有索引項(xiàng)有客觀索引項(xiàng)和內(nèi)容索引項(xiàng)客觀索引項(xiàng)和內(nèi)容索引項(xiàng)倒排索引倒排索引具體步驟

12、具體步驟具體步驟具體步驟分析網(wǎng)頁(yè):分析網(wǎng)頁(yè):提取正文信息并進(jìn)行分詞;統(tǒng)提取正文信息并進(jìn)行分詞;統(tǒng)計(jì)詞出現(xiàn)的頻率及位置;提取其它相關(guān)信計(jì)詞出現(xiàn)的頻率及位置;提取其它相關(guān)信息,如被其他網(wǎng)頁(yè)鏈接次數(shù)等;息,如被其他網(wǎng)頁(yè)鏈接次數(shù)等;建立倒排索引:建立倒排索引:形成由文檔號(hào)到索引詞的形成由文檔號(hào)到索引詞的正向索引;重組正向索引,建立從關(guān)鍵詞正向索引;重組正向索引,建立從關(guān)鍵詞到文檔號(hào)集合的倒排索引;到文檔號(hào)集合的倒排索引;相關(guān)度及重要性計(jì)算:相關(guān)度及重要性計(jì)算:通過(guò)關(guān)鍵詞頻率、通過(guò)關(guān)鍵詞頻率、位置、表面特征及超鏈分析等因素來(lái)決定位置、表面特征及超鏈分析等因素來(lái)決定某一個(gè)網(wǎng)頁(yè)針對(duì)某一個(gè)關(guān)鍵詞的重要性。某一

13、個(gè)網(wǎng)頁(yè)針對(duì)某一個(gè)關(guān)鍵詞的重要性。單詞單詞-文檔矩陣文檔矩陣文檔集合文檔集合例例1簡(jiǎn)單的倒排索引簡(jiǎn)單的倒排索引帶有單詞頻率的倒排索引帶有單詞頻率的倒排索引 帶有單詞頻率、文檔頻率和出現(xiàn)位置信息的倒排索引帶有單詞頻率、文檔頻率和出現(xiàn)位置信息的倒排索引 倒排表記錄索引項(xiàng)在文檔中倒排表記錄索引項(xiàng)在文檔中出現(xiàn)的位置,以便檢索器計(jì)出現(xiàn)的位置,以便檢索器計(jì)算索引項(xiàng)之間的相鄰或接近算索引項(xiàng)之間的相鄰或接近關(guān)系(關(guān)系(proximity)正向索引正向索引例例2倒倒排排索索引引詞詞位位置置倒倒索索引引索引表也可能要記錄索引項(xiàng)在索引表也可能要記錄索引項(xiàng)在文檔中出現(xiàn)的位置,以便檢索文檔中出現(xiàn)的位置,以便檢索器計(jì)算索引

14、項(xiàng)之間的相鄰或接器計(jì)算索引項(xiàng)之間的相鄰或接近關(guān)系。近關(guān)系。 根據(jù)相關(guān)度算法,根據(jù)相關(guān)度算法,計(jì)算出網(wǎng)頁(yè)與關(guān)鍵計(jì)算出網(wǎng)頁(yè)與關(guān)鍵詞的相關(guān)系數(shù)和權(quán)詞的相關(guān)系數(shù)和權(quán)重值重值3.3 索引數(shù)據(jù)庫(kù)索引數(shù)據(jù)庫(kù) 索引數(shù)據(jù)庫(kù)是搜索引擎的核心,既是索引索引數(shù)據(jù)庫(kù)是搜索引擎的核心,既是索引器提供的產(chǎn)品,又是搜索器進(jìn)行工作的基器提供的產(chǎn)品,又是搜索器進(jìn)行工作的基礎(chǔ)。礎(chǔ)。 索引數(shù)據(jù)庫(kù)由一個(gè)接口模塊和四類文件構(gòu)索引數(shù)據(jù)庫(kù)由一個(gè)接口模塊和四類文件構(gòu)成。四類文件是:主索引(成。四類文件是:主索引(MIF)、倒排索)、倒排索引(引(IXF)、倒排地址表()、倒排地址表(IAL)、純文本)、純文本文件。文件。主索引主索引多級(jí)倒排索

15、引文件多級(jí)倒排索引文件詞編號(hào)詞編號(hào)詞詞記錄地址記錄地址1搜索搜索100322核心核心100893組織組織100654信息信息10106詞詞倒排索引倒排索引文件的存文件的存放位置放位置指向指向IAL的相對(duì)地址指針的相對(duì)地址指針AP倒排地址表倒排地址表3.4 檢索器檢索器 檢索器的功能是根據(jù)用戶的查詢?cè)谒饕龓?kù)檢索器的功能是根據(jù)用戶的查詢?cè)谒饕龓?kù)中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序。度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序。 檢索器的工作包括檢索器的工作包括查詢匹配、結(jié)果排序和查詢匹配、結(jié)果排序和文檔摘要三個(gè)部分文檔摘要三個(gè)部分。 查詢結(jié)果

16、的文檔摘要主要有兩種生成機(jī)制:查詢結(jié)果的文檔摘要主要有兩種生成機(jī)制:靜態(tài)摘要和動(dòng)態(tài)摘要。靜態(tài)摘要和動(dòng)態(tài)摘要。一般現(xiàn)階段的搜索一般現(xiàn)階段的搜索引擎運(yùn)用動(dòng)態(tài)摘要生成技術(shù)。引擎運(yùn)用動(dòng)態(tài)摘要生成技術(shù)。搜索結(jié)果排序技術(shù)搜索結(jié)果排序技術(shù) (1)影響結(jié)果排序的主要因素)影響結(jié)果排序的主要因素 (2)排序算法)排序算法(1)影響結(jié)果排序的主要因素)影響結(jié)果排序的主要因素 內(nèi)容相關(guān)度內(nèi)容相關(guān)度基于相關(guān)度算法(搜索引擎基于相關(guān)度算法(搜索引擎怎么評(píng)價(jià))怎么評(píng)價(jià)) 網(wǎng)站或網(wǎng)頁(yè)權(quán)威度網(wǎng)站或網(wǎng)頁(yè)權(quán)威度基于鏈接分析(即其基于鏈接分析(即其它網(wǎng)站怎么評(píng)價(jià))它網(wǎng)站怎么評(píng)價(jià)) 網(wǎng)站或網(wǎng)頁(yè)的實(shí)用度網(wǎng)站或網(wǎng)頁(yè)的實(shí)用度基于用戶訪問(wèn)模

17、式基于用戶訪問(wèn)模式(即用戶怎么評(píng)價(jià))(即用戶怎么評(píng)價(jià)) (2)排序算法)排序算法 這里我們主要介紹這里我們主要介紹Google的三種鏈接分析的三種鏈接分析算法:算法: PageRank算法算法 HillTop算法算法 Hits算法算法 Pagerank算法算法PageRank(網(wǎng)頁(yè)等級(jí)):(網(wǎng)頁(yè)等級(jí)):一種能夠自動(dòng)判斷一種能夠自動(dòng)判斷網(wǎng)頁(yè)重要性的技術(shù)。網(wǎng)頁(yè)重要性的技術(shù)?;驹恚夯驹恚?從許多優(yōu)質(zhì)的網(wǎng)頁(yè)鏈接過(guò)來(lái)的網(wǎng)頁(yè),從許多優(yōu)質(zhì)的網(wǎng)頁(yè)鏈接過(guò)來(lái)的網(wǎng)頁(yè),必定還是優(yōu)質(zhì)網(wǎng)頁(yè)必定還是優(yōu)質(zhì)網(wǎng)頁(yè)決定因素:決定因素:反向鏈接數(shù)(反向鏈接數(shù)(數(shù)量數(shù)量) 反向鏈接源頁(yè)面的反向鏈接源頁(yè)面的Pagerank值值

18、(質(zhì)量質(zhì)量)反向鏈接源頁(yè)面的鏈接數(shù)反向鏈接源頁(yè)面的鏈接數(shù) (被選中的幾率指標(biāo)被選中的幾率指標(biāo)) 具體算法:具體算法:將某個(gè)頁(yè)面的將某個(gè)頁(yè)面的 PageRank 除以這個(gè)除以這個(gè)頁(yè)面的正向鏈接數(shù)頁(yè)面的正向鏈接數(shù),由此得到的值分別和正向鏈由此得到的值分別和正向鏈接所指向的頁(yè)面的接所指向的頁(yè)面的 PageRank 相加,即得到了相加,即得到了被鏈接的頁(yè)面的被鏈接的頁(yè)面的 PageRank。 Hits算法算法 算法對(duì)返回的匹配頁(yè)面計(jì)算兩種值算法對(duì)返回的匹配頁(yè)面計(jì)算兩種值,一種是一種是樞紐值樞紐值(Hub Scores),另一種是,另一種是權(quán)威值(權(quán)威值(Authority Scores)這兩個(gè)值是相互

19、依存、相互影響的。所這兩個(gè)值是相互依存、相互影響的。所謂樞紐值,指的是頁(yè)面上所有導(dǎo)出鏈接指向頁(yè)面謂樞紐值,指的是頁(yè)面上所有導(dǎo)出鏈接指向頁(yè)面的權(quán)威值之和。權(quán)威值指的是所有導(dǎo)入鏈接所在的權(quán)威值之和。權(quán)威值指的是所有導(dǎo)入鏈接所在的頁(yè)面的樞紐值之和。的頁(yè)面的樞紐值之和。 HillTop算法算法 : HillTop也是一項(xiàng)搜索引擎結(jié)果排序的專利。也是一項(xiàng)搜索引擎結(jié)果排序的專利。 HillTop算法的指導(dǎo)思想和算法的指導(dǎo)思想和PageRank的是的是一致的,都是通過(guò)網(wǎng)頁(yè)被鏈接的數(shù)量和質(zhì)一致的,都是通過(guò)網(wǎng)頁(yè)被鏈接的數(shù)量和質(zhì)量來(lái)確定搜索結(jié)果的排序權(quán)重。但量來(lái)確定搜索結(jié)果的排序權(quán)重。但HillTop認(rèn)為認(rèn)為只計(jì)

20、算只計(jì)算 來(lái)自具有相同主題的相關(guān)文檔來(lái)自具有相同主題的相關(guān)文檔鏈接對(duì)于搜索者的價(jià)值會(huì)更大:即主題相鏈接對(duì)于搜索者的價(jià)值會(huì)更大:即主題相關(guān)網(wǎng)頁(yè)之間的鏈接對(duì)于權(quán)重計(jì)算的貢獻(xiàn)比關(guān)網(wǎng)頁(yè)之間的鏈接對(duì)于權(quán)重計(jì)算的貢獻(xiàn)比主題不相關(guān)的鏈接價(jià)值要更高。主題不相關(guān)的鏈接價(jià)值要更高。用戶行為模式如何影響網(wǎng)站排名?用戶行為模式如何影響網(wǎng)站排名? 例如:例如:說(shuō)一個(gè)用戶直接在說(shuō)一個(gè)用戶直接在Google主頁(yè)搜索主頁(yè)搜索某一個(gè)關(guān)鍵詞,用戶點(diǎn)擊了第一個(gè)結(jié)果,某一個(gè)關(guān)鍵詞,用戶點(diǎn)擊了第一個(gè)結(jié)果,然后五秒鐘之內(nèi)點(diǎn)擊了瀏覽器的返回鍵,然后五秒鐘之內(nèi)點(diǎn)擊了瀏覽器的返回鍵,再次來(lái)到再次來(lái)到Google主頁(yè),然后又點(diǎn)擊了第三主頁(yè),然后

21、又點(diǎn)擊了第三個(gè)結(jié)果。再過(guò)個(gè)結(jié)果。再過(guò)30分鐘以后,這個(gè)用戶才再分鐘以后,這個(gè)用戶才再次回到次回到Google主頁(yè)。那么主頁(yè)。那么Google就可以得就可以得出結(jié)論,第三個(gè)網(wǎng)站比第一個(gè)網(wǎng)站更能給出結(jié)論,第三個(gè)網(wǎng)站比第一個(gè)網(wǎng)站更能給用戶提供有用的信息。如果這種模式大量用戶提供有用的信息。如果這種模式大量反復(fù),那么反復(fù),那么Google就有可能把這兩個(gè)網(wǎng)站就有可能把這兩個(gè)網(wǎng)站的排名互換。的排名互換。3.5 用戶接口用戶接口 用戶接口的作用是用戶接口的作用是輸入用戶查詢、顯示查輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制。 用戶接口的設(shè)計(jì)和實(shí)現(xiàn)使用人機(jī)交互的理用戶接

22、口的設(shè)計(jì)和實(shí)現(xiàn)使用人機(jī)交互的理論和方法,以充分適應(yīng)人類的思維習(xí)慣。論和方法,以充分適應(yīng)人類的思維習(xí)慣。分為簡(jiǎn)單接口和復(fù)雜接口。分為簡(jiǎn)單接口和復(fù)雜接口。 當(dāng)前,這方面研究集中在對(duì)用戶信息需求當(dāng)前,這方面研究集中在對(duì)用戶信息需求的挖掘與發(fā)現(xiàn)、改進(jìn)用戶交互方式(信息的挖掘與發(fā)現(xiàn)、改進(jìn)用戶交互方式(信息可視化)等方面??梢暬┑确矫?。總結(jié):總結(jié):搜索引擎工作流程搜索引擎工作流程 搜集搜集 累計(jì)式搜集,增量式搜集;累計(jì)式搜集,增量式搜集; 索引索引 重復(fù)網(wǎng)頁(yè)消除;關(guān)鍵詞提取;鏈接分析;重復(fù)網(wǎng)頁(yè)消除;關(guān)鍵詞提取;鏈接分析;倒排索引倒排索引 檢索檢索 查詢匹配;結(jié)果排序;文檔摘要查詢匹配;結(jié)果排序;文檔摘要

23、搜集搜集索引索引檢索檢索 從具體運(yùn)行方式上說(shuō),系統(tǒng)根據(jù)站點(diǎn)從具體運(yùn)行方式上說(shuō),系統(tǒng)根據(jù)站點(diǎn)/網(wǎng)頁(yè)的網(wǎng)頁(yè)的URL信息和網(wǎng)頁(yè)之間的鏈接關(guān)系,利用網(wǎng)絡(luò)蜘蛛在互信息和網(wǎng)頁(yè)之間的鏈接關(guān)系,利用網(wǎng)絡(luò)蜘蛛在互聯(lián)網(wǎng)上收集數(shù)據(jù);收集的數(shù)據(jù)分別通過(guò)鏈接信息聯(lián)網(wǎng)上收集數(shù)據(jù);收集的數(shù)據(jù)分別通過(guò)鏈接信息分析器和文本信息分析器處理,保存在鏈接數(shù)據(jù)分析器和文本信息分析器處理,保存在鏈接數(shù)據(jù)庫(kù)和文本索引數(shù)據(jù)庫(kù)中,同時(shí),網(wǎng)頁(yè)質(zhì)量評(píng)估器庫(kù)和文本索引數(shù)據(jù)庫(kù)中,同時(shí),網(wǎng)頁(yè)質(zhì)量評(píng)估器依據(jù)網(wǎng)頁(yè)的鏈接關(guān)系和頁(yè)面結(jié)構(gòu)特征對(duì)頁(yè)面質(zhì)量依據(jù)網(wǎng)頁(yè)的鏈接關(guān)系和頁(yè)面結(jié)構(gòu)特征對(duì)頁(yè)面質(zhì)量進(jìn)行評(píng)估,并將評(píng)估的結(jié)果保存在索引數(shù)據(jù)庫(kù)中;進(jìn)行評(píng)估,并將評(píng)估的結(jié)果保

24、存在索引數(shù)據(jù)庫(kù)中;查詢服務(wù)器負(fù)責(zé)與用戶的交互,它根據(jù)用戶的檢查詢服務(wù)器負(fù)責(zé)與用戶的交互,它根據(jù)用戶的檢索需求,從索引數(shù)據(jù)庫(kù)中讀取對(duì)應(yīng)的索引,并綜索需求,從索引數(shù)據(jù)庫(kù)中讀取對(duì)應(yīng)的索引,并綜合考慮查詢相關(guān)性與頁(yè)面質(zhì)量評(píng)估結(jié)果之間的關(guān)合考慮查詢相關(guān)性與頁(yè)面質(zhì)量評(píng)估結(jié)果之間的關(guān)系,給出查詢結(jié)果列表反饋給用戶。系,給出查詢結(jié)果列表反饋給用戶。4 搜索引擎實(shí)例搜索引擎實(shí)例 GOOGLE 百度百度案例:案例:google 網(wǎng)址:網(wǎng)址:http:/ Google是由美國(guó)斯坦福大學(xué)的兩位博士是由美國(guó)斯坦福大學(xué)的兩位博士生拉里生拉里佩吉和謝爾蓋佩吉和謝爾蓋布林于布林于1998年創(chuàng)年創(chuàng)建的。建的。 目前是全球最大、

25、最專業(yè)的搜索引擎目前是全球最大、最專業(yè)的搜索引擎 1998 年年, 當(dāng)時(shí)在加州門洛帕克當(dāng)時(shí)在加州門洛帕克 (Menlo Park), 拉里拉里佩奇佩奇 與與 謝謝爾蓋爾蓋布林布林 租用了這間房子的車庫(kù)作為建立租用了這間房子的車庫(kù)作為建立 Google 的據(jù)點(diǎn)的據(jù)點(diǎn), 每個(gè)每個(gè)月月 Google 要交要交 $1,700 (961) 租金給房東租金給房東 Susan Wojcicki. 2000 2000 年年 11 11 月月 11 11 日日: Google : Google 的聯(lián)合創(chuàng)始人的聯(lián)合創(chuàng)始人, , 時(shí)任時(shí)任 CEO CEO 的的 拉里拉里佩奇佩奇 (Larry Page, (Larr

26、y Page, 左左) ) 和主席謝爾蓋和主席謝爾蓋布林布林 (Sergey Brin) (Sergey Brin) 在位于山景城的在位于山景城的 Google Google 總部?jī)?nèi)總部?jī)?nèi), , 靠著懶人椅靠著懶人椅 (bean bags(bean bags )2006 2006 年年 5 5 月月 10 10 日日: : 一名一名 Google Google 雇員踩著一架腳踏滑板車雇員踩著一架腳踏滑板車 ( (所有員所有員工均可使用工均可使用), ), 穿越位于加州山景城的公司園區(qū)穿越位于加州山景城的公司園區(qū). .檢索范圍檢索范圍檢索方式檢索方式簡(jiǎn)單檢索簡(jiǎn)單檢索高級(jí)檢索高級(jí)檢索簡(jiǎn)單檢索簡(jiǎn)單檢

27、索 邏輯邏輯“與與”:兩詞間加:兩詞間加空格空格 邏輯邏輯“或或”:用:用“OR”表示表示 邏輯邏輯“非非”:兩詞間加:兩詞間加“-”(“-”號(hào)前加號(hào)前加空格)空格) 強(qiáng)制檢索強(qiáng)制檢索:雙引號(hào)雙引號(hào) 指定網(wǎng)域指定網(wǎng)域:site: 指定文件類型指定文件類型:filetype:文件類型文件類型邏輯與功能邏輯與功能邏輯非功能邏輯非功能邏輯或功能邏輯或功能強(qiáng)制檢索強(qiáng)制檢索指定網(wǎng)域指定網(wǎng)域指定文件類型指定文件類型特色特色直達(dá)與檢索詞直達(dá)與檢索詞最相關(guān)的網(wǎng)頁(yè)最相關(guān)的網(wǎng)頁(yè) 網(wǎng)址:網(wǎng)址:http:/ 百度(百度(Baidu)是目前全球最優(yōu)秀的中文信)是目前全球最優(yōu)秀的中文信息檢索與傳遞技術(shù)供應(yīng)商。中國(guó)所有提供

28、息檢索與傳遞技術(shù)供應(yīng)商。中國(guó)所有提供搜索引擎的門戶網(wǎng)站中,超過(guò)搜索引擎的門戶網(wǎng)站中,超過(guò)80%以上都以上都由百度提供搜索引擎技術(shù)支持,現(xiàn)有客戶由百度提供搜索引擎技術(shù)支持,現(xiàn)有客戶包括新浪、搜狐(包括新浪、搜狐(Chianren)、央視國(guó)際)、央視國(guó)際、騰訊等。、騰訊等。案例:百度案例:百度檢索范圍檢索范圍檢索方式檢索方式 簡(jiǎn)單檢索簡(jiǎn)單檢索 高級(jí)檢索高級(jí)檢索簡(jiǎn)單檢索簡(jiǎn)單檢索 邏輯邏輯“與與”:兩詞間加空格:兩詞間加空格 邏輯邏輯“或或”:兩詞間加:兩詞間加“|”(前后加空格(前后加空格) 邏輯邏輯“非非”:兩詞間加:兩詞間加“-”(“-”號(hào)前加號(hào)前加空格)空格) 強(qiáng)制檢索:雙引號(hào)強(qiáng)制檢索:雙引號(hào) 指定網(wǎng)域:指定網(wǎng)域:site: 指定文件類型:指定文件類型:filetype:文件類型文件類型特色特色網(wǎng)頁(yè)快照網(wǎng)頁(yè)快照 如果原鏈接已經(jīng)死掉或者因?yàn)榫W(wǎng)絡(luò)的原因如果原鏈接已經(jīng)死掉或者因?yàn)榫W(wǎng)絡(luò)的原因暫時(shí)鏈接不通,那么可以通過(guò)網(wǎng)頁(yè)快照看暫時(shí)鏈接不通,那么可以通過(guò)網(wǎng)頁(yè)快照看到該頁(yè)面信息。當(dāng)然,快照內(nèi)容不是該頁(yè)到該頁(yè)面信息。當(dāng)然,快照內(nèi)容不是該頁(yè)最新頁(yè)面;最新頁(yè)面; 如果原地址打開很慢

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論