信息檢索模型與搜索引擎排序算法ppt課件_第1頁(yè)
信息檢索模型與搜索引擎排序算法ppt課件_第2頁(yè)
信息檢索模型與搜索引擎排序算法ppt課件_第3頁(yè)
信息檢索模型與搜索引擎排序算法ppt課件_第4頁(yè)
信息檢索模型與搜索引擎排序算法ppt課件_第5頁(yè)
已閱讀5頁(yè),還剩39頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、信息檢索與搜索引擎排序算法信息檢索與搜索引擎排序算法 - 徐艷霞主要內(nèi)容主要內(nèi)容 1 信息檢索模型引見(jiàn)信息檢索模型引見(jiàn) 2 搜索引擎典型排序算法引見(jiàn)搜索引擎典型排序算法引見(jiàn) 3 適用于數(shù)學(xué)公式搜索引擎排序算法討論適用于數(shù)學(xué)公式搜索引擎排序算法討論搜索引擎排序規(guī)范假設(shè)我牙疼,應(yīng)該去看怎樣的醫(yī)生呢?假設(shè)我只需三種選擇:假設(shè)我牙疼,應(yīng)該去看怎樣的醫(yī)生呢?假設(shè)我只需三種選擇: A醫(yī)生,既治眼病,又治胃?。会t(yī)生,既治眼病,又治胃??; B醫(yī)生,既治牙病,又治胃病,還治眼??;醫(yī)生,既治牙病,又治胃病,還治眼?。?C醫(yī)生,專治牙病。醫(yī)生,專治牙病。 假設(shè)再加一個(gè)條件:假設(shè)再加一個(gè)條件:B醫(yī)生閱歷豐富,有二十年

2、從醫(yī)閱歷,醫(yī)術(shù)高醫(yī)生閱歷豐富,有二十年從醫(yī)閱歷,醫(yī)術(shù)高明,而明,而C醫(yī)生只需五年從醫(yī)閱歷。醫(yī)生只需五年從醫(yī)閱歷。 結(jié)論:擇醫(yī)需求思索兩個(gè)條件,結(jié)論:擇醫(yī)需求思索兩個(gè)條件,1:醫(yī)生的專長(zhǎng)與病情的適配程度:醫(yī)生的專長(zhǎng)與病情的適配程度 2:醫(yī)生的醫(yī)術(shù):醫(yī)生的醫(yī)術(shù) 網(wǎng)頁(yè)內(nèi)容與用戶查詢的匹配程度網(wǎng)頁(yè)內(nèi)容與用戶查詢的匹配程度 搜索引擎排序搜索引擎排序 網(wǎng)頁(yè)本身的質(zhì)量網(wǎng)頁(yè)本身的質(zhì)量 目錄 1.1 信息檢索模型的定義 1.2 布爾模型 1.3 向量空間模型 1.4 概率模型 1.5 典型的搜索引擎排序算法 1.6 適用于數(shù)學(xué)公式搜索引擎排序算法的探 討信息檢索模型信息檢索模型 1 信息檢索模型的定義 什么是數(shù)

3、學(xué)模型? 為了某種特定目的,經(jīng)過(guò)對(duì)現(xiàn)實(shí)世界的某一特定對(duì)象做出一些必要的簡(jiǎn)化與設(shè),運(yùn)用適當(dāng)?shù)臄?shù)學(xué)工具得到的一種數(shù)學(xué)構(gòu)造。 面對(duì)一樣的輸入,模型的輸出應(yīng)可以無(wú)限地逼近現(xiàn)實(shí)世界的輸出。 信息檢索模型 是用來(lái)描畫文檔和用戶查詢的表示方式以及它們之間相關(guān)性的框架信息檢索模型信息檢索模型 信息檢索的本質(zhì)問(wèn)題信息檢索的本質(zhì)問(wèn)題 對(duì)于一切文檔,根據(jù)其與用戶查詢的對(duì)于一切文檔,根據(jù)其與用戶查詢的相關(guān)程度由大到小進(jìn)展排序。相關(guān)程度由大到小進(jìn)展排序。 信息檢索模型與搜索引擎排序算法關(guān)系信息檢索模型與搜索引擎排序算法關(guān)系 好的檢索模型在相關(guān)性上產(chǎn)生和人類好的檢索模型在相關(guān)性上產(chǎn)生和人類決策非常相關(guān)的結(jié)果,基于好的檢索

4、模型決策非常相關(guān)的結(jié)果,基于好的檢索模型的排序算法可以在排序結(jié)果頂部前往相關(guān)的排序算法可以在排序結(jié)果頂部前往相關(guān)的文檔。的文檔。 在在TREC數(shù)據(jù)集上的實(shí)驗(yàn)中,最有效的數(shù)據(jù)集上的實(shí)驗(yàn)中,最有效的排序算法來(lái)自于被明確定義的檢索模型。排序算法來(lái)自于被明確定義的檢索模型。在商用的搜索引擎中,所運(yùn)用的檢索模在商用的搜索引擎中,所運(yùn)用的檢索模型沒(méi)用明確的定義,但其排序算法都依賴型沒(méi)用明確的定義,但其排序算法都依賴于堅(jiān)實(shí)的數(shù)學(xué)根底于堅(jiān)實(shí)的數(shù)學(xué)根底信息檢索模型信息檢索模型信息檢索模型信息檢索模型 相關(guān)性概念 信息檢索系統(tǒng)的方式化表示相關(guān)性 主題相關(guān)一篇文檔被斷定和一個(gè)查詢是同一主題1.相關(guān)性 用戶相關(guān) 思索

5、用戶在斷定相關(guān)性時(shí)涉及的一切要素 二元相關(guān)簡(jiǎn)單斷定一篇文檔是相關(guān)還是非相關(guān)2.相關(guān)性 多元相關(guān) 從多個(gè)層次判別相關(guān)性信息檢索模型信息檢索模型 信息檢索系統(tǒng)的方式化表示 D,Q,F,R(Di,q) 1.文檔表示 D 文檔集合的機(jī)內(nèi)表示 D=D1, D2 , , Dm 為了滿足檢索匹配所要求的快速與便利,文檔Di通常由從文檔中抽取的可以表達(dá)文檔內(nèi)容的特征項(xiàng)如索引項(xiàng)/檢索詞/關(guān)鍵詞來(lái)表示 設(shè)T=t1, t2 , , tn 為系統(tǒng)索引項(xiàng)集合 那么Di =di1,di2 , ,din (dij0) dij索引詞tj在文檔Di中的重要性權(quán)值weight信息檢索模型信息檢索模型 D,Q,F,R(Di,q)2

6、 查詢項(xiàng)表示 查詢項(xiàng)Q表示為有m個(gè)權(quán)值的向量: Q=(q1,q2,q3,qm) 其中qj是第j個(gè)詞項(xiàng)的權(quán)值。3 F 文檔與查詢查詢之間的匹配框架 4 R(Di, q)文檔與用戶查詢之間相關(guān)度計(jì)算函數(shù)例: D1:Tropical Freshwater Aquarium Fish. D2:Tropical Fish,Aquarium Care,Tank Setup. D3:Keeping Tropical Fish and Goldfish in Aquariums,and Fish Bowls. D4:The Tropical Tank Homepage-Tropical Fish and Aq

7、uariums. 文檔向量表示:文檔向量表示:Terms Documents D1 D2 D3 D4aquarium 1 1 1 1bowl 0 0 1 0care 0 1 0 0Fish 1 1 2 1Freshwater 1 0 0 0Goldfish 0 0 1 0Homepage 0 0 0 1Keep 0 0 1 0Setup 0 1 0 0Tank 0 1 0 1Tropical 1 1 1 2查詢表示:如:查詢項(xiàng)為“tropical fish,那么基于以上查詢項(xiàng)的向量表示方式為: q=(0,0,0,1,0,0,0,0,0,0,1).信息檢索模型信息檢索模型 1.1 信息檢索模型的

8、定義 1.2 布爾模型 1.3 向量空間模型 1.4 概率模型 1.5 典型的搜索引擎排序算法 1.6 適用于數(shù)學(xué)公式搜索引擎排序算法的探 討布爾模型布爾模型 最早的最早的IR模型模型 1957年,年,YBar-Hille就對(duì)布爾邏輯運(yùn)用于計(jì)就對(duì)布爾邏輯運(yùn)用于計(jì)算機(jī)信息檢索的能夠性進(jìn)展了討論目前依然運(yùn)用算機(jī)信息檢索的能夠性進(jìn)展了討論目前依然運(yùn)用于商業(yè)系統(tǒng)中于商業(yè)系統(tǒng)中 典型系統(tǒng):典型系統(tǒng):Lucene 布爾模型的前提假設(shè):布爾模型的前提假設(shè): 1.在檢索到的集合中一切文檔關(guān)于相關(guān)性是在檢索到的集合中一切文檔關(guān)于相關(guān)性是等價(jià)的。等價(jià)的。 2.相關(guān)性是二元的。相關(guān)性是二元的。 特點(diǎn)特點(diǎn) 1.檢索的

9、結(jié)果只輸出結(jié)果檢索的結(jié)果只輸出結(jié)果TURE | FALSE)。 2.查詢項(xiàng)被描畫為布爾邏輯操作符查詢項(xiàng)被描畫為布爾邏輯操作符(AND,OR,NOT)。布爾模型布爾模型 Q 查詢q被表式成索引項(xiàng)的布爾組合方式 為方便計(jì)算文檔D和查詢q之間的相關(guān)度,普通將查詢q的布爾表達(dá)式轉(zhuǎn)換成析取范式Disjunctive Normal Form,DNF的方式 Example q=( a b ) z ( az )( b z ) (1,0,1)(1,1,1) (0,1,1)析取范式析取范式 1由有限個(gè)簡(jiǎn)單合取式構(gòu)成的析取式稱為析由有限個(gè)簡(jiǎn)單合取式構(gòu)成的析取式稱為析取范式。取范式。 2僅由有限個(gè)文字構(gòu)成的合取式稱為

10、簡(jiǎn)單合僅由有限個(gè)文字構(gòu)成的合取式稱為簡(jiǎn)單合取式。取式。 布爾模型布爾模型 Example: q= 病毒and計(jì)算機(jī)or 電腦and not 醫(yī) D: D1 : 據(jù)報(bào)道計(jì)算機(jī)病毒最近猖獗 D2 :小王雖然是學(xué)醫(yī)的,但對(duì)研討電腦病毒也感興趣 D3:計(jì)算機(jī)程序發(fā)現(xiàn)了艾滋病病毒傳播途徑 上述文檔哪一個(gè)會(huì)被檢索到? q=病毒(計(jì)算機(jī)電腦) 醫(yī) q-dnf=(病毒計(jì)算機(jī)醫(yī)) (病毒電腦醫(yī)) 采用完全匹配的方式 -If sim(Di,q)=1,前往 -If sim(Di,q)=0,不前往布爾模型布爾模型 Example D - D1:a,b,c,f,g,h D1=(1,1,0) - D2:a,f,b,x,y

11、,z D2=(1,1,1) q - (ab) z (1,0,1) (0,1,1) (1,1,1) F -sim(D1,q)=0 -sim(D2,q)=1 R -將文檔將文檔2前往前往布爾模型布爾模型缺陷:效率完全依賴于用戶,包含特定檢索缺陷:效率完全依賴于用戶,包含特定檢索詞的一切文檔將按照某種和相關(guān)性無(wú)關(guān)的詞的一切文檔將按照某種和相關(guān)性無(wú)關(guān)的順序如:日期呈現(xiàn)給用戶。順序如:日期呈現(xiàn)給用戶。優(yōu)點(diǎn):查詢項(xiàng)無(wú)局限性,可以是任何文檔的優(yōu)點(diǎn):查詢項(xiàng)無(wú)局限性,可以是任何文檔的特征而只非詞語(yǔ),可以直接在檢索規(guī)范中特征而只非詞語(yǔ),可以直接在檢索規(guī)范中融入元數(shù)據(jù),如文檔日期,文檔類型。比融入元數(shù)據(jù),如文檔日期

12、,文檔類型。比排序檢索更有效,文檔可以在搜索過(guò)程中排序檢索更有效,文檔可以在搜索過(guò)程中快速被剔除。快速被剔除。信息檢索模型 1.1 信息檢索模型的定義 1.2 布爾模型 1.3 向量空間模型 1.4 概率模型 1.5 典型的搜索引擎排序算法 1.6 適用于數(shù)學(xué)公式搜索引擎排序算法的探 討向量空間模型向量空間模型 向量空間模型向量空間模型Vector Space Model,VSM是由是由GSalton等人在等人在1958年提出的年提出的 代表系統(tǒng)代表系統(tǒng) SMARTSystem for the Manipulation and Retrieval of Text 這一系統(tǒng)實(shí)際框架到如今依然是信

13、息檢索這一系統(tǒng)實(shí)際框架到如今依然是信息檢索技術(shù)研討的根底技術(shù)研討的根底向量空間模型向量空間模型1 .依然采用如前所述的信息檢索系統(tǒng)的方式化表示。依然采用如前所述的信息檢索系統(tǒng)的方式化表示。2 .向量空間模型的定義:向量空間模型的定義: D=D1, D2, Di=(Di1 , Di2 , ,Din ) Dij0 Q q= (q1 , q2 , ,qn ) qj0 F 非完全匹配方式非完全匹配方式 R 在在VSM中,由于文檔和查詢都是向量,因此用文檔和查詢兩個(gè)向量中,由于文檔和查詢都是向量,因此用文檔和查詢兩個(gè)向量類似度來(lái)估計(jì)文檔和查詢的相關(guān)性類似度來(lái)估計(jì)文檔和查詢的相關(guān)性 文檔和查詢之間的相關(guān)度

14、具有較強(qiáng)的可計(jì)算性和可操作性,不再只文檔和查詢之間的相關(guān)度具有較強(qiáng)的可計(jì)算性和可操作性,不再只需需0和和1兩個(gè)值兩個(gè)值 sim(Di ,q)3 前提假設(shè)前提假設(shè) 1.在檢索到的集合中一切文檔關(guān)于相關(guān)性是不等價(jià)的。在檢索到的集合中一切文檔關(guān)于相關(guān)性是不等價(jià)的。 2.相關(guān)性是多元元的。相關(guān)性是多元元的。 3.查詢關(guān)鍵字之間是相互獨(dú)立的。查詢關(guān)鍵字之間是相互獨(dú)立的。向量空間模型向量空間模型 例圖:例圖: 類似度度量的提出類似度度量的提出 基于以上表示和分析可以經(jīng)過(guò)計(jì)算表基于以上表示和分析可以經(jīng)過(guò)計(jì)算表示文檔和查詢點(diǎn)之間的間隔來(lái)進(jìn)展排序。示文檔和查詢點(diǎn)之間的間隔來(lái)進(jìn)展排序。詞項(xiàng)1詞項(xiàng)2詞項(xiàng)3查詢查詢文

15、檔文檔2文檔文檔1向量空間模型向量空間模型余弦類似度度量方法余弦類似度度量方法內(nèi)積值沒(méi)有界限內(nèi)積值沒(méi)有界限 不象概率值,要在不象概率值,要在(0,1)之間之間對(duì)長(zhǎng)文檔有利對(duì)長(zhǎng)文檔有利 內(nèi)積用于衡量有多少詞項(xiàng)匹配勝利,而不計(jì)算有多少詞項(xiàng)匹配失敗內(nèi)積用于衡量有多少詞項(xiàng)匹配勝利,而不計(jì)算有多少詞項(xiàng)匹配失敗 長(zhǎng)文檔包含大量獨(dú)立詞項(xiàng),每個(gè)詞項(xiàng)均多次出現(xiàn),因此普通而言,長(zhǎng)文檔包含大量獨(dú)立詞項(xiàng),每個(gè)詞項(xiàng)均多次出現(xiàn),因此普通而言,和查詢式中的詞項(xiàng)匹配勝利的能夠性就會(huì)比短文檔大。和查詢式中的詞項(xiàng)匹配勝利的能夠性就會(huì)比短文檔大。利用向量長(zhǎng)度對(duì)內(nèi)積進(jìn)展歸一化利用向量長(zhǎng)度對(duì)內(nèi)積進(jìn)展歸一化12211cos(,)nijj

16、jinnijjjjdqDQdq=邋向量空間模型向量空間模型 Example D1=(0.5,0.8,0.3) D2=(0.9,0.4,0.2) Q=(1.5,1.0,0) cos(D1,Q)=0.87; cos(D2,Q)=0.97; 優(yōu)點(diǎn): - 反映出不同關(guān)鍵詞在文檔中的重要程度。 - 可以根據(jù)結(jié)果文檔對(duì)于查詢串的相關(guān)度經(jīng)過(guò)余弦類似度度量等公式對(duì)結(jié)果文檔進(jìn)展排序 - 可以控制輸出結(jié)果的數(shù)量向量空間模型向量空間模型 缺陷:缺陷: 以為關(guān)鍵詞之間是相互獨(dú)立的,這一假設(shè)有時(shí)不符合以為關(guān)鍵詞之間是相互獨(dú)立的,這一假設(shè)有時(shí)不符合自然言語(yǔ)的實(shí)踐情況,未能提示詞語(yǔ)之間的關(guān)系。自然言語(yǔ)的實(shí)踐情況,未能提示詞

17、語(yǔ)之間的關(guān)系。 如何確定詞項(xiàng)在文檔中的權(quán)值?如何確定詞項(xiàng)在文檔中的權(quán)值? 運(yùn)用運(yùn)用tf.idf方法,方法,(tf索引項(xiàng)在一個(gè)文檔中出現(xiàn)的次數(shù);索引項(xiàng)在一個(gè)文檔中出現(xiàn)的次數(shù);idf索引項(xiàng)在整個(gè)文檔集合中出現(xiàn)的頻率,稱為反文檔頻索引項(xiàng)在整個(gè)文檔集合中出現(xiàn)的頻率,稱為反文檔頻率,假設(shè)一個(gè)詞素出如今少量的文檔中,那么該詞項(xiàng)被率,假設(shè)一個(gè)詞素出如今少量的文檔中,那么該詞項(xiàng)被賦予較大的權(quán)值,參考熵農(nóng)信息論賦予較大的權(quán)值,參考熵農(nóng)信息論 是文檔是文檔Di中詞項(xiàng)中詞項(xiàng)k的頻率,的頻率,fik是詞項(xiàng)是詞項(xiàng)k在文檔中出現(xiàn)在文檔中出現(xiàn)的次數(shù)。的次數(shù)。 為了防止長(zhǎng)文檔中很多詞項(xiàng)只出現(xiàn)一次,其他詞項(xiàng)出現(xiàn)為了防止長(zhǎng)文檔中

18、很多詞項(xiàng)只出現(xiàn)一次,其他詞項(xiàng)出現(xiàn)成百上千次,對(duì)以上取對(duì)數(shù),倒置文檔斌率反映了文檔成百上千次,對(duì)以上取對(duì)數(shù),倒置文檔斌率反映了文檔數(shù)據(jù)集中詞項(xiàng)的重要性。數(shù)據(jù)集中詞項(xiàng)的重要性。 Idfk是詞項(xiàng)是詞項(xiàng)k的倒置文檔頻率,的倒置文檔頻率,N是文檔數(shù)據(jù)集中文檔的是文檔數(shù)據(jù)集中文檔的個(gè)數(shù),個(gè)數(shù),nk是詞項(xiàng)是詞項(xiàng)k出現(xiàn)過(guò)的文檔個(gè)數(shù)。出現(xiàn)過(guò)的文檔個(gè)數(shù)。 1ikiknijjftffiktflogkkNidfn向量空間模型向量空間模型 最終典型的文檔詞項(xiàng)權(quán)值方式為: 詞項(xiàng)頻率加1是為了保證頻率為1的詞項(xiàng)具有非零權(quán)值。 著名的Rocchio算法基于向量空間模型,并參與了用戶斷定文檔的相關(guān)性來(lái)修正查詢項(xiàng)。21(log(

19、)1) log(/)log()1.0) log(/)ikkiknikkkfNndfNn信息檢索模型 1.1 信息檢索模型的定義信息檢索模型的定義 1.2 布爾模型布爾模型 1.3 向量空間模型向量空間模型 1.4 概率模型概率模型 1.5 典型的搜索引擎排序算法典型的搜索引擎排序算法 1.6 適用于數(shù)學(xué)公式搜索引擎排序算法的適用于數(shù)學(xué)公式搜索引擎排序算法的探探 討討概率模型概率模型 概率論模型,亦稱為二值獨(dú)立檢索模型。 1976年由Roberston和Sparck Jones提出的經(jīng)典概率模型。在概率的框架下處理IR的問(wèn)題。概率模型 給定一個(gè)用戶查詢,存在一個(gè)文檔集合,該集合只包括與查詢完全相

20、關(guān)的文檔而不包括其他不相關(guān)的文檔,稱該集合為理想結(jié)果集合。 如何描畫這個(gè)理想結(jié)果集合?即:該理想結(jié)果集合具有什么樣的屬性? 基于相關(guān)反響的原理,需求進(jìn)展一個(gè)逐漸求精的過(guò)程 PRP (probability ranking principle) 將信息獲取看成是一個(gè)過(guò)程:用戶提交一個(gè)查詢,系統(tǒng)提供應(yīng)用戶它所以為的相關(guān)結(jié)果列表;用戶調(diào)查這個(gè)集合后給出一些輔助信息,系統(tǒng)再進(jìn)一步根據(jù)這輔助信息加上以前的信息得到一個(gè)新的相關(guān)結(jié)果列表;如此繼續(xù)。 假設(shè)每次結(jié)果列表中的元素總是按照和查詢相關(guān)的概率遞減排序的話,那么系統(tǒng)的整體效果會(huì)最好。 其中概率的計(jì)算應(yīng)該是基于當(dāng)時(shí)所能得到的一切信息。概率模型-相關(guān)概念 貝

21、葉斯定理: 詞條的獨(dú)立假設(shè):P(AB)= P(A) P(B) 當(dāng)且僅當(dāng) A與B相互獨(dú)立 由此對(duì)一篇文檔而言,假設(shè)文檔中的各個(gè)索引詞相互獨(dú)立,那么有 P(dj)=P(k1)P(kt)()()|()|(BPAPABPBAP概率模型 定義:設(shè)索引詞的權(quán)重為二值的,即: R表示知的相關(guān)文檔集或最初的猜測(cè)集,用 表示R的補(bǔ)集。 表示文檔dj與查詢q相關(guān)的概率, 表示文檔dj與查詢q不相關(guān)的概率。文檔dj與查詢q的類似度sim(dj, q)可以定義為:0,1,0,1ijiqwwR(|)jP R d(|)jP R d(|)(,)(|)jjjP Rdsim dqP Rd概率模型 根據(jù)貝葉斯定理有 (|)( )

22、(, )(|)( )jjjP dRP Rsim d qP dRP R(|)(,)(|)jjjP Rdsim dqP Rd概率模型 假設(shè)標(biāo)引詞獨(dú)立,那么 這是概率模型中排序計(jì)算的主要表達(dá)式。() 1() 0() 1() 0(| ) (| )(, )(| ) (| )ijijijijiig dg djiig dg dP k RP kRsim d qP k RP k R(|)( )(, )(|)( )jjjP dRP Rsim dqP dRP R概率模型 取對(duì)數(shù),在一樣背景下,忽略對(duì)一切因子堅(jiān)持恒定不變的因子,那么有1( | )1( | )(, )loglog1( | )( | )tiijiqiji

23、iiP k RP k Rsim d qwwP k RP k R() 1() 0() 1() 0(| ) (| )(, )(| ) (| )ijijijijiig dg djiig dg dP k RP kRsim d qP k RP k R概率模型 如何計(jì)算上式中的 和 呢 ? 簡(jiǎn)單假設(shè)作為最初的猜測(cè)1). 對(duì)一切的索引詞ki是恒定不變的,通常取為0.5,即 2).不相關(guān)文檔中的索引詞ki的分布可以經(jīng)過(guò)文檔集中索引詞的分 布來(lái)估計(jì),即其中,ni表示包含索引詞ki 的文檔數(shù), N表示集合中的文檔總數(shù)。 初始值確定后,根據(jù)與查詢q相關(guān)的大小進(jìn)展初步排序,取前假設(shè)干個(gè)文檔作為相關(guān)查詢集合。之后經(jīng)過(guò)如

24、下方法進(jìn)展改良(即開(kāi)場(chǎng)遞歸計(jì)算)。( | )iPk R( | )iPk R(|)iP kR( | )0.5iP k R (|)iinP kRN概率模型 用V表示概率模型初步檢出并經(jīng)過(guò)排序的文檔子集 Vi表示V中包含索引詞ki的文檔數(shù)。 改良 和 的過(guò)程如下:1用曾經(jīng)檢出的文檔中索引詞ki的分布來(lái)估計(jì) 2). 假定一切未檢出的文檔都是不相關(guān)的來(lái)估計(jì) 如此遞歸反復(fù)這一過(guò)程,得到理想結(jié)果集合 (|)iP kR(|)iP kR(|)iP kR(|)iiVP kRV(|)iP kR(|)iiinVP kRNV概率模型 對(duì)較小的V和Vi上述計(jì)算會(huì)出現(xiàn)問(wèn)題,如V=1和Vi=0,可做一些改良: 調(diào)整因子也可以

25、為ni/N, 即0.5(|)1iiVP kRV0.5(|)1iiinVP kRNV(|)1iiinVNP kRV(|)1iiiinnVNP kRNV概率模型 該方法的缺陷: 不思索索引詞在文檔中出現(xiàn)的頻率,一切權(quán)值都是二元的. 索引詞之間相互獨(dú)立的假設(shè)。信息檢索模型 1.1 信息檢索模型的定義信息檢索模型的定義 1.2 布爾模型布爾模型 1.3 向量空間模型向量空間模型 1.4 概率模型概率模型 1.5 典型的搜索引擎排序算法典型的搜索引擎排序算法 1.6 適用于數(shù)學(xué)公式搜索引擎排序算法的適用于數(shù)學(xué)公式搜索引擎排序算法的探探 討討典型的搜索引擎排序算法典型的搜索引擎排序算法Yahoo!搜索隱身

26、列出影響相關(guān)程度的要素有:和差選字符創(chuàng)一樣的字串搜索隱身列出影響相關(guān)程度的要素有:和差選字符創(chuàng)一樣的字串多寡。多寡。詞頻和位置加權(quán)算法。詞頻和位置加權(quán)算法。 中心思想:以空間向量模型為根底中心思想:以空間向量模型為根底 ,以關(guān)鍵字與網(wǎng)頁(yè)的關(guān)系作為,以關(guān)鍵字與網(wǎng)頁(yè)的關(guān)系作為網(wǎng)頁(yè)排序的根據(jù),關(guān)鍵詞與網(wǎng)頁(yè)的關(guān)系是根據(jù)關(guān)鍵詞在網(wǎng)頁(yè)中出現(xiàn)的次數(shù)網(wǎng)頁(yè)排序的根據(jù),關(guān)鍵詞與網(wǎng)頁(yè)的關(guān)系是根據(jù)關(guān)鍵詞在網(wǎng)頁(yè)中出現(xiàn)的次數(shù)和位置兩個(gè)方面進(jìn)展權(quán)值的計(jì)算。和位置兩個(gè)方面進(jìn)展權(quán)值的計(jì)算。 關(guān)鍵詞的頻次采用上文中的頻次計(jì)算方法關(guān)鍵詞的頻次采用上文中的頻次計(jì)算方法 ; 位置加權(quán)那么是根據(jù)關(guān)鍵詞在網(wǎng)頁(yè)中出現(xiàn)的不同位置及版式來(lái)賦予不位置加權(quán)那么是根據(jù)關(guān)鍵詞在網(wǎng)頁(yè)中出現(xiàn)的不同位置及版式來(lái)賦予不同的權(quán)值,位置的重要性不同,那么權(quán)值不同,版式不同,權(quán)值也有區(qū)別。同的權(quán)值,位置的重要性不同,那么權(quán)值不同,版式不同,權(quán)值也有區(qū)別。其中關(guān)鍵詞的位置有其中關(guān)鍵詞的位置有:網(wǎng)頁(yè)標(biāo)題、網(wǎng)頁(yè)標(biāo)題、META標(biāo)簽、正文標(biāo)題、正文內(nèi)容、超鏈標(biāo)簽、正文標(biāo)題、正文內(nèi)容、超鏈接錨文本等接錨文本等;版式有版式有:字號(hào)大小、能否加粗等強(qiáng)調(diào)特征。對(duì)于重要的位置如字

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論