第四章信息檢索模型_第1頁
第四章信息檢索模型_第2頁
第四章信息檢索模型_第3頁
第四章信息檢索模型_第4頁
第四章信息檢索模型_第5頁
已閱讀5頁,還剩72頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第四章信息檢索模型南京中醫(yī)藥大學(xué)文獻(xiàn)檢索教研室教學(xué)內(nèi)容1、信息檢索模型概述2、傳統(tǒng)布爾檢索模型3、向量空間模型4、擴(kuò)展布爾檢索模型5、概率模型信息檢索模型概述信息檢索是一門研究從一定規(guī)模的文檔庫中找出滿足用戶需求的信息的學(xué)問,它指的是對非結(jié)構(gòu)化或半結(jié)構(gòu)化信息的檢索,半結(jié)構(gòu)化信息檢索人們通常稱為文本信息檢索,而非結(jié)構(gòu)化信息檢索多指多媒體信息檢索。信息檢索是對信息集合與需求集合的匹配和選擇。信息檢索基本原理:用戶通過一些列關(guān)鍵詞來闡明自己的信息需求,信息檢索系統(tǒng)則檢索與用戶查詢最為匹配的文獻(xiàn),同時借助某種相關(guān)性指標(biāo)對檢索出的文獻(xiàn)進(jìn)行排序。信息檢索的實質(zhì)問題:對于所有文檔,根據(jù)其與用戶查詢的相關(guān)程度由大到小進(jìn)行排序信息檢索模型概述什么是數(shù)學(xué)模型?為了某種特定目的,通過對現(xiàn)實世界的某一特定對象做出一些必要的簡化與假設(shè),運(yùn)用適當(dāng)?shù)臄?shù)學(xué)工具得到的一種數(shù)學(xué)結(jié)構(gòu)。模型是采用數(shù)學(xué)工具,對現(xiàn)實世界某種事物或某種運(yùn)動的抽象描述面對相同的輸入,模型的輸出應(yīng)能夠無限地逼近現(xiàn)實世界的輸出舉例:天氣的預(yù)測模型信息檢索模型概述信息檢索的模型,就是運(yùn)用數(shù)學(xué)的語言和工具,對信息檢索系統(tǒng)中的信息及其處理過程加以翻譯和抽象,表述為某種數(shù)學(xué)公式,再經(jīng)過演繹、推斷、解釋和實際檢驗,反過來指導(dǎo)信息檢索實踐。即信息檢索模型是指如何對查詢和文檔進(jìn)行表示,然后對它們進(jìn)行相似度計算的框架和方法。信息檢索模型的核心問題是檢測哪些文獻(xiàn)相關(guān),哪些文獻(xiàn)不相關(guān),即判斷一篇文獻(xiàn)是否與用戶的查詢條件相關(guān),以及相關(guān)的程度。信息檢索模型概述本質(zhì)上是對相關(guān)度建模。信息檢索模型是IR中的核心內(nèi)容之一。信息檢索模型的組成用戶的需求表示:包括用戶查詢信息的獲取與表示。文檔的表示:文檔內(nèi)容的識別與表示。匹配機(jī)制:用戶需求表示與文檔表示之間的查詢機(jī)制,以及它們之間相關(guān)性排序的準(zhǔn)則反饋修正:對檢索結(jié)果進(jìn)行優(yōu)化。信息檢索系統(tǒng)的形式化表示[D,Q,F,R(di,q)]D→文檔集合的機(jī)內(nèi)表示D={d1,d2,…,dm}為了滿足檢索匹配所要求的快速與便利,文檔di通常由從文檔中抽取的能夠表達(dá)文檔內(nèi)容的特征項(如索引項/檢索詞/關(guān)鍵詞)來表示設(shè)K={k1,k2,…,kn}為系統(tǒng)索引項集合則di={ωi1,ωi2,…,ωin}(ωij≥0)ωij→索引詞kj在文檔di中的重要性(權(quán)值weight)文檔邏輯視圖D是一個文檔集合,通常由文檔邏輯視圖來表示。可以是一組索引詞或關(guān)鍵詞。既可以自動提取,也可以是由人主觀指定。信息檢索系統(tǒng)的形式化表示Q→用戶查詢的機(jī)內(nèi)表示用戶需求的各種狀態(tài)潛在的真實需求(RealInformationNeed,RIN)意識到或感知到的需求(PerceptionInformationNeed,PIN)表達(dá)出的需求(Request)用戶查詢(Query)用戶查詢一般采用與文檔類似的形式化表示匹配處理框架(F)F→文檔與查詢查詢之間的匹配框架在信息集合(D)與需求集合(Q)之間建立模型化處理的框架與規(guī)則。不同檢索模型的匹配處理的數(shù)學(xué)機(jī)制是不同的。布爾模型:集合論的基本運(yùn)算向量空間模型:多維向量空間理論和向量線性代數(shù)概率模型:集合論、概率運(yùn)算和Bayes法則匹配計算函數(shù)R(di,q)R(di,q)→文檔與用戶查詢之間相關(guān)度計算函數(shù)匹配函數(shù)R(di,q)用于計算任一信息di(di∈D)與任一提問q(q∈Q)形成的信息—提問對(di,q)之間的相似度大小。一般地,R(di,q)的函數(shù)值為一實數(shù),其取值區(qū)間為[0,1]匹配函數(shù)的特點(diǎn):計算方法簡單,計算量?。缓瘮?shù)值在取值區(qū)間均勻分布;針對某一提問所獲取的相關(guān)文檔集合,能夠?qū)崿F(xiàn)合理的排序輸出。結(jié)構(gòu)化文本模型集合論模型文本檢索模型非重疊鏈表模型鄰近節(jié)點(diǎn)模型布爾模型向量模型概率模型瀏覽模型超文本模型基于本體的模型經(jīng)典模型超文本模型知識檢索模型擴(kuò)展布爾模型模糊集合模型廣義向量模型潛語義標(biāo)引模型神經(jīng)網(wǎng)絡(luò)模型推理網(wǎng)絡(luò)模型信任度網(wǎng)絡(luò)模型語言模型代數(shù)模型概率模型信息檢索模型的類型布爾檢索模型最早的IR模型1957年,Y·Bar-Hille就對布爾邏輯應(yīng)用于計算機(jī)信息檢索的可能性進(jìn)行了探討目前仍然應(yīng)用于商業(yè)系統(tǒng)中典型系統(tǒng):Lucene布爾檢索模型布爾(Boolean)模型是基于集合論和布爾代數(shù)的一種簡單檢索模型。用布爾表達(dá)式表示用戶提問,通過對文獻(xiàn)標(biāo)識與提問式的邏輯運(yùn)算來檢索文獻(xiàn)。優(yōu)勢:“集合”概念直觀容易被理解和接受文檔表示在傳統(tǒng)的布爾模型中,一個文檔被表示為關(guān)鍵詞的集合。Dj=(K1,K2,K3,…,Km)表示文獻(xiàn)Dj,式中K1,K2,K3,…,Km表示文獻(xiàn)Dj中的所有標(biāo)引詞集合。布爾檢索模型文檔與標(biāo)引詞建立一個布爾關(guān)系。用若干標(biāo)引詞的布爾表達(dá)式來表達(dá)和解釋查詢Q。對于一個表示為Q=(K1ANDK2)OR(K3AND(NOTK4))的提問式,系統(tǒng)的響應(yīng)必須是這樣一組文獻(xiàn)集合:這些文獻(xiàn)中都含有標(biāo)引詞K1和K2,或者含有標(biāo)引詞K3但不含有標(biāo)引詞K4。常用的布爾邏輯組配運(yùn)算符有:邏輯“與”(AND,常用符號“∧”表示)、邏輯“或”(OR,常用符號“∨”表示)、邏輯“非”(NOT,常用符號“-”表示)。

布爾檢索模型在布爾檢索模型中標(biāo)引詞在文獻(xiàn)中要么出現(xiàn)、要么不出現(xiàn),因此標(biāo)引詞Ki在文檔Dj中的權(quán)重全部被設(shè)為二值數(shù)據(jù),即Wij∈(0,1)。用戶提交的查詢條件由若干個標(biāo)引詞用與、或、非等邏輯符號相聯(lián)結(jié),在布爾檢索模型中被表示成了布爾表達(dá)式Q=(K1,K2,…),其本質(zhì)可以表示為多個標(biāo)引詞權(quán)值的合取向量的析取Qi(Qi為表達(dá)式Q的任意合取向量),則文獻(xiàn)Dj和查詢Q的相關(guān)度表示為布爾檢索模型如要檢索“布爾檢索或概率檢索但不包括向量檢索”方面的文檔,其相應(yīng)的查詢表達(dá)式為:Q=檢索and(布爾or概率not向量),那么Q可以在其相應(yīng)的(檢索,布爾,概率,向量)標(biāo)引詞向量上取(1,1,0,0)(1,0,1,0)(1,1,1,0),那么文檔Dj的向量如果與這中間一個相等,那么即可認(rèn)為他們之間存在相似關(guān)系,而這種相互關(guān)系也是布爾值,即sim(Q,Dj)只能為0或1。相關(guān)概念合取范式:若干個互不相同的合取項的析取稱為一個合取范式例:析取范式:在布爾邏輯中,析取范式(DNF)是邏輯公式的標(biāo)準(zhǔn)化(或規(guī)范化),它是合取子句的析取。

布爾提問的析取范式根據(jù)布爾邏輯的運(yùn)算規(guī)定,提問式q可以被表示成由合取子項(conjunctivecomponents)組成的析取范式(disjunctivenormalform,簡稱dnf)形式。如:提問式q=k1and(k2ornotk3)可寫成等價的析取范式形式:

qdnf

=(k1andk2andk3)or(k1andk2andnotk3)or(k1andnotk2andnotk3)

這里qdnf是提問式q的主析取范式??蛇M(jìn)一步簡化表示為:qdnf=(1,1,1)or(1,1,0)or(1,0,0)

其中:(1,1,1)or(1,1,0)or(1,0,0)是qdnf的三個合取子項qcc,他們是一組向量,由對應(yīng)的三元組(k1,k2,k3)的每一個分量取0或1得到。簡單實例Q=病毒AND(計算機(jī)OR電腦)ANDNOT醫(yī)D1:…據(jù)報道,計算機(jī)病毒近日猖獗…D2:…小王雖然是學(xué)醫(yī)的,但對研究電腦病毒也很感興趣,最近發(fā)明了一種…D3:…計算機(jī)程序發(fā)現(xiàn)了愛滋病病毒的傳播途徑…D4:…最近我的電腦中病毒了…請問:哪些文檔會被檢索出來?布爾模型的優(yōu)點(diǎn)到目前為止,布爾模型是最常用的檢索模型,因為:由于查詢簡單,因此容易理解通過使用復(fù)雜的布爾表達(dá)式,可以很方便地控制查詢結(jié)果相當(dāng)有效的實現(xiàn)方法相當(dāng)于識別包含了一個某個特定term的文檔經(jīng)過某種訓(xùn)練的用戶可以容易地寫出布爾查詢式布爾模型可以通過擴(kuò)展來包含排序的功能,即“擴(kuò)展的布爾模型”布爾模型存在的問題布爾模型被認(rèn)為是功能最弱的方式,其主要問題在于不支持部分匹配,而完全匹配會導(dǎo)致太多或者太少的結(jié)果文檔被返回非常剛性:“與”意味著全部;“或”意味著任何一個很難控制被檢索的文檔數(shù)量原則上講,所有被匹配的文檔都將被返回很難對輸出進(jìn)行排序不考慮索引詞的權(quán)重,所有文檔都以相同的方式和查詢相匹配很難進(jìn)行自動的相關(guān)反饋如果一篇文檔被用戶確認(rèn)為相關(guān)或者不相關(guān),怎樣相應(yīng)地修改查詢式呢?無法體現(xiàn)文檔之間的細(xì)微差別相關(guān)度的大小只有兩個值,模型這種“非此即彼”的二值判斷標(biāo)準(zhǔn)無法區(qū)分文檔相關(guān)度大小的細(xì)微差別向量空間模型向量空間模型(VectorSpaceModel,VSM)是由G·Salton等人在1958年提出的代表系統(tǒng)SMART(SystemfortheManipulationandRetrievalofText)這一系統(tǒng)理論框架到現(xiàn)在仍然是信息檢索技術(shù)研究的基礎(chǔ)向量空間模型向量模型通過分派非二值權(quán)重給查詢和文檔中的標(biāo)引詞來實現(xiàn)檢索目標(biāo)。這些權(quán)重用于計算系統(tǒng)中的每個文檔與用戶的查詢請求的相似程度,向量模型通過對文檔按照相似程度降序排列的方式,來實現(xiàn)文檔與查詢項的部分匹配。這樣做的結(jié)果中的文檔排列順序比通過布爾模型得到的結(jié)果要合理得多。文檔提問關(guān)鍵字的權(quán)重矢量關(guān)鍵字的權(quán)重矢量匹配檢索到文獻(xiàn)向量空間模型的基本原理模型的描述文檔D(Document):泛指文檔或文檔中的一個片段(如文檔中的標(biāo)題、摘要、正文等)。索引項K(key):指出現(xiàn)在文檔中能夠代表文檔性質(zhì)的基本語言單位(如字、詞等),也就是通常所指的檢索詞,這樣一個文檔D就可以表示為D(k1,k2,…,kn),其中n就代表了檢索字的數(shù)量。d1:土豆的美容功效d2:土豆的栽培d3:土豆的后期加工K={土豆、美容、栽培、加工}

特征項權(quán)重Wk(KeyWeight):指特征項kn能夠代表文檔D能力的大小,體現(xiàn)了特征項在文檔中的重要程度。

相似度S(Similarity):指兩個文檔內(nèi)容相關(guān)程度的大小模型的特點(diǎn)基于關(guān)鍵詞(一個文本由一個關(guān)鍵詞列表組成)根據(jù)關(guān)鍵詞的出現(xiàn)頻率計算相似度例如:文檔的統(tǒng)計特性用戶規(guī)定一個詞項(key)集合,可以給每個詞項附加權(quán)重未加權(quán)的詞項:Q=database;text;information加權(quán)的詞項:Q=database0.5;text0.8;information0.2查詢式中沒有布爾條件根據(jù)相似度對輸出結(jié)果進(jìn)行排序支持自動的相關(guān)反饋有用的詞項被添加到原始的查詢式中例如:Q

database;text;information;document

模型中的問題怎樣確定文檔中哪些詞是重要的詞?(索引項)怎樣確定一個詞在某個文檔中或在整個文檔集中的重要程度?(權(quán)重)怎樣確定一個文檔和一個查詢式之間的相似度?索引項的選擇若干獨(dú)立的詞項被選作索引項(indexkeys)or

詞表vocabulary索引項代表了一個應(yīng)用中的重要詞項計算機(jī)科學(xué)圖書館中的索引項應(yīng)該是哪些呢?體系結(jié)構(gòu)總線計算機(jī)數(shù)據(jù)庫….XML計算機(jī)科學(xué)文檔集文檔集中的索引項這些索引項是不相關(guān)的(或者說是正交的)

,形成一個向量空間vectorspace向量空間模型定義:

在向量空間模型中,標(biāo)引詞Ki在文檔Dj中的權(quán)重Wij是一個大于0的非二值數(shù)。文檔Dj可以看做是一個向量:

Dj=(W1j,W2j,W3j………Wtj)其中,t是文檔集中所有標(biāo)引詞的數(shù)目。用戶查詢中的標(biāo)引詞也是有權(quán)重的,設(shè)Wiq是用戶檢索提問式(查詢)Q的標(biāo)引詞Ki的權(quán)重,且Wiq≥0,則查詢向量Q被定義成:

Q=(W1q,W2q,W3q…………Wtq)。衡量文檔和查詢的相關(guān)度轉(zhuǎn)化成計算文檔向量和查詢向量之間的相似度。一般使用文檔向量和查詢向量之間的夾角余弦值來計算它們之間的相似度。向量空間模型WijK1k2…KnD101…0D210.8…0.5……………Dn0.20…1文檔向量空間的表示:文檔D1(W11,W21,…Wn1)查詢Q(W1q,W2q,…Wnq)文檔D2(W12,W22,…Wn2)特征項1特征項2特征項3文檔向量空間模型:文檔和文檔之間的相似度Sim可以表示如下:文檔和查詢之間的相似度Sim可以表示如下:向量空間模型例子D1=2K1+3K2+5K3D2=3K1+7K2+K3Q=0K1+0K2+2K3文檔D1=2K1+3K2+5K3查詢Q=0K1+0K2+2K3文檔D2=3K1+7K2+K3特征項1特征項2特征項3文檔中關(guān)鍵詞的權(quán)重兩方面因素詞表達(dá)文檔內(nèi)容的能力tfij→關(guān)鍵詞的詞頻(關(guān)鍵詞tj在文檔di中的頻率)詞區(qū)分其所在文檔與其它文檔的能力dfj

→關(guān)鍵詞的文檔頻率(包含關(guān)鍵詞tj的文檔數(shù)量)tf-idf(詞頻-逆文檔頻率)公式標(biāo)引詞的權(quán)重計算(TF-IDF)N為文檔集合,ni為包含標(biāo)引詞Ki的文檔篇數(shù),TFij表示標(biāo)引詞Ki在文檔Dj中出現(xiàn)的頻數(shù),則文檔Dj中標(biāo)引詞Ki的標(biāo)準(zhǔn)化頻率Fij為

Fij=TFij/maxj

TFij最大值是通過計算文檔Dj中出現(xiàn)的所有標(biāo)引詞來獲得的。如果標(biāo)引詞Ki沒有出現(xiàn)在文檔Dj中,則Fij=0。標(biāo)引詞Ki的IDF為IDFi=log(N/ni)標(biāo)引詞Ki在文檔Dj中的權(quán)重Wij=Fij*IDFi向量空間模型例如:文檔總數(shù)為1000,出現(xiàn)關(guān)鍵詞k1文檔為100篇,出現(xiàn)關(guān)鍵詞k2文檔為500篇,出現(xiàn)關(guān)鍵詞k3文檔為800篇N=1000,n1=100,n2=500,n3=800根據(jù)公式:idfi=log(N/ni),可計算出idf1=3-2=1idf2=3–2.7=0.3idf3=3–2.9=0.1Idf越大,表明區(qū)別(分)文檔的能力越強(qiáng)。TF-IDF舉例說明

文本:“俄羅斯頻繁發(fā)生恐怖事件,俄羅斯的安全部門加大打擊恐怖主義的力度?!盩FIDFTF-IDFTFIDFTF-IDF俄羅斯2較高高安全1中等高恐怖2較高高部門1較低低的2非常低很低加大1較低低頻繁1較低低打擊1中等高發(fā)生1較低低主義1較低低事件1較低低力度1中等高Idf計算示例查詢式的詞項權(quán)重如果詞項出現(xiàn)在查詢式中,則該詞項在查詢式中的權(quán)重為1,否則為0也可以用用戶指定查詢式中詞項的權(quán)重一個自然語言查詢式可以被看成一個文檔查詢式:“有沒有周杰倫的歌?”

會被轉(zhuǎn)換為:

<周杰倫,歌>查詢式:“請幫我找關(guān)于俄羅斯和車臣之間的戰(zhàn)爭以及車臣恐怖主義首腦的資料”

會被轉(zhuǎn)換為:

<俄羅斯2,車臣

2,戰(zhàn)爭1,恐怖主義1,首腦1>過濾掉了:“請幫我找”,“和”,“之間的”,“以及”,“的資料”兩個文檔之間的相似度可以同理計算由索引項構(gòu)成向量空間2個索引項構(gòu)成一個二維空間,一個文檔可能包含0,1或2個索引項di=0,0 (一個索引項也不包含)dj=0,0.7 (包含其中一個索引項)dk=1,2

(包含兩個索引項)類似的,3個索引項構(gòu)成一個三維空間,n個索引項構(gòu)成n維空間一個文檔或查詢式可以表示為n個元素的線性組合相似度計算相似度是一個函數(shù),它給出兩個向量之間的相似程度,查詢式和文檔都是向量,各類相似度存在于:兩個文檔之間(文本分類,聚類)兩個查詢式之間(常問問題集)一個查詢式和一個文檔之間(檢索)人們曾提出大量的相似度計算方法,因為最佳的相似度計算方法并不存在。通過計算查詢式和文檔之間的相似度可以根據(jù)預(yù)定的重要程度對檢索出來的文檔進(jìn)行排序可以通過強(qiáng)制設(shè)定某個閾值,控制被檢索出來的文檔的數(shù)量檢索結(jié)果可以被用于相關(guān)反饋中,以便對原始的查詢式進(jìn)行修正。(例如:將文檔向量和查詢式向量進(jìn)行結(jié)合)相似度度量–內(nèi)積(InnerProduct)文檔D

和查詢式Q

可以通過內(nèi)積進(jìn)行計算:sim(D

,Q)=

(dik

qk)dik

是文檔di中的詞項k

的權(quán)重,qk

是查詢式Q中詞項k的權(quán)重對于二值向量,內(nèi)積是查詢式中的詞項和文檔中的詞項相互匹配的數(shù)量對于加權(quán)向量,內(nèi)積是查詢式和文檔中相互匹配的詞項的權(quán)重乘積之和示例內(nèi)積的特點(diǎn)內(nèi)積值沒有界限不象概率值,要在(0,1)之間對長文檔有利內(nèi)積用于衡量有多少詞項匹配成功,而不計算有多少詞項匹配失敗長文檔包含大量獨(dú)立詞項,每個詞項均多次出現(xiàn),因此一般而言,和查詢式中的詞項匹配成功的可能性就會比短文檔大。余弦向量度量法用向量夾角的余弦值表示向量的相似度夾角余弦值越大,相似度越高其實質(zhì)是利用向量長度對內(nèi)積進(jìn)行歸一化2t3t1t2D1D2Q1示例示例Jaccard系數(shù)法二值化的相似度度量向量空間模型的主要優(yōu)點(diǎn)對標(biāo)引詞的權(quán)重進(jìn)行了改進(jìn),其權(quán)重的計算可以通過統(tǒng)計的辦法自動完成,使問題的繁雜性大為降低,從而改進(jìn)了檢索效率。把文檔和查詢本身簡化為標(biāo)引詞及其權(quán)重集合的向量表示,把對文檔內(nèi)容和查詢要求的處理簡化為向量空間中向量的運(yùn)算。根據(jù)文檔和查詢之間的相似度對文獻(xiàn)進(jìn)行排序,有效地提高了檢索效率??梢詫崿F(xiàn)文檔自動分類。(1)標(biāo)引詞仍然被認(rèn)為是相互獨(dú)立,會丟掉大量的文本結(jié)構(gòu)信息,降低語義準(zhǔn)確性。實際上,這些詞項是相互關(guān)聯(lián)的當(dāng)你在一個文檔中看到“計算機(jī)”,非常有可能同時看到“科學(xué)”當(dāng)你在一個文檔中看到“計算機(jī)”,有中等的可能性同時看到“商務(wù)”當(dāng)你在一個文檔中看到“商務(wù)”,只有很少的機(jī)會同時看到“科學(xué)”(2)相似度的計算量大,當(dāng)有新文檔加入時,必須重新計算詞的權(quán)值。向量空間模型的主要缺點(diǎn)擴(kuò)展布爾模型擴(kuò)展布爾模型布爾模型和VSM各自有著自己的優(yōu)點(diǎn)和不足,能否將兩者結(jié)合起來,克服自身的缺點(diǎn),發(fā)揮相互的長處?1983年G.Salton及其學(xué)生提出一種基于布爾邏輯框架的混合布爾、向量特性的“擴(kuò)展布爾模型”。擴(kuò)展布爾模型布爾模型和向量空間模型相結(jié)合,先做布爾過濾,然后進(jìn)行排序:首先進(jìn)行布爾查詢將全部滿足布爾查詢的文檔匯集成一個文檔用向量空間法對布爾檢索結(jié)果進(jìn)行排序布爾過濾排序布爾查詢式向量空間模型查詢式文檔結(jié)果如果忽略布爾關(guān)系的話,向量空間查詢式和布爾查詢式是相同的先“布爾”,后“排序”存在的問題如果

“與”

應(yīng)用于布爾查詢式,結(jié)果集可能太窄,因而影響了后面的排序過程如果

“或”

應(yīng)用于布爾查詢式,

就和純向量空間模型沒有區(qū)別了在第一步,如何最佳地應(yīng)用布爾模型呢?提出擴(kuò)展布爾模型擴(kuò)展布爾模型假定文獻(xiàn)集合中的文獻(xiàn)Dj僅用兩個標(biāo)引詞Kx和Ky標(biāo)引,并且Kx和Ky允許被賦予一定的權(quán)值,其權(quán)值分別為Wx,j、Wy,j,權(quán)值的取值范圍為[0,1],權(quán)值越接近于1,說明該詞越能反映文本的內(nèi)容,反之,反映文本的內(nèi)容差一些。為了簡單起見,用x,y分別表示權(quán)值Wx,j、Wy,j。我們采用二維圖來表示文獻(xiàn)的提問,用距離的概念表示文獻(xiàn)與提問的相似度。(0,0)B(1,0)A(0,1)C(1,1)D(x,y)擴(kuò)展布爾模型中的“或”關(guān)系給定一個或關(guān)系的查詢式:x

y假設(shè)文檔di中x和y的權(quán)重被歸一化在(0,1)區(qū)間內(nèi):wx,j=(tfx,j/maxl

tfl,j

(idfx/maxi

idfi)

sim(qor,

dj)=[(x2+y2)/2]0.5

wherex=

wx,j

andy=

wy,j

在傳統(tǒng)布爾模型中,(0,1)、(1,0)、(1,1)幾個點(diǎn)的相關(guān)度都是1,擴(kuò)展模型中將它們加以區(qū)分,體現(xiàn)為“所有詞都出現(xiàn)比只出現(xiàn)幾個詞更有價值”一個文檔在(1,1)處獲得最高的權(quán)重,此時意味著文檔包含了全部兩個查詢詞,并且查詢詞在文檔中的權(quán)重也是最高的函數(shù)sim()度量了從原點(diǎn)出發(fā)的文檔向量長度,距離越大,相似性越大。擴(kuò)展布爾模型中的“與”關(guān)系給定一個聯(lián)合的查詢式

x

ysim(qand,

dj)=1{[(1

x)2+(1

y)2]/2}0.5函數(shù)sim()表示從(1,1)

出發(fā)到d的向量長度(1,1)wx,jwy,j(1,0)(0,1)(0,0)最期望的點(diǎn)dx

y在傳統(tǒng)布爾模型中,(0,1)、(1,0)、(0,0)幾個點(diǎn)的相關(guān)度都是0,擴(kuò)展模型中將它們加以區(qū)分,體現(xiàn)為“出現(xiàn)幾個詞總比一詞都不出現(xiàn)更有價值”

函數(shù)sim()度量了點(diǎn)(wx,wy)到點(diǎn)(1,1)的距離。距離越小,相似性越大。示例觀察如果權(quán)值是布爾型的,x出現(xiàn)在文檔dj中,則x在文檔dj中具有權(quán)重1,否則為0當(dāng)dj

包含x和y時

sim(qand,dj)=sim(qor,dj)=1當(dāng)dj

既不包含x

也不包含y時

sim(qand,dj)=sim(qor,dj)=0當(dāng)dj

包含x

和y二者之一時

sim(qand,dj)=1

1/20.5=0.293

sim(qor,dj)=1/20.5=0.707(1,1)wx,jwy,j(1,0)(0,1)(0,0)觀察一個詞項的存在將對“或”關(guān)系查詢式提供0.707的增益值,但對“與”關(guān)系查詢式僅提供0.293的增益值一個詞項不存在,將給“與”關(guān)系的查詢式提供0.707的罰分當(dāng)x

和y

有權(quán)值0.5,sim(qand,d)=sim(qor,d)=0.5在一個“與”關(guān)系查詢中,兩個詞項的權(quán)重均為0.5,則相似度為0.5。其中一個權(quán)重為1,另一個為0,相似度為0.293。在“或關(guān)系”查詢中,情況恰好相反在“與關(guān)系”查詢中,如果一個詞項的權(quán)重低于0.5,將給相似度貢獻(xiàn)一個較大的罰分p-norm模型擴(kuò)展布爾模型可以被泛化為m

個查詢項:

sim(qor,d)=[(x12+x22+...+xm2)/m]0.5

sim(qand,d)=1{[(1

x1)2+(1

x2)2+...+(1

xm)2]/m}0.5它可以被進(jìn)一步地

泛化為p-normmodel:

sim(qor,d)=[(x1p+x2p

+...+xmp

)/m]1/p

sim(qand,d)=1{[(1

x1)p+(1

x2)p+...+(1

xm)p]/m}1/p當(dāng)p=1時,sim(qor,d)=sim(qand,d)=(x1+x2

+...+xm

)/m通過語詞-文獻(xiàn)權(quán)值的和來求合取和析取查詢的值,和向量空間中的內(nèi)積相似當(dāng)p=,sim(qor,d)=max(xi);sim(qand,d)=min(xi)模糊邏輯模型(Fuzzylogicmodel)擴(kuò)展布爾模型的特點(diǎn):與傳統(tǒng)的布爾檢索中的倒排文檔技術(shù)相兼容,支持使用標(biāo)準(zhǔn)布爾邏輯表達(dá)的提問式結(jié)構(gòu);允許在文檔和提問式中進(jìn)行詞加權(quán)處理;支持按相似度的大小排序輸出檢索結(jié)果;通過調(diào)整參數(shù)p的值,可靈活選擇并得到不同檢索結(jié)果。概率模型概率論模型主要基于概率論原理來理解和解決信息檢索問題。在概率論的基礎(chǔ)上,目前提出的檢索模型主要有經(jīng)典概率模型(二值獨(dú)立檢索模型,BinaryIndependenceRetrieval,BIR)、基于Bayesian網(wǎng)絡(luò)的推理網(wǎng)絡(luò)模型(InterenceNetworkModel)和信念網(wǎng)絡(luò)模型(BeliefNetworkModel)等。概率模型經(jīng)典概率模型最早在1976年由英國城市大學(xué)Robertson和Sparck-Jones提出。基本思想:給定一個用戶提問,則檢索系統(tǒng)中存在一個與該提問相關(guān)的理論命中結(jié)果集R。如果能已知R的主要特征及其描述,則用戶的檢索要求便不難實現(xiàn)。事實上,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論