![第二章 檢索模型_第1頁](http://file4.renrendoc.com/view/f6f0396e3a4729b3d8552942f995289b/f6f0396e3a4729b3d8552942f995289b1.gif)
![第二章 檢索模型_第2頁](http://file4.renrendoc.com/view/f6f0396e3a4729b3d8552942f995289b/f6f0396e3a4729b3d8552942f995289b2.gif)
![第二章 檢索模型_第3頁](http://file4.renrendoc.com/view/f6f0396e3a4729b3d8552942f995289b/f6f0396e3a4729b3d8552942f995289b3.gif)
![第二章 檢索模型_第4頁](http://file4.renrendoc.com/view/f6f0396e3a4729b3d8552942f995289b/f6f0396e3a4729b3d8552942f995289b4.gif)
![第二章 檢索模型_第5頁](http://file4.renrendoc.com/view/f6f0396e3a4729b3d8552942f995289b/f6f0396e3a4729b3d8552942f995289b5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
教學(xué)目的和要求:了解幾種基本的檢索模型第二章檢索模型主要內(nèi)容:一布爾檢索模型二Fuzzysets模糊集合模型三向量空間檢索模型四概率檢索模型信息檢索的基本原理信息集合和需求集合的匹配和和選擇。(1)信息集合
文獻(xiàn)d,標(biāo)引詞k,權(quán)重w(2)需求集合潛在真實(shí)需求(realinformationneed)意識(shí)到的需求(perceptioninformationneed)表達(dá)出來的需求(request)系統(tǒng)能夠接受理解的需求(query)(3)匹配(函數(shù))信息檢索的原理2.1.1概念及原理布爾(Boolean)。布爾檢索模型采用布爾代數(shù)的方法,用布爾表達(dá)式表示用戶提問,通過對(duì)文獻(xiàn)表示與提問式的邏輯比較來檢索文獻(xiàn)。由于集合的定義是非常直觀,布爾模型提供了一個(gè)信息檢索系統(tǒng)和用戶容易掌握的框架。因而得到了廣泛的應(yīng)用。2.1布爾檢索模型(1)每個(gè)文獻(xiàn)用一組標(biāo)引詞表示例如,對(duì)于某一特定文獻(xiàn)i,可表示為:Di=(T1,T2,T3,…Tm)對(duì)于系統(tǒng)索引詞集合的每個(gè)索引詞在一篇文檔中只有兩種狀態(tài):出現(xiàn)或者不出現(xiàn),布爾模型的基本原理(2)提問式用3種布爾邏輯算符連接而成。邏輯與:and邏輯或:or邏輯非:not布爾模型的基本原理CatCatORDogCatANDDog(CatAND
Dog)(CatANDDog)OR
Collar(CatANDDog)OR
(CollarANDLeash)(CatORDog)AND(CollarORLeash)布爾提問式BooleanQueries(CatORDog)AND(CollarORLeash)下面6篇文獻(xiàn)那篇是命中文獻(xiàn)123456Cat x x Dog x x Collar x x Leash x x 標(biāo)引詞集合和提問式的匹配優(yōu)點(diǎn):用戶可以按照自己習(xí)慣的思維方式用普通語言進(jìn)行提問;將復(fù)雜的檢索過程簡單化,能夠?qū)z索提問按其概念組面的邏輯關(guān)系描述出來,從而變成計(jì)算機(jī)執(zhí)行的邏輯運(yùn)算。自1967年被文獻(xiàn)檢索系統(tǒng)采用后,逐漸在信息檢索系統(tǒng)中得到廣泛的世紀(jì)應(yīng)用。2.1布爾檢索模型缺點(diǎn)難以構(gòu)造合適的檢索式;容易造成零輸出或輸出過量;不能區(qū)分各組配單元的重要程度;不能按照用戶定義的重要性排序輸出。2.1布爾檢索模型對(duì)每一個(gè)標(biāo)引詞,都存在一個(gè)模糊的文獻(xiàn)集合與之相關(guān)。同時(shí),對(duì)某一給定的標(biāo)引詞,用某種隸屬函數(shù)去表示每一文獻(xiàn)與該詞相關(guān)的程度,在0-1之間取值。有關(guān)標(biāo)引詞的模糊集和是在標(biāo)引過程建立的。標(biāo)引員不是簡單的把標(biāo)引詞賦予文獻(xiàn),還要指出標(biāo)引詞與文獻(xiàn)的相關(guān)程度。當(dāng)全部文獻(xiàn)標(biāo)引完畢后,實(shí)際上就已經(jīng)為每個(gè)標(biāo)引詞定義了一種隸屬函數(shù),指明了每一文獻(xiàn)與每個(gè)標(biāo)引詞的相關(guān)程度。2.2模糊集合模型提問可以用布爾表達(dá)式表示,并指定所需文獻(xiàn)對(duì)每個(gè)標(biāo)引詞的隸屬度。檢索過程中,模糊集合的運(yùn)算根據(jù)扎德所定義的規(guī)則來進(jìn)行,即將提問式“AANDB”轉(zhuǎn)換為“Wand—Min(a,b)”,“AORB”轉(zhuǎn)換為“Wor=Max(a,b)”。其中a和b分別為詞A和詞B的權(quán)值.Wand和Wor分別為上述兩個(gè)提問式的權(quán)值?!癗OTA”或“NOTB”的權(quán)值則定義為1-a或1一b。最后,將檢索結(jié)果按文獻(xiàn)的權(quán)值排序輸出。2.2模糊集合模型最早從事模糊集合模型研究的有C.V.內(nèi)戈伊塔(Negoita)、V.塔哈尼(Tahani)和T·拉德基(Radecki)等人。內(nèi)戈伊塔1973年就嘗試用模糊邏輯來解釋情報(bào)檢索原理。塔哈尼1976年提出了他的模型。由于系統(tǒng)中標(biāo)引詞集合的容量可能很大,檢索過程要處理的項(xiàng)很多。為了節(jié)省處理時(shí)間,提高響應(yīng)速度,拉德基等人提出為提問中每個(gè)詞選定一個(gè)閾值A(chǔ)(o≤A≤1),將小于A的項(xiàng)去掉,以簡化運(yùn)算過程。2.2模糊集合模型假設(shè)有兩篇文獻(xiàn)和兩個(gè)檢索詞D1={(t1,0.5),(t2,0.3)}D2={(t1,0.9),(t2,0.1)}第一篇文獻(xiàn)和第一個(gè)檢索詞的相關(guān)度為0.5,和第二個(gè)詞的相關(guān)度為0.3如果要查找t1ort2,那么v(D1)=max(0.5,0.3)=0.5,v(D2)=max(0.9,0.1)=0.9D2會(huì)排在d1的前面。如果要查找t1andt2,v(D1)=mix(0.5,0.3)=0.3,v(D2)=mix(0.9,0.1)=0.1D1={(圖書館,.8),(自動(dòng)化,.4)}D2={(圖書館,.5),(自動(dòng)化,.6)}提問式=圖書館AND自動(dòng)化V(D1)=MIN(.8,.4)=.4V(D2)=MIN(.5,.6)=.5D2isrankedbeforeD1intheresultset.請(qǐng)思考這種方式的優(yōu)缺點(diǎn)1)它與傳統(tǒng)的布爾檢索關(guān)系非常密切,保留了布爾檢索功能,且更靈活。所有能支持布爾檢索的理論,對(duì)它也同樣適用。能滿足那些既想利用布爾檢索的長處又想避免其二值相關(guān)性測(cè)度的局限性的人的需要。(2)文獻(xiàn)可按用戶定義的重要程度排序輸出。
2.2.2模糊集合模型的主要優(yōu)點(diǎn)(1)由于它建立在布爾檢索的框架內(nèi),故它也帶有傳統(tǒng)布爾模型的某些缺陷。(2)模糊集合的運(yùn)算規(guī)則導(dǎo)致其排序能力不能全面反映標(biāo)引詞的重要程度。例如,AandBD1:(A,0.8)(B,0.1),D2:(A,0.2)(B,0.1),哪篇文獻(xiàn)會(huì)排到前面?(3)定義隸屬函數(shù),也是一個(gè)很棘手的問題?大家思考隸屬函數(shù)可以從哪些方面著手2.2.3模糊集合模型的主要缺點(diǎn)又稱為代數(shù)模型,是檢索系統(tǒng)所有數(shù)學(xué)模型中最有創(chuàng)造性、最能揭示文獻(xiàn)之間的關(guān)系。20世紀(jì)70年代中期由杰拉爾德.索頓提出了檢索系統(tǒng)的代數(shù)模型,定義了文獻(xiàn)向量、提問向量、文獻(xiàn)提問相關(guān)系數(shù)以及屬性-文獻(xiàn)相關(guān)矩陣、屬性相關(guān)矩陣、文獻(xiàn)相關(guān)矩陣等概念。
2.3向量模型2.3.1向量模型的描述1)文檔D(Document):也稱文獻(xiàn)向量,泛指文檔或文檔中的一個(gè)片段(如文檔中的標(biāo)題、摘要、正文等)。2)特征項(xiàng)t(Term):也稱為屬性向量,指出現(xiàn)在文檔中能夠代表文檔性質(zhì)的基本語言單位(如字、詞等),也就是通常所指的檢索詞。3)文獻(xiàn)向量的表示:這樣一個(gè)文檔D就可以表示為D(t1,t2,…,tn),其中n就代表了檢索字的數(shù)量。2.3.1向量模型的描述4)特征項(xiàng)權(quán)重Wk(TermWeight):指特征項(xiàng)tn能夠代表文檔D能力的大小,體現(xiàn)了特征項(xiàng)在文檔中的重要程度。這樣文檔D的向量可以表示為D(wn1,wn2,…,wnm),其中w1,w2,…,wm分別代表文檔D特征項(xiàng)t1,t2,…,tn的特征項(xiàng)權(quán)重。自動(dòng)標(biāo)引中的詞語加權(quán)方案(1)絕對(duì)詞頻法根據(jù)每個(gè)詞在特定文檔(集合)中的出現(xiàn)頻次來確定該詞重要程度的一種方法,最早有盧恩提出?;驹斫o定一個(gè)由N篇文檔組成的文檔集合,計(jì)算出每篇文檔中每個(gè)不同的詞的出現(xiàn)次數(shù)。把每個(gè)不同的詞在N篇文檔的出現(xiàn)次數(shù)相加,得到詞K的集合頻率。按集合頻率遞減順序排列這些詞,并確定高頻詞和低頻詞的閾值。挑選剩下的中頻詞作為標(biāo)引詞,并按照他們?cè)谙鄳?yīng)文檔的出現(xiàn)頻次確定權(quán)重。缺點(diǎn)是什么?(2)逆文檔頻率法英文InverseDocumentFrequency,基于以下假設(shè):某詞的重要性與它在特定文檔中的出現(xiàn)次數(shù)成正比,與含有該詞的文檔數(shù)成反比。詞頻加逆文檔詞頻確定權(quán)值的方法得到了廣泛的應(yīng)用。2.3.1向量模型的描述根據(jù)TF-IDF公式,文檔集中包含某一詞條的文檔越多,說明它區(qū)分文檔類別屬性的能力越低,其權(quán)值越??;另一方面,某一文檔中某一詞條出現(xiàn)的頻率越高,說明它區(qū)分文檔內(nèi)容屬性的能力越強(qiáng),其權(quán)值越大。2.3.1向量模型的描述5)提問向量:用屬性向量表示特定提問式:Q=(q1,q2,…qm),其中qj(j=1,2,…,m),表示提問中含有集合A中屬性的程度,規(guī)定Q包含屬性aj,則qj=1,否則qj=0。2.3.1向量模型的描述6)相似度S(Similarity):指兩個(gè)文檔內(nèi)容相關(guān)程度的大小,當(dāng)文檔以向量來表示時(shí),可以使用向量文檔向量間的距離來衡量,一般使用內(nèi)積或夾角θ的余弦來計(jì)算,兩者夾角越小說明相似度越高。2.3.1向量模型的描述圖2-1文檔相似度表示舉例:計(jì)算相似度1.00.80.60.40.20.80.60.40.201.0D1QTermBDi=(di1,wdi1;di2,wdi2;…;dit,wdit)Q=(qi1,wqi1;qi2,wqi2;…;qit,wqit)Q=(0.4,0.8)D1=(0.8,0.3)D2=(0.2,0.7)2.3.2向量模型的特點(diǎn)1)優(yōu)點(diǎn):更深刻和準(zhǔn)確地描述出文獻(xiàn)之間的關(guān)系;檢索基于聚類文檔,即通過計(jì)算文獻(xiàn)之間的相關(guān)系數(shù),使屬性相似的文獻(xiàn)盡量聚集在一起,提高了檢索效率;采用部分匹配策略及排序輸出原理,提高了檢索的靈活性;通過相應(yīng)反饋技術(shù)自動(dòng)修正提問向量,改進(jìn)檢索結(jié)果。2)向量模型的不足:每篇文獻(xiàn)主題詞數(shù)量一致,反映不了文獻(xiàn)信息量的差異;提問向量和文獻(xiàn)向量一致,不符合用戶檢索習(xí)慣;計(jì)算相關(guān)系數(shù)工作量大,且標(biāo)引詞的權(quán)值難以確定;標(biāo)引詞兩兩正交的假設(shè)過于僵硬等。由于向量模型要求條件高,目前使用的并不多。2.3.2向量模型的特點(diǎn)2.4概率模型2.4.1概念及原理利用概率論的原理,通過賦予標(biāo)引詞概率值來表示這些詞在相關(guān)文獻(xiàn)集合或無關(guān)文獻(xiàn)集合中的出現(xiàn)概率,然后計(jì)算某一給定文獻(xiàn)與某給定提問相關(guān)的概率。最后系統(tǒng)據(jù)此做出檢索決策。概率標(biāo)引理論的基礎(chǔ)是對(duì)標(biāo)引詞加權(quán)并利用權(quán)值來計(jì)算文獻(xiàn)的相關(guān)值,即滿足給定提問的概率值。發(fā)展出三種模型
模型1Maron(馬龍)andKuhns(庫恩)1960年提出概率標(biāo)引理論:給定某一文獻(xiàn)D,對(duì)某一標(biāo)引詞來說,標(biāo)引員要做這樣的判斷,如果某一個(gè)類型用戶B判定D為相關(guān),且在提問式中只用一個(gè)詞,那他選擇該詞的概率有多大。
模型2Robertson&SparckJones基本思想:標(biāo)引階段不對(duì)標(biāo)引詞進(jìn)行加權(quán),而是在檢索階段才導(dǎo)入概率檢索機(jī)制。檢索作業(yè)重復(fù)若干次,每重復(fù)一次,用戶就對(duì)檢出文獻(xiàn)進(jìn)行相關(guān)性判斷,然后利用這種反饋信息,根據(jù)每個(gè)詞在相關(guān)文獻(xiàn)集合和無關(guān)文獻(xiàn)集合中的分布情況來計(jì)算他們的相關(guān)概率。模型3同時(shí)做出兩種預(yù)測(cè),標(biāo)引員選詞標(biāo)引時(shí)要預(yù)測(cè)文獻(xiàn)對(duì)具有不同特性的用戶的相關(guān)概率,用戶選詞檢索時(shí)也要預(yù)測(cè)某詞對(duì)具有不同特性的文獻(xiàn)的相關(guān)概率2.4概率模型概率檢索模型有多種形式,常見的為第二概率檢索模型,首先設(shè)定標(biāo)引詞的概率值,一般是對(duì)檢索作業(yè)重復(fù)若干次,每一次檢索用戶對(duì)檢出文檔進(jìn)行相關(guān)性判斷。再利用這種反饋信息,根據(jù)每個(gè)詞在相關(guān)文檔集合和無關(guān)文檔集合的分布情況來計(jì)算它們的相關(guān)概率,將詞的權(quán)值設(shè)計(jì)為:2.4概率模型其中P,P′分別表示某詞在相關(guān)文檔集和無關(guān)文檔集中出現(xiàn)的概率。某一文檔的權(quán)值則是它所含的標(biāo)引詞權(quán)值之和,于是,文檔d與用戶查詢Q相關(guān)概率可定義為:
2.4概率模型其中pw和pw’分別為w在相關(guān)文檔和無關(guān)文檔中的概率。上式中右邊和式是對(duì)所有出現(xiàn)在文檔d和查詢Q中的詞w求和,即w∈d∩Q.概率模型有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ),采用了相關(guān)反饋原理克服不確定性推理的缺點(diǎn),它的缺點(diǎn)是參數(shù)估計(jì)的難度比較大,文件和查詢的表達(dá)也比較困難。2.4概率模型2.4.2特點(diǎn)
(1)概率檢索模型的主要優(yōu)點(diǎn)是:①它顯然注意到檢索決策是容易出錯(cuò)的,故采用了一種理論上更為嚴(yán)密的方式來進(jìn)行決策。②它容易與加權(quán)方法結(jié)合起來,為人們提供了一種理論基礎(chǔ)。③它不涉及布爾算符的使用,回避了構(gòu)造布爾提問式的困難。④文獻(xiàn)可按用戶的期望值來排序輸出。⑤吸收了相關(guān)反饋原理,可開發(fā)出理論上更為堅(jiān)實(shí)的方法。2.4概率模型(2)它的主要缺陷是:①布爾關(guān)系消失了(至少在早期的模型中是如此),“AANDB”和“AORB”被視為等同。②增加了存儲(chǔ)和計(jì)算資源的開銷。。③參數(shù)估計(jì)難度大。為此,人們提出了各種參數(shù)估計(jì)技術(shù),如最大閾值估計(jì)法、相關(guān)反饋原理、最大熵原理等。2.5瀏覽模型瀏覽是一種交互檢索行為,用戶先瀏覽系統(tǒng)文獻(xiàn),然后決定最終檢索結(jié)果。對(duì)于大多數(shù)檢索系統(tǒng),用戶在檢索時(shí)都會(huì)表現(xiàn)出瀏覽行為,而不在乎系統(tǒng)的結(jié)構(gòu)如何。2.5.1含義基于瀏覽的檢索要求用戶處于結(jié)構(gòu)化數(shù)據(jù)庫中,用戶在對(duì)信息理解吸收的基礎(chǔ)上對(duì)數(shù)據(jù)庫進(jìn)行瀏覽。有效的瀏覽系統(tǒng)數(shù)據(jù)庫應(yīng)具備幾個(gè)條件:能使用戶把特定的信息需求定位在數(shù)據(jù)庫感興趣的文獻(xiàn)集合中。能使用戶在做進(jìn)一步檢索時(shí)意識(shí)到用合適的方法進(jìn)行查找。能確保用戶快速有效地瀏覽數(shù)據(jù)庫。2.5瀏覽模型2.5.2對(duì)靜態(tài)數(shù)據(jù)庫的瀏覽瀏覽靜態(tài)數(shù)據(jù)庫時(shí),要確保數(shù)據(jù)庫結(jié)構(gòu)使用戶易于理解且能提供有效的屬性特征幫助用戶瀏覽。比如按概念等級(jí)或文獻(xiàn)登錄日期等組織信息。目前比較常用鄰近網(wǎng)絡(luò)相似度的方法,即在數(shù)據(jù)庫中瀏覽時(shí),先從一個(gè)款目開始,然后查找與其相似的其他所有款目,然后瀏覽最符合要求的信息。2.5瀏覽模型2.5瀏覽模型清華同方出品的“中國期刊網(wǎng)”,提供了按相似瀏覽的功能。這種結(jié)構(gòu)的數(shù)據(jù)庫為用戶提供空間角度瀏覽信息。同傳統(tǒng)等級(jí)式系統(tǒng)把檢索活動(dòng)僅限于在特定區(qū)域相比,該系統(tǒng)允許用戶進(jìn)行多方位瀏覽。瀏覽系統(tǒng)要求包含有豐富的交互式詞匯及聯(lián)想詞匯以幫助用戶獲取信息。鄰近網(wǎng)絡(luò)模型通過對(duì)數(shù)據(jù)庫中各款目創(chuàng)建網(wǎng)絡(luò)相關(guān)及創(chuàng)建不同網(wǎng)絡(luò)間相似度來達(dá)到豐富交互式詞匯及聯(lián)想詞匯的目的。收集的數(shù)據(jù)有兩種形式舉例:音像磁帶數(shù)據(jù)庫中有著者款目、出版商款目和出版年代款目。其他任何能描述文獻(xiàn)對(duì)象特征的都能成為一條款目。所有特征款目積聚起來就能構(gòu)成鄰近相關(guān)網(wǎng)絡(luò)。同時(shí)每個(gè)款目集能形成獨(dú)立的鄰近相關(guān)網(wǎng)絡(luò)。豐富的相關(guān)網(wǎng)絡(luò)集合能提供結(jié)構(gòu)化瀏覽。適當(dāng)?shù)木W(wǎng)絡(luò)集設(shè)計(jì)和相似度度量方法的設(shè)計(jì)是瀏覽模型研究的重點(diǎn)。鄰近相關(guān)網(wǎng)絡(luò)檢索策略彌補(bǔ)了簡單檢索策略的不足。比如,如果用戶同時(shí)找到兩
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- DB37-T 4640-2023 重金屬污染底泥原位修復(fù)指南
- 國家助學(xué)金申請(qǐng)書理由
- 個(gè)體戶免稅申請(qǐng)書范文
- 疫情下企業(yè)心理健康策略及其對(duì)工作績效的影響
- 申請(qǐng)書如何寫劇本
- 小學(xué)隊(duì)委申請(qǐng)書
- 怎樣寫失業(yè)證明申請(qǐng)書
- 2024-2025學(xué)年新教材高中歷史課時(shí)分層作業(yè)10影響世界的工業(yè)革命新人教版必修中外歷史綱要下
- 2024年秋八年級(jí)語文上冊(cè)第五單元19蘇州園林教學(xué)設(shè)計(jì)新人教版
- 2024-2025學(xué)年高中化學(xué)第三章烴的含氧衍生物第三節(jié)第二課時(shí)酯練習(xí)含解析新人教版選修5
- 2025長江航道工程局招聘101人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2025年國新國際投資有限公司招聘筆試參考題庫含答案解析
- 2025年八省聯(lián)考四川高考生物試卷真題答案詳解(精校打印)
- 《供電營業(yè)規(guī)則》
- 企業(yè)員工退休管理規(guī)章制度(3篇)
- 執(zhí)行總經(jīng)理崗位職責(zé)
- 2025年中鐵十二局集團(tuán)招聘筆試參考題庫含答案解析
- NS3000計(jì)算機(jī)監(jiān)控系統(tǒng)使用手冊(cè)
- 小學(xué)生情緒調(diào)適課件
- 2025蛇年中小學(xué)春節(jié)寒假安全教育課件模板
- 《黑神話:悟空》跨文化傳播策略與路徑研究
評(píng)論
0/150
提交評(píng)論