第二章檢索模型

上傳人：a*** IP屬地：湖北上傳時(shí)間：2023-02-05 格式：PPT 頁(yè)數(shù)：49 大小：496KB 積分：28 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩44頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

教學(xué)目的和要求：了解幾種基本的檢索模型第二章檢索模型主要內(nèi)容：一布爾檢索模型二Fuzzysets模糊集合模型三向量空間檢索模型四概率檢索模型信息檢索的基本原理信息集合和需求集合的匹配和和選擇。（1）信息集合

文獻(xiàn)d,標(biāo)引詞k,權(quán)重w（2）需求集合潛在真實(shí)需求(realinformationneed)意識(shí)到的需求(perceptioninformationneed)表達(dá)出來(lái)的需求（request)系統(tǒng)能夠接受理解的需求（query)（3）匹配（函數(shù)）信息檢索的原理2.1.1概念及原理布爾（Boolean）。布爾檢索模型采用布爾代數(shù)的方法，用布爾表達(dá)式表示用戶提問(wèn)，通過(guò)對(duì)文獻(xiàn)表示與提問(wèn)式的邏輯比較來(lái)檢索文獻(xiàn)。由于集合的定義是非常直觀，布爾模型提供了一個(gè)信息檢索系統(tǒng)和用戶容易掌握的框架。因而得到了廣泛的應(yīng)用。2.1布爾檢索模型（1）每個(gè)文獻(xiàn)用一組標(biāo)引詞表示例如，對(duì)于某一特定文獻(xiàn)i，可表示為：Di=（T1,T2,T3,…Tm）對(duì)于系統(tǒng)索引詞集合的每個(gè)索引詞在一篇文檔中只有兩種狀態(tài)：出現(xiàn)或者不出現(xiàn)，布爾模型的基本原理(2)提問(wèn)式用3種布爾邏輯算符連接而成。邏輯與：and邏輯或:or邏輯非:not布爾模型的基本原理CatCatORDogCatANDDog(CatAND

Dog)(CatANDDog)OR

Collar(CatANDDog)OR

(CollarANDLeash)(CatORDog)AND(CollarORLeash)布爾提問(wèn)式BooleanQueries(CatORDog)AND(CollarORLeash)下面6篇文獻(xiàn)那篇是命中文獻(xiàn)123456Cat x x Dog x x Collar x x Leash x x 標(biāo)引詞集合和提問(wèn)式的匹配優(yōu)點(diǎn)：用戶可以按照自己習(xí)慣的思維方式用普通語(yǔ)言進(jìn)行提問(wèn)；將復(fù)雜的檢索過(guò)程簡(jiǎn)單化，能夠?qū)z索提問(wèn)按其概念組面的邏輯關(guān)系描述出來(lái)，從而變成計(jì)算機(jī)執(zhí)行的邏輯運(yùn)算。自1967年被文獻(xiàn)檢索系統(tǒng)采用后，逐漸在信息檢索系統(tǒng)中得到廣泛的世紀(jì)應(yīng)用。2.1布爾檢索模型缺點(diǎn)難以構(gòu)造合適的檢索式；容易造成零輸出或輸出過(guò)量；不能區(qū)分各組配單元的重要程度；不能按照用戶定義的重要性排序輸出。2.1布爾檢索模型對(duì)每一個(gè)標(biāo)引詞，都存在一個(gè)模糊的文獻(xiàn)集合與之相關(guān)。同時(shí)，對(duì)某一給定的標(biāo)引詞，用某種隸屬函數(shù)去表示每一文獻(xiàn)與該詞相關(guān)的程度,在0－1之間取值。有關(guān)標(biāo)引詞的模糊集和是在標(biāo)引過(guò)程建立的。標(biāo)引員不是簡(jiǎn)單的把標(biāo)引詞賦予文獻(xiàn)，還要指出標(biāo)引詞與文獻(xiàn)的相關(guān)程度。當(dāng)全部文獻(xiàn)標(biāo)引完畢后，實(shí)際上就已經(jīng)為每個(gè)標(biāo)引詞定義了一種隸屬函數(shù)，指明了每一文獻(xiàn)與每個(gè)標(biāo)引詞的相關(guān)程度。2.2模糊集合模型提問(wèn)可以用布爾表達(dá)式表示，并指定所需文獻(xiàn)對(duì)每個(gè)標(biāo)引詞的隸屬度。檢索過(guò)程中，模糊集合的運(yùn)算根據(jù)扎德所定義的規(guī)則來(lái)進(jìn)行，即將提問(wèn)式“AANDB”轉(zhuǎn)換為“Wand—Min(a,b)”，“AORB”轉(zhuǎn)換為“Wor=Max(a，b)”。其中a和b分別為詞A和詞B的權(quán)值.Wand和Wor分別為上述兩個(gè)提問(wèn)式的權(quán)值。“NOTA”或“NOTB”的權(quán)值則定義為1-a或1一b。最后，將檢索結(jié)果按文獻(xiàn)的權(quán)值排序輸出。2.2模糊集合模型最早從事模糊集合模型研究的有C．V．內(nèi)戈伊塔(Negoita)、V．塔哈尼(Tahani)和T·拉德基(Radecki)等人。內(nèi)戈伊塔1973年就嘗試用模糊邏輯來(lái)解釋情報(bào)檢索原理。塔哈尼1976年提出了他的模型。由于系統(tǒng)中標(biāo)引詞集合的容量可能很大，檢索過(guò)程要處理的項(xiàng)很多。為了節(jié)省處理時(shí)間，提高響應(yīng)速度，拉德基等人提出為提問(wèn)中每個(gè)詞選定一個(gè)閾值A(chǔ)(o≤A≤1)，將小于A的項(xiàng)去掉，以簡(jiǎn)化運(yùn)算過(guò)程。2.2模糊集合模型假設(shè)有兩篇文獻(xiàn)和兩個(gè)檢索詞D1=｛(t1,0.5),(t2,0.3)}D2=｛(t1,0.9),(t2,0.1)}第一篇文獻(xiàn)和第一個(gè)檢索詞的相關(guān)度為0.5，和第二個(gè)詞的相關(guān)度為0.3如果要查找t1ort2,那么v(D1)=max(0.5，0.3)=0.5,v(D2)=max(0.9,0.1)=0.9D2會(huì)排在d1的前面。如果要查找t1andt2,v(D1)=mix(0.5，0.3)=0.3,v(D2)=mix(0.9,0.1)=0.1D1={(圖書館,.8),(自動(dòng)化,.4)}D2={(圖書館,.5),(自動(dòng)化,.6)}提問(wèn)式=圖書館AND自動(dòng)化V(D1)=MIN(.8,.4)=.4V(D2)=MIN(.5,.6)=.5D2isrankedbeforeD1intheresultset.請(qǐng)思考這種方式的優(yōu)缺點(diǎn)1）它與傳統(tǒng)的布爾檢索關(guān)系非常密切，保留了布爾檢索功能，且更靈活。所有能支持布爾檢索的理論，對(duì)它也同樣適用。能滿足那些既想利用布爾檢索的長(zhǎng)處又想避免其二值相關(guān)性測(cè)度的局限性的人的需要。（2）文獻(xiàn)可按用戶定義的重要程度排序輸出。

2.2.2模糊集合模型的主要優(yōu)點(diǎn)（1）由于它建立在布爾檢索的框架內(nèi)，故它也帶有傳統(tǒng)布爾模型的某些缺陷。（2）模糊集合的運(yùn)算規(guī)則導(dǎo)致其排序能力不能全面反映標(biāo)引詞的重要程度。例如，AandBD1：(A,0.8)(B,0.1),D2：(A，0.2）(B,0.1),哪篇文獻(xiàn)會(huì)排到前面？（3）定義隸屬函數(shù)，也是一個(gè)很棘手的問(wèn)題？大家思考隸屬函數(shù)可以從哪些方面著手2.2.3模糊集合模型的主要缺點(diǎn)又稱為代數(shù)模型，是檢索系統(tǒng)所有數(shù)學(xué)模型中最有創(chuàng)造性、最能揭示文獻(xiàn)之間的關(guān)系。20世紀(jì)70年代中期由杰拉爾德.索頓提出了檢索系統(tǒng)的代數(shù)模型，定義了文獻(xiàn)向量、提問(wèn)向量、文獻(xiàn)提問(wèn)相關(guān)系數(shù)以及屬性-文獻(xiàn)相關(guān)矩陣、屬性相關(guān)矩陣、文獻(xiàn)相關(guān)矩陣等概念。

2.3向量模型2.3.1向量模型的描述1）文檔D(Document)：也稱文獻(xiàn)向量，泛指文檔或文檔中的一個(gè)片段（如文檔中的標(biāo)題、摘要、正文等）。2）特征項(xiàng)t（Term）：也稱為屬性向量，指出現(xiàn)在文檔中能夠代表文檔性質(zhì)的基本語(yǔ)言單位（如字、詞等），也就是通常所指的檢索詞。3）文獻(xiàn)向量的表示：這樣一個(gè)文檔D就可以表示為D(t1,t2,…,tn)，其中n就代表了檢索字的數(shù)量。2.3.1向量模型的描述4）特征項(xiàng)權(quán)重Wk（TermWeight）：指特征項(xiàng)tn能夠代表文檔D能力的大小，體現(xiàn)了特征項(xiàng)在文檔中的重要程度。這樣文檔D的向量可以表示為D(wn1,wn2,…,wnm)，其中w1,w2,…,wm分別代表文檔D特征項(xiàng)t1,t2,…,tn的特征項(xiàng)權(quán)重。自動(dòng)標(biāo)引中的詞語(yǔ)加權(quán)方案（1）絕對(duì)詞頻法根據(jù)每個(gè)詞在特定文檔（集合）中的出現(xiàn)頻次來(lái)確定該詞重要程度的一種方法，最早有盧恩提出。基本原理給定一個(gè)由N篇文檔組成的文檔集合，計(jì)算出每篇文檔中每個(gè)不同的詞的出現(xiàn)次數(shù)。把每個(gè)不同的詞在N篇文檔的出現(xiàn)次數(shù)相加，得到詞K的集合頻率。按集合頻率遞減順序排列這些詞，并確定高頻詞和低頻詞的閾值。挑選剩下的中頻詞作為標(biāo)引詞，并按照他們?cè)谙鄳?yīng)文檔的出現(xiàn)頻次確定權(quán)重。缺點(diǎn)是什么？（2）逆文檔頻率法英文InverseDocumentFrequency,基于以下假設(shè)：某詞的重要性與它在特定文檔中的出現(xiàn)次數(shù)成正比，與含有該詞的文檔數(shù)成反比。詞頻加逆文檔詞頻確定權(quán)值的方法得到了廣泛的應(yīng)用。2.3.1向量模型的描述根據(jù)TF-IDF公式，文檔集中包含某一詞條的文檔越多，說(shuō)明它區(qū)分文檔類別屬性的能力越低，其權(quán)值越??；另一方面，某一文檔中某一詞條出現(xiàn)的頻率越高，說(shuō)明它區(qū)分文檔內(nèi)容屬性的能力越強(qiáng)，其權(quán)值越大。2.3.1向量模型的描述5）提問(wèn)向量：用屬性向量表示特定提問(wèn)式：Q=（q1,q2,…qm）,其中qj（j=1，2，…,m）,表示提問(wèn)中含有集合A中屬性的程度，規(guī)定Q包含屬性aj，則qj=1，否則qj=0。2.3.1向量模型的描述6）相似度S(Similarity)：指兩個(gè)文檔內(nèi)容相關(guān)程度的大小,當(dāng)文檔以向量來(lái)表示時(shí)，可以使用向量文檔向量間的距離來(lái)衡量,一般使用內(nèi)積或夾角θ的余弦來(lái)計(jì)算,兩者夾角越小說(shuō)明相似度越高。2.3.1向量模型的描述圖2-1文檔相似度表示舉例：計(jì)算相似度1.00.80.60.40.20.80.60.40.201.0D1QTermBDi=(di1,wdi1;di2,wdi2;…;dit,wdit)Q=(qi1,wqi1;qi2,wqi2;…;qit,wqit)Q=(0.4,0.8)D1=(0.8,0.3)D2=(0.2,0.7)2.3.2向量模型的特點(diǎn)1）優(yōu)點(diǎn)：更深刻和準(zhǔn)確地描述出文獻(xiàn)之間的關(guān)系；檢索基于聚類文檔，即通過(guò)計(jì)算文獻(xiàn)之間的相關(guān)系數(shù)，使屬性相似的文獻(xiàn)盡量聚集在一起，提高了檢索效率；采用部分匹配策略及排序輸出原理，提高了檢索的靈活性；通過(guò)相應(yīng)反饋技術(shù)自動(dòng)修正提問(wèn)向量，改進(jìn)檢索結(jié)果。2）向量模型的不足：每篇文獻(xiàn)主題詞數(shù)量一致，反映不了文獻(xiàn)信息量的差異；提問(wèn)向量和文獻(xiàn)向量一致，不符合用戶檢索習(xí)慣；計(jì)算相關(guān)系數(shù)工作量大，且標(biāo)引詞的權(quán)值難以確定；標(biāo)引詞兩兩正交的假設(shè)過(guò)于僵硬等。由于向量模型要求條件高，目前使用的并不多。2.3.2向量模型的特點(diǎn)2.4概率模型2.4.1概念及原理利用概率論的原理，通過(guò)賦予標(biāo)引詞概率值來(lái)表示這些詞在相關(guān)文獻(xiàn)集合或無(wú)關(guān)文獻(xiàn)集合中的出現(xiàn)概率，然后計(jì)算某一給定文獻(xiàn)與某給定提問(wèn)相關(guān)的概率。最后系統(tǒng)據(jù)此做出檢索決策。概率標(biāo)引理論的基礎(chǔ)是對(duì)標(biāo)引詞加權(quán)并利用權(quán)值來(lái)計(jì)算文獻(xiàn)的相關(guān)值，即滿足給定提問(wèn)的概率值。發(fā)展出三種模型

模型1Maron（馬龍）andKuhns（庫(kù)恩）1960年提出概率標(biāo)引理論：給定某一文獻(xiàn)D，對(duì)某一標(biāo)引詞來(lái)說(shuō)，標(biāo)引員要做這樣的判斷，如果某一個(gè)類型用戶B判定D為相關(guān)，且在提問(wèn)式中只用一個(gè)詞，那他選擇該詞的概率有多大。

模型2Robertson&SparckJones基本思想：標(biāo)引階段不對(duì)標(biāo)引詞進(jìn)行加權(quán)，而是在檢索階段才導(dǎo)入概率檢索機(jī)制。檢索作業(yè)重復(fù)若干次，每重復(fù)一次，用戶就對(duì)檢出文獻(xiàn)進(jìn)行相關(guān)性判斷，然后利用這種反饋信息，根據(jù)每個(gè)詞在相關(guān)文獻(xiàn)集合和無(wú)關(guān)文獻(xiàn)集合中的分布情況來(lái)計(jì)算他們的相關(guān)概率。模型3同時(shí)做出兩種預(yù)測(cè)，標(biāo)引員選詞標(biāo)引時(shí)要預(yù)測(cè)文獻(xiàn)對(duì)具有不同特性的用戶的相關(guān)概率，用戶選詞檢索時(shí)也要預(yù)測(cè)某詞對(duì)具有不同特性的文獻(xiàn)的相關(guān)概率2.4概率模型概率檢索模型有多種形式，常見(jiàn)的為第二概率檢索模型，首先設(shè)定標(biāo)引詞的概率值，一般是對(duì)檢索作業(yè)重復(fù)若干次，每一次檢索用戶對(duì)檢出文檔進(jìn)行相關(guān)性判斷。再利用這種反饋信息，根據(jù)每個(gè)詞在相關(guān)文檔集合和無(wú)關(guān)文檔集合的分布情況來(lái)計(jì)算它們的相關(guān)概率,將詞的權(quán)值設(shè)計(jì)為：2.4概率模型其中P，P′分別表示某詞在相關(guān)文檔集和無(wú)關(guān)文檔集中出現(xiàn)的概率。某一文檔的權(quán)值則是它所含的標(biāo)引詞權(quán)值之和，于是，文檔d與用戶查詢Q相關(guān)概率可定義為：

2.4概率模型其中pw和pw’分別為w在相關(guān)文檔和無(wú)關(guān)文檔中的概率。上式中右邊和式是對(duì)所有出現(xiàn)在文檔d和查詢Q中的詞w求和，即w∈d∩Q.概率模型有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ)，采用了相關(guān)反饋原理克服不確定性推理的缺點(diǎn)，它的缺點(diǎn)是參數(shù)估計(jì)的難度比較大，文件和查詢的表達(dá)也比較困難。2.4概率模型2.4.2特點(diǎn)

（1）概率檢索模型的主要優(yōu)點(diǎn)是：①它顯然注意到檢索決策是容易出錯(cuò)的，故采用了一種理論上更為嚴(yán)密的方式來(lái)進(jìn)行決策。②它容易與加權(quán)方法結(jié)合起來(lái)，為人們提供了一種理論基礎(chǔ)。③它不涉及布爾算符的使用，回避了構(gòu)造布爾提問(wèn)式的困難。④文獻(xiàn)可按用戶的期望值來(lái)排序輸出。⑤吸收了相關(guān)反饋原理，可開(kāi)發(fā)出理論上更為堅(jiān)實(shí)的方法。2.4概率模型（2）它的主要缺陷是：①布爾關(guān)系消失了(至少在早期的模型中是如此)，“AANDB”和“AORB”被視為等同。②增加了存儲(chǔ)和計(jì)算資源的開(kāi)銷。。③參數(shù)估計(jì)難度大。為此，人們提出了各種參數(shù)估計(jì)技術(shù)，如最大閾值估計(jì)法、相關(guān)反饋原理、最大熵原理等。2.5瀏覽模型瀏覽是一種交互檢索行為，用戶先瀏覽系統(tǒng)文獻(xiàn)，然后決定最終檢索結(jié)果。對(duì)于大多數(shù)檢索系統(tǒng)，用戶在檢索時(shí)都會(huì)表現(xiàn)出瀏覽行為，而不在乎系統(tǒng)的結(jié)構(gòu)如何。2.5.1含義基于瀏覽的檢索要求用戶處于結(jié)構(gòu)化數(shù)據(jù)庫(kù)中，用戶在對(duì)信息理解吸收的基礎(chǔ)上對(duì)數(shù)據(jù)庫(kù)進(jìn)行瀏覽。有效的瀏覽系統(tǒng)數(shù)據(jù)庫(kù)應(yīng)具備幾個(gè)條件：能使用戶把特定的信息需求定位在數(shù)據(jù)庫(kù)感興趣的文獻(xiàn)集合中。能使用戶在做進(jìn)一步檢索時(shí)意識(shí)到用合適的方法進(jìn)行查找。能確保用戶快速有效地瀏覽數(shù)據(jù)庫(kù)。2.5瀏覽模型2.5.2對(duì)靜態(tài)數(shù)據(jù)庫(kù)的瀏覽瀏覽靜態(tài)數(shù)據(jù)庫(kù)時(shí)，要確保數(shù)據(jù)庫(kù)結(jié)構(gòu)使用戶易于理解且能提供有效的屬性特征幫助用戶瀏覽。比如按概念等級(jí)或文獻(xiàn)登錄日期等組織信息。目前比較常用鄰近網(wǎng)絡(luò)相似度的方法，即在數(shù)據(jù)庫(kù)中瀏覽時(shí)，先從一個(gè)款目開(kāi)始，然后查找與其相似的其他所有款目，然后瀏覽最符合要求的信息。2.5瀏覽模型2.5瀏覽模型清華同方出品的“中國(guó)期刊網(wǎng)”，提供了按相似瀏覽的功能。這種結(jié)構(gòu)的數(shù)據(jù)庫(kù)為用戶提供空間角度瀏覽信息。同傳統(tǒng)等級(jí)式系統(tǒng)把檢索活動(dòng)僅限于在特定區(qū)域相比，該系統(tǒng)允許用戶進(jìn)行多方位瀏覽。瀏覽系統(tǒng)要求包含有豐富的交互式詞匯及聯(lián)想詞匯以幫助用戶獲取信息。鄰近網(wǎng)絡(luò)模型通過(guò)對(duì)數(shù)據(jù)庫(kù)中各款目創(chuàng)建網(wǎng)絡(luò)相關(guān)及創(chuàng)建不同網(wǎng)絡(luò)間相似度來(lái)達(dá)到豐富交互式詞匯及聯(lián)想詞匯的目的。收集的數(shù)據(jù)有兩種形式舉例：音像磁帶數(shù)據(jù)庫(kù)中有著者款目、出版商款目和出版年代款目。其他任何能描述文獻(xiàn)對(duì)象特征的都能成為一條款目。所有特征款目積聚起來(lái)就能構(gòu)成鄰近相關(guān)網(wǎng)絡(luò)。同時(shí)每個(gè)款目集能形成獨(dú)立的鄰近相關(guān)網(wǎng)絡(luò)。豐富的相關(guān)網(wǎng)絡(luò)集合能提供結(jié)構(gòu)化瀏覽。適當(dāng)?shù)木W(wǎng)絡(luò)集設(shè)計(jì)和相似度度量方法的設(shè)計(jì)是瀏覽模型研究的重點(diǎn)。鄰近相關(guān)網(wǎng)絡(luò)檢索策略彌補(bǔ)了簡(jiǎn)單檢索策略的不足。比如，如果用戶同時(shí)找到兩

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

第二章檢索模型

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

第二章 檢索模型

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

第二章檢索模型