版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
教學目的和要求:了解幾種基本的檢索模型第二章檢索模型主要內容:一布爾檢索模型二Fuzzysets模糊集合模型三向量空間檢索模型四概率檢索模型信息檢索的基本原理信息集合和需求集合的匹配和和選擇。(1)信息集合
文獻d,標引詞k,權重w(2)需求集合潛在真實需求(realinformationneed)意識到的需求(perceptioninformationneed)表達出來的需求(request)系統(tǒng)能夠接受理解的需求(query)(3)匹配(函數)信息檢索的原理2.1.1概念及原理布爾(Boolean)。布爾檢索模型采用布爾代數的方法,用布爾表達式表示用戶提問,通過對文獻表示與提問式的邏輯比較來檢索文獻。由于集合的定義是非常直觀,布爾模型提供了一個信息檢索系統(tǒng)和用戶容易掌握的框架。因而得到了廣泛的應用。2.1布爾檢索模型(1)每個文獻用一組標引詞表示例如,對于某一特定文獻i,可表示為:Di=(T1,T2,T3,…Tm)對于系統(tǒng)索引詞集合的每個索引詞在一篇文檔中只有兩種狀態(tài):出現或者不出現,布爾模型的基本原理(2)提問式用3種布爾邏輯算符連接而成。邏輯與:and邏輯或:or邏輯非:not布爾模型的基本原理CatCatORDogCatANDDog(CatAND
Dog)(CatANDDog)OR
Collar(CatANDDog)OR
(CollarANDLeash)(CatORDog)AND(CollarORLeash)布爾提問式BooleanQueries(CatORDog)AND(CollarORLeash)下面6篇文獻那篇是命中文獻123456Cat x x Dog x x Collar x x Leash x x 標引詞集合和提問式的匹配優(yōu)點:用戶可以按照自己習慣的思維方式用普通語言進行提問;將復雜的檢索過程簡單化,能夠將檢索提問按其概念組面的邏輯關系描述出來,從而變成計算機執(zhí)行的邏輯運算。自1967年被文獻檢索系統(tǒng)采用后,逐漸在信息檢索系統(tǒng)中得到廣泛的世紀應用。2.1布爾檢索模型缺點難以構造合適的檢索式;容易造成零輸出或輸出過量;不能區(qū)分各組配單元的重要程度;不能按照用戶定義的重要性排序輸出。2.1布爾檢索模型對每一個標引詞,都存在一個模糊的文獻集合與之相關。同時,對某一給定的標引詞,用某種隸屬函數去表示每一文獻與該詞相關的程度,在0-1之間取值。有關標引詞的模糊集和是在標引過程建立的。標引員不是簡單的把標引詞賦予文獻,還要指出標引詞與文獻的相關程度。當全部文獻標引完畢后,實際上就已經為每個標引詞定義了一種隸屬函數,指明了每一文獻與每個標引詞的相關程度。2.2模糊集合模型提問可以用布爾表達式表示,并指定所需文獻對每個標引詞的隸屬度。檢索過程中,模糊集合的運算根據扎德所定義的規(guī)則來進行,即將提問式“AANDB”轉換為“Wand—Min(a,b)”,“AORB”轉換為“Wor=Max(a,b)”。其中a和b分別為詞A和詞B的權值.Wand和Wor分別為上述兩個提問式的權值?!癗OTA”或“NOTB”的權值則定義為1-a或1一b。最后,將檢索結果按文獻的權值排序輸出。2.2模糊集合模型最早從事模糊集合模型研究的有C.V.內戈伊塔(Negoita)、V.塔哈尼(Tahani)和T·拉德基(Radecki)等人。內戈伊塔1973年就嘗試用模糊邏輯來解釋情報檢索原理。塔哈尼1976年提出了他的模型。由于系統(tǒng)中標引詞集合的容量可能很大,檢索過程要處理的項很多。為了節(jié)省處理時間,提高響應速度,拉德基等人提出為提問中每個詞選定一個閾值A(o≤A≤1),將小于A的項去掉,以簡化運算過程。2.2模糊集合模型假設有兩篇文獻和兩個檢索詞D1={(t1,0.5),(t2,0.3)}D2={(t1,0.9),(t2,0.1)}第一篇文獻和第一個檢索詞的相關度為0.5,和第二個詞的相關度為0.3如果要查找t1ort2,那么v(D1)=max(0.5,0.3)=0.5,v(D2)=max(0.9,0.1)=0.9D2會排在d1的前面。如果要查找t1andt2,v(D1)=mix(0.5,0.3)=0.3,v(D2)=mix(0.9,0.1)=0.1D1={(圖書館,.8),(自動化,.4)}D2={(圖書館,.5),(自動化,.6)}提問式=圖書館AND自動化V(D1)=MIN(.8,.4)=.4V(D2)=MIN(.5,.6)=.5D2isrankedbeforeD1intheresultset.請思考這種方式的優(yōu)缺點1)它與傳統(tǒng)的布爾檢索關系非常密切,保留了布爾檢索功能,且更靈活。所有能支持布爾檢索的理論,對它也同樣適用。能滿足那些既想利用布爾檢索的長處又想避免其二值相關性測度的局限性的人的需要。(2)文獻可按用戶定義的重要程度排序輸出。
2.2.2模糊集合模型的主要優(yōu)點(1)由于它建立在布爾檢索的框架內,故它也帶有傳統(tǒng)布爾模型的某些缺陷。(2)模糊集合的運算規(guī)則導致其排序能力不能全面反映標引詞的重要程度。例如,AandBD1:(A,0.8)(B,0.1),D2:(A,0.2)(B,0.1),哪篇文獻會排到前面?(3)定義隸屬函數,也是一個很棘手的問題?大家思考隸屬函數可以從哪些方面著手2.2.3模糊集合模型的主要缺點又稱為代數模型,是檢索系統(tǒng)所有數學模型中最有創(chuàng)造性、最能揭示文獻之間的關系。20世紀70年代中期由杰拉爾德.索頓提出了檢索系統(tǒng)的代數模型,定義了文獻向量、提問向量、文獻提問相關系數以及屬性-文獻相關矩陣、屬性相關矩陣、文獻相關矩陣等概念。
2.3向量模型2.3.1向量模型的描述1)文檔D(Document):也稱文獻向量,泛指文檔或文檔中的一個片段(如文檔中的標題、摘要、正文等)。2)特征項t(Term):也稱為屬性向量,指出現在文檔中能夠代表文檔性質的基本語言單位(如字、詞等),也就是通常所指的檢索詞。3)文獻向量的表示:這樣一個文檔D就可以表示為D(t1,t2,…,tn),其中n就代表了檢索字的數量。2.3.1向量模型的描述4)特征項權重Wk(TermWeight):指特征項tn能夠代表文檔D能力的大小,體現了特征項在文檔中的重要程度。這樣文檔D的向量可以表示為D(wn1,wn2,…,wnm),其中w1,w2,…,wm分別代表文檔D特征項t1,t2,…,tn的特征項權重。自動標引中的詞語加權方案(1)絕對詞頻法根據每個詞在特定文檔(集合)中的出現頻次來確定該詞重要程度的一種方法,最早有盧恩提出?;驹斫o定一個由N篇文檔組成的文檔集合,計算出每篇文檔中每個不同的詞的出現次數。把每個不同的詞在N篇文檔的出現次數相加,得到詞K的集合頻率。按集合頻率遞減順序排列這些詞,并確定高頻詞和低頻詞的閾值。挑選剩下的中頻詞作為標引詞,并按照他們在相應文檔的出現頻次確定權重。缺點是什么?(2)逆文檔頻率法英文InverseDocumentFrequency,基于以下假設:某詞的重要性與它在特定文檔中的出現次數成正比,與含有該詞的文檔數成反比。詞頻加逆文檔詞頻確定權值的方法得到了廣泛的應用。2.3.1向量模型的描述根據TF-IDF公式,文檔集中包含某一詞條的文檔越多,說明它區(qū)分文檔類別屬性的能力越低,其權值越??;另一方面,某一文檔中某一詞條出現的頻率越高,說明它區(qū)分文檔內容屬性的能力越強,其權值越大。2.3.1向量模型的描述5)提問向量:用屬性向量表示特定提問式:Q=(q1,q2,…qm),其中qj(j=1,2,…,m),表示提問中含有集合A中屬性的程度,規(guī)定Q包含屬性aj,則qj=1,否則qj=0。2.3.1向量模型的描述6)相似度S(Similarity):指兩個文檔內容相關程度的大小,當文檔以向量來表示時,可以使用向量文檔向量間的距離來衡量,一般使用內積或夾角θ的余弦來計算,兩者夾角越小說明相似度越高。2.3.1向量模型的描述圖2-1文檔相似度表示舉例:計算相似度1.00.80.60.40.20.80.60.40.201.0D1QTermBDi=(di1,wdi1;di2,wdi2;…;dit,wdit)Q=(qi1,wqi1;qi2,wqi2;…;qit,wqit)Q=(0.4,0.8)D1=(0.8,0.3)D2=(0.2,0.7)2.3.2向量模型的特點1)優(yōu)點:更深刻和準確地描述出文獻之間的關系;檢索基于聚類文檔,即通過計算文獻之間的相關系數,使屬性相似的文獻盡量聚集在一起,提高了檢索效率;采用部分匹配策略及排序輸出原理,提高了檢索的靈活性;通過相應反饋技術自動修正提問向量,改進檢索結果。2)向量模型的不足:每篇文獻主題詞數量一致,反映不了文獻信息量的差異;提問向量和文獻向量一致,不符合用戶檢索習慣;計算相關系數工作量大,且標引詞的權值難以確定;標引詞兩兩正交的假設過于僵硬等。由于向量模型要求條件高,目前使用的并不多。2.3.2向量模型的特點2.4概率模型2.4.1概念及原理利用概率論的原理,通過賦予標引詞概率值來表示這些詞在相關文獻集合或無關文獻集合中的出現概率,然后計算某一給定文獻與某給定提問相關的概率。最后系統(tǒng)據此做出檢索決策。概率標引理論的基礎是對標引詞加權并利用權值來計算文獻的相關值,即滿足給定提問的概率值。發(fā)展出三種模型
模型1Maron(馬龍)andKuhns(庫恩)1960年提出概率標引理論:給定某一文獻D,對某一標引詞來說,標引員要做這樣的判斷,如果某一個類型用戶B判定D為相關,且在提問式中只用一個詞,那他選擇該詞的概率有多大。
模型2Robertson&SparckJones基本思想:標引階段不對標引詞進行加權,而是在檢索階段才導入概率檢索機制。檢索作業(yè)重復若干次,每重復一次,用戶就對檢出文獻進行相關性判斷,然后利用這種反饋信息,根據每個詞在相關文獻集合和無關文獻集合中的分布情況來計算他們的相關概率。模型3同時做出兩種預測,標引員選詞標引時要預測文獻對具有不同特性的用戶的相關概率,用戶選詞檢索時也要預測某詞對具有不同特性的文獻的相關概率2.4概率模型概率檢索模型有多種形式,常見的為第二概率檢索模型,首先設定標引詞的概率值,一般是對檢索作業(yè)重復若干次,每一次檢索用戶對檢出文檔進行相關性判斷。再利用這種反饋信息,根據每個詞在相關文檔集合和無關文檔集合的分布情況來計算它們的相關概率,將詞的權值設計為:2.4概率模型其中P,P′分別表示某詞在相關文檔集和無關文檔集中出現的概率。某一文檔的權值則是它所含的標引詞權值之和,于是,文檔d與用戶查詢Q相關概率可定義為:
2.4概率模型其中pw和pw’分別為w在相關文檔和無關文檔中的概率。上式中右邊和式是對所有出現在文檔d和查詢Q中的詞w求和,即w∈d∩Q.概率模型有嚴格的數學理論基礎,采用了相關反饋原理克服不確定性推理的缺點,它的缺點是參數估計的難度比較大,文件和查詢的表達也比較困難。2.4概率模型2.4.2特點
(1)概率檢索模型的主要優(yōu)點是:①它顯然注意到檢索決策是容易出錯的,故采用了一種理論上更為嚴密的方式來進行決策。②它容易與加權方法結合起來,為人們提供了一種理論基礎。③它不涉及布爾算符的使用,回避了構造布爾提問式的困難。④文獻可按用戶的期望值來排序輸出。⑤吸收了相關反饋原理,可開發(fā)出理論上更為堅實的方法。2.4概率模型(2)它的主要缺陷是:①布爾關系消失了(至少在早期的模型中是如此),“AANDB”和“AORB”被視為等同。②增加了存儲和計算資源的開銷。。③參數估計難度大。為此,人們提出了各種參數估計技術,如最大閾值估計法、相關反饋原理、最大熵原理等。2.5瀏覽模型瀏覽是一種交互檢索行為,用戶先瀏覽系統(tǒng)文獻,然后決定最終檢索結果。對于大多數檢索系統(tǒng),用戶在檢索時都會表現出瀏覽行為,而不在乎系統(tǒng)的結構如何。2.5.1含義基于瀏覽的檢索要求用戶處于結構化數據庫中,用戶在對信息理解吸收的基礎上對數據庫進行瀏覽。有效的瀏覽系統(tǒng)數據庫應具備幾個條件:能使用戶把特定的信息需求定位在數據庫感興趣的文獻集合中。能使用戶在做進一步檢索時意識到用合適的方法進行查找。能確保用戶快速有效地瀏覽數據庫。2.5瀏覽模型2.5.2對靜態(tài)數據庫的瀏覽瀏覽靜態(tài)數據庫時,要確保數據庫結構使用戶易于理解且能提供有效的屬性特征幫助用戶瀏覽。比如按概念等級或文獻登錄日期等組織信息。目前比較常用鄰近網絡相似度的方法,即在數據庫中瀏覽時,先從一個款目開始,然后查找與其相似的其他所有款目,然后瀏覽最符合要求的信息。2.5瀏覽模型2.5瀏覽模型清華同方出品的“中國期刊網”,提供了按相似瀏覽的功能。這種結構的數據庫為用戶提供空間角度瀏覽信息。同傳統(tǒng)等級式系統(tǒng)把檢索活動僅限于在特定區(qū)域相比,該系統(tǒng)允許用戶進行多方位瀏覽。瀏覽系統(tǒng)要求包含有豐富的交互式詞匯及聯(lián)想詞匯以幫助用戶獲取信息。鄰近網絡模型通過對數據庫中各款目創(chuàng)建網絡相關及創(chuàng)建不同網絡間相似度來達到豐富交互式詞匯及聯(lián)想詞匯的目的。收集的數據有兩種形式舉例:音像磁帶數據庫中有著者款目、出版商款目和出版年代款目。其他任何能描述文獻對象特征的都能成為一條款目。所有特征款目積聚起來就能構成鄰近相關網絡。同時每個款目集能形成獨立的鄰近相關網絡。豐富的相關網絡集合能提供結構化瀏覽。適當的網絡集設計和相似度度量方法的設計是瀏覽模型研究的重點。鄰近相關網絡檢索策略彌補了簡單檢索策略的不足。比如,如果用戶同時找到兩
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025勞務合同的格式2
- 2025購房轉讓合同范文
- 2025工程車輛運輸合同
- 2025年塑鋼窗生產廢棄物處理與資源化利用合同2篇
- 2025年度農機銷售與農業(yè)信息化服務合同3篇
- 2025年度智慧城市交通管理系統(tǒng)公司成立協(xié)議書規(guī)范3篇
- 二零二五年度智慧醫(yī)療平臺全新合作協(xié)議3篇
- 二零二五年度公司單位員工勞動合同解除與賠償標準3篇
- 2025年度婚姻財產分配與子女權益保障協(xié)議3篇
- 二零二五年度建筑工程環(huán)境保護三方合同3篇
- 2024-2025學年蘇教版四年級上冊期末自主測試數學試卷(一)(含答案解析)
- 2024公安機關人民警察高級執(zhí)法資格考試題及答案
- 2023-2024學年云南省昆明市五華區(qū)八年級(上)期末物理試卷
- 陜西省渭南市2023-2024學年七年級上學期期末考試數學試題(含答案)2
- 小班班本課程《吃飯這件小事》
- 廢棄催化劑中貴金屬的回收
- 期末 (試題) -2024-2025學年譯林版(三起)(2024)英語三年級上冊
- 高職計算機專業(yè)《Web前端開發(fā)技術》說課稿
- 【獨立儲能】山西省獨立儲能政策及收益分析-中國能建
- 中東及非洲沖擊式破碎機行業(yè)現狀及發(fā)展機遇分析2024-2030
- 工程制圖(中國石油大學(華東))智慧樹知到期末考試答案章節(jié)答案2024年中國石油大學(華東)
評論
0/150
提交評論