




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
2、7信息檢索(二)1、信息檢索模型(原理)2、信息檢索方法?信息組織檢索二1、信息檢索模型(information
retrieval
model)·
實現(xiàn)信息檢索,就是要實現(xiàn)用戶查詢和文檔集文檔相似性匹配。檢索系統(tǒng)采用的查詢和文檔集內(nèi)部表示、相似匹配的方式?jīng)Q定所采用的檢索策略和模式,從而引出各種不同的信息檢索模型(informationretrieval
model)。?信息組織檢索二·
一個信息檢索模型是將文檔表示、查詢以及它們之間的關(guān)系進(jìn)行建模的框架,它由一個三元組表示:F
[
D,
Q,
R
(
q
i
d
j
)
]其中,D是文檔的表示,Q是查詢的表示。
R
(q
i
d
j
)
是一個排序函數(shù),該函數(shù)輸出一個與查詢表示
q
i
∈
Q
和
d
j
∈D的有關(guān)實數(shù)。這樣就在文檔之間根據(jù)查詢
q
I
定義了一個順序。?信息組織檢索二按照相似匹配度模式的不同可以分為:全文(full-text)檢索內(nèi)容(content-based)檢索全文檢索——以從文本中找出與查詢表示的字符串完全一致的部分為目的,檢索結(jié)果為包含查詢字符串的文本及其位置。內(nèi)容檢索——不必像全文檢索那樣進(jìn)行完全一致的匹配,而是著眼于找出與查詢語義相似的文本。?信息組織檢索二2、內(nèi)容檢索模型
提取一組描述文本內(nèi)容的詞匯,稱為索引項(term),用索引項的出現(xiàn)次數(shù)等來表示文本和查詢請求。
計算文本和查詢請求間的相似度并依據(jù)大小排序輸出檢索結(jié)果。?信息組織檢索二內(nèi)容檢索的模型有:?信息組織檢索二·
向量空間模型(vector
space
model)概率模型(probabilistic
model)網(wǎng)絡(luò)模型(network
model)向量空間模型:?信息組織檢索二向量空間模型是Gerard
Stalton等人在SMART系統(tǒng)中采用的模型,在信息檢索領(lǐng)域為人們所熟知的一種傳統(tǒng)的檢索模型。向量空間模型的最大特點是用多維向量表示文檔和查詢,通過計算向量間的相似度實現(xiàn)文檔的相似檢索。涉及向量、矩陣、向量空間等線性代數(shù)知識?!ぴO(shè)矩陣D為索引項-文本矩陣。其中各列是表示文本信息的文本向量,各行是表示索引項信息的索引項向量(其中索引項是經(jīng)過權(quán)重處理的元素)d11
d12…
d1nD
=
[
d1
d2
…dn]
=d21
d22
…
d2ndm?1信息d組m織2
…檢索二dmn·
查詢語句與文本相同也用索引項權(quán)重為元素的向量表示。查詢向量
q表示如下:·q1q
=
q2q3qm?信息組織檢索二·
檢索時,找出與給定的查詢語句相似的文本,這是通過計算查詢向量q與各個文本向量d
J
間的相似度實現(xiàn)的。?信息組織檢索二·
向量間相似度的計算方法有多種,文本檢索中最常使用的是計算余弦和內(nèi)積的相似度。計算兩個向量夾角的余弦函數(shù):?信息組織檢索二其它信息檢索數(shù)學(xué)模型?信息組織檢索二概率模型網(wǎng)絡(luò)檢索模型推理網(wǎng)絡(luò)模型信念網(wǎng)絡(luò)模型·
遺傳算法(Holland,1975):交叉、變異、選擇·
粗糙集(
Pawlak,
1980s
): 模糊性和不確定性3、其他信息檢索的相關(guān)技術(shù)?信息組織檢索二1)信息過濾:從大量的信息中提取有用的信息,去除無用的信息。當(dāng)新的文檔加入到系統(tǒng)中時,只提取符合用戶需求的信息,去除不符合的信息。在信息過濾系統(tǒng)中,把檢索需求稱為用戶描述,把不斷產(chǎn)生的新信息成為信息流。過濾系統(tǒng)根據(jù)用戶描述文件選擇用戶感興趣的信息,刪除用戶不需要的信息。過濾系統(tǒng)內(nèi)部表示內(nèi)部表示內(nèi)部表示匹配內(nèi)部表示新產(chǎn)生的文檔信息流用戶描述1用戶描述2用戶描述N與用戶描述1相關(guān)的文檔與用戶描述2相關(guān)的文檔與用戶描述3相關(guān)的文檔?信息組織檢索二2)文本自動分類:?信息組織檢索二為了對大規(guī)模的文檔進(jìn)行分類,需要由計算機(jī)進(jìn)行自動處理,稱為文本自動分類。大致分為兩種:一種是按照預(yù)先設(shè)定文本內(nèi)容的類別(如政治、經(jīng)濟(jì)、科學(xué)等),確定文本內(nèi)容屬于哪一類,將文本放到所屬的類別中。一種是通過將相似的文本歸為一組(聚類)的方法,把全體文檔集合分為若干類?!?/p>
文本自動分類原理為計算兩個文本間的相似度,或文本與文本類別間的相似度,所以基本上可以采取與信息檢索相似的技術(shù)實現(xiàn)。如基于向量空間模型的方法;基于規(guī)律模型的方法;基建于規(guī)則和基于識別學(xué)習(xí)的方法等。?信息組織檢索二3)信息抽取?信息組織檢索二信息抽取系統(tǒng)的重要功能是從文檔中抽取出特定的事實信息。例如:從新聞報道中抽取恐怖時間的詳細(xì)情況,如時間、地點、做案者、襲擊目標(biāo)等。被抽取出來的信息以結(jié)構(gòu)化的形式描述,可以直接存入數(shù)據(jù)庫中,供用戶查詢以及進(jìn)一步分析。因此可以把信息抽取系統(tǒng)看做是把不同文檔中的信息轉(zhuǎn)換成數(shù)據(jù)庫記錄的系統(tǒng)。
近年來,信息抽取的處理對象已經(jīng)擴(kuò)展到圖像、視頻、音頻等其他媒體類型的數(shù)據(jù)。
目前的研究側(cè)重于:利用機(jī)器學(xué)習(xí)技術(shù)增強(qiáng)系統(tǒng)的可移植能力、探索深層理解技術(shù)、篇章分析技術(shù)、多語言文本處理技術(shù)、Web信息抽取等。?信息組織檢索二·
信息抽取技術(shù)對搜索引擎、信息安全、企業(yè)智能信息系統(tǒng)等許多應(yīng)用領(lǐng)域具有相當(dāng)重要的作用。·
至今,已有不少公司以信息抽取技術(shù)產(chǎn)品為主。?信息組織檢索二四、信息檢索的主要方法常規(guī)法回溯法循環(huán)檢索法?信息組織檢索二常規(guī)檢索法——?信息組織檢索二
以主題、分類、作者等為檢索點,利用檢索工具獲得信息的方法。利用此法要熟悉主要的檢索工具的編排體例和作用。根據(jù)檢索要求常規(guī)法又分為:順查法、倒查法、抽查法?;厮莘ā?信息組織檢索二·
又稱追溯法、引文法。以文獻(xiàn)后面所附的參考文獻(xiàn)為線索,逐一追溯查找相關(guān)文獻(xiàn)的方法。該法獲得文獻(xiàn)的針對性比較強(qiáng),尤其在沒有檢索工具或檢索工具不齊備的情況下較實用。循環(huán)檢索法——?信息組織檢索二·
又稱交替法、綜合法。即利用回溯法和常規(guī)法交替檢索的方法。先利用檢索工具查找,得出一批相關(guān)
文獻(xiàn),再利用回溯法按所附參考文獻(xiàn)擴(kuò)大檢索線索。2、文本信息檢索技術(shù)?信息組織檢索二對文本信息進(jìn)行查詢,主要技術(shù)包括:——
布爾檢索——
截詞檢索——
短語檢索——
限制檢索等。布爾檢索——“邏輯與”?信息組織檢索二運算符為“AND”,常用來限定多義詞,進(jìn)行縮檢,提高查準(zhǔn)率。制定A
AND
B的檢索式,只能檢出同時含有A和B的信息資源。即連接的兩個檢索詞必須同時出現(xiàn)在結(jié)果中。幾乎所有的網(wǎng)檢工具都允許使用AND運算符構(gòu)筑檢索式。AB?信息組織檢索二布爾檢索——“邏輯或”?信息組織檢索二
運算符“OR”、或“+”號表示。常用來限定同義詞,擴(kuò)大檢索范圍,提高查全率。
制定“A
OR
B”檢索式,可以檢出含有A或B以及
同時含有A和B的資源。既連接的兩個詞只要其中的任何一個出現(xiàn)在檢索結(jié)果中,就算滿足檢索要求。AOR
BAB?信息組織檢索二布爾檢索——“邏輯非”?信息組織檢索二一般用“NOT”或“—”表示,常用于排除詞間的虛假聯(lián)系,進(jìn)行縮檢。幾乎所有網(wǎng)檢工具都允許使用NOT運算符,而
LookSmart站點不允許使用。A
NOT
BB?信息組織檢索二布爾邏輯檢索舉例:?信息組織檢索二已有文件為:D1
full
text
searchD2
inverted
index
fileD3
sequential
search
algorithmD4
index
search
algorithmD5
information
retrieval
algorithm
當(dāng)給出查詢表達(dá)式“search
AND
algorithm”時,查找出的文本為:
當(dāng)給出查詢表達(dá)式為“search
OR
algorithm”時,可查出文本:
當(dāng)給出查詢表達(dá)式為“NOT
sequential”時,可查找出文本:?信息組織檢索二·
對運算符做復(fù)合運算時,可以形成更加復(fù)雜的查詢表達(dá)式。如:?信息組織檢索二“(NOT
sequential
)
AND
(search
OR
retrieval)
AND
algorithm”即“在包含search或retrieval的文本中,不存在
sequential,但必須有algorithm這一索引項的文本”運用邏輯優(yōu)先級NOT的優(yōu)先級最高,其次是AND,最后是OR。可以用括號改變運算順序。orandnot?信息組織檢索二2、截詞(truncation)檢索?信息組織檢索二
在檢索詞的詞干上加一個截詞符,以表示對該詞的各種詞性的完整詞進(jìn)行檢索。截詞符有時又稱為通配符,用:“*”“?”
表示。右截詞檢索——又稱“前方一致檢索”,允許詞尾有一定的變化。截詞符以“*”表示。如:檢索式“brows*”,可以檢索出browse,browser,browsing等。左截詞檢索——又稱“后方一致檢索”,允許詞前端有若干變化。如: 檢索式“*magnetic”,可以檢索出
electromagnetic、paramagnetic等。?信息組織檢索二中間截詞檢索?信息組織檢索二
又稱“屏蔽”。允許檢索詞中間某個字符有變化(英美單詞拼寫差異或單復(fù)數(shù)的不同等)。如:
檢索式“organi?ation”,可以檢索出organization,organisation等。
截詞實際上是一種隱含的“邏輯或”運算,能提高查全率,擴(kuò)大檢索結(jié)果。按截斷的字符數(shù)量分為有限截詞、無限截詞兩種。有限截詞——將n個“?”放在檢索詞干或詞尾可能變化的位置上,表示截詞的位數(shù)為0—n個字符。如在詞尾,在n個“?”或“*”后空一格再加一個“?”,表示停止符。無限截詞——在檢索詞干后加一個“?”或“*”,表示該詞尾允許變化的字符數(shù)不受任何限制。?信息組織檢索二3、短語檢索?信息組織檢索二·
單純依靠布爾邏輯組配檢索難以滿足某些檢索需求,在高查準(zhǔn)率的要求下,需要使用專門的運算符把多
個檢索詞組成特定的短語,或?qū)Ω鱾€檢索詞在檢索
結(jié)果中出現(xiàn)的相對位置進(jìn)行限定,才能較好地完成
檢索任務(wù)。短語檢索——也稱詞組檢索,或字符串檢索·
是一種固定詞組檢索。其方法是,在檢索的屏幕上選擇[短語檢索]或[Phrase
Search]等按鈕。或者使用引號“”作為一個獨立運算單元,就可以實施短語檢索,以提高檢索準(zhǔn)確度。?信息組織檢索二·
如:檢索式“北京大學(xué)”,?信息組織檢索二要求檢索結(jié)果僅為“北京大學(xué)”這個詞組的內(nèi)容,而不包括諸如“北京工業(yè)大學(xué)”、“位于北京西郊的大學(xué)”、“北京的大學(xué)校園文化”等內(nèi)容的信息。·
幾乎所有的搜索引擎都支持詞組檢索。位置檢索?信息組織檢索二位置檢索是通過位置算符進(jìn)行的。
位置算符是指表示詞與詞之間位置關(guān)系的符號。其作用在于對復(fù)合檢索詞進(jìn)行加工修飾,限制詞與詞之間的位置關(guān)系,彌補(bǔ)了布爾邏輯算符只是定性規(guī)定檢索詞的范圍,可提高檢索結(jié)果的查準(zhǔn)率。常用的幾種位置算符:?信息組織檢索二1、(W)2、(nW)3、(N)4、(nN)5、(S)6、(F)7、(C)8、(L)(W)——with的縮寫。表示算符兩側(cè)的檢索詞按此前后順序不可變更,且兩詞之間不許有其他的詞或字母,但允許兩詞之間有空格、標(biāo)點符號。如:CD(W)ROM相當(dāng)于檢索CD
ROM,或CD-ROM。?信息組織檢索二·
(nW)——n
Word的縮寫。表示算符兩側(cè)的檢索詞之間允許插入n個實詞或系統(tǒng)禁用詞(通常指系統(tǒng)中出現(xiàn)頻率高而不能用來檢索的冠詞、介詞、連接詞等,如an,
and,by,
for,
form,
of,
the,
to
,wit等),兩詞詞序不可變更。?信息組織檢索二·
(N)——Near的縮寫。表示算符兩側(cè)的檢索詞必須緊密相連,兩詞詞序可變,詞間不允許插入任何其他詞或字母,但允許有空格或標(biāo)點符號。?信息組織檢索二·
(nN)——表示算符兩側(cè)的檢索詞之間允許插入n個實詞或系統(tǒng)禁用詞,兩詞詞序可變。如:Railway
(2N)
Bridge
表示:Railway
BridgeRailway
of
BridgeRailway of
the
Bridge等。?信息組織檢索二·
(S)——Subfield的縮寫。表示算符兩側(cè)的檢索詞必須同時出現(xiàn)在文獻(xiàn)記錄的同一子字段、句子或短語中,詞間允許插入n個實詞或系統(tǒng)禁用詞,詞序可變。?信息組織檢索二·
(F)——Field的縮寫。表示算符兩側(cè)的檢索詞必須同時出現(xiàn)在文獻(xiàn)記錄的同一字段中,詞間允許插入n個實詞或系統(tǒng)禁用詞,詞序可變。如無需同時出現(xiàn)在篇名字段、文摘字段、敘詞字段、關(guān)鍵詞字段等,則要加以限定。?信息組織檢索二·
(C)——Citation的縮寫。表示算符兩側(cè)的檢索詞必須同時出現(xiàn)在一條文獻(xiàn)的記錄中,詞間允許插入n個實詞或系統(tǒng)禁用詞,詞序可變,字段不限。?信息組織檢索二·
(L)——Link的縮寫。表示算符兩側(cè)的檢索詞之間有一定的從屬關(guān)系。?信息組織檢索二6、限制檢索?信息組織檢索二·
目的在于提高檢索的準(zhǔn)確率。一般是通過限制檢索詞在命中結(jié)果記錄中的出現(xiàn)位置(主要指記錄的不同字段的位置)來實現(xiàn)的,這種限制檢索技術(shù)因此又被稱為“字段檢索”。在數(shù)據(jù)庫中,一條文獻(xiàn)記錄通常設(shè)置有幾十個不同的字段,其中有表達(dá)文獻(xiàn)主題的基本檢索字段,如:標(biāo)題(Title,TI)關(guān)鍵詞(
Keyword,KY)文摘(
Abstract,AB)分類號(
Classification
Code)等,?信息組織檢索二還有表示文獻(xiàn)外部特征的輔助檢索字段,如:作者(Author,AU)使用的語言(Language,LA)發(fā)表時間(Time)等。檢索時,可通過指定檢索詞在主題字段或非主題字段中的出現(xiàn)情況,即可實現(xiàn)“字段檢索”。如:“MBA
within
AB”,“title:北京”等。?信息組織檢索二·
限制檢索的另一種常見形式是“二次檢索”。即在檢索結(jié)果中再檢索。用戶可以把新一輪檢索限制在已檢得的結(jié)果中。許多檢索系統(tǒng)(包括搜索引擎)都支持這種限制檢索。?信息組織檢索二四、信息檢索效率評價?信息組織檢索二信息檢索效率是指信息檢索各項性能的滿意程度,主
要指標(biāo)有查全率、查準(zhǔn)率、漏查率、誤檢率4項指標(biāo)。這4項指標(biāo)于20世紀(jì)50年代由國
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 陜西省西安市碑林區(qū)西北工業(yè)大學(xué)附屬中學(xué)2024-2025學(xué)年高一上學(xué)期期末地理試題
- 青少年禁煙教育主題班會
- 高壓值班工作總結(jié)
- 預(yù)防誤吸安全宣教
- 關(guān)于心理的課件
- 確保學(xué)員成功的CFA試題及答案計劃
- 理解CFA的金融資產(chǎn)定價模型試題及答案
- 2024年CFA考試真題及試題及答案
- 債務(wù)結(jié)構(gòu)的優(yōu)化方案試題及答案
- 社會責(zé)任投資的理順技巧試題及答案
- 《人教版重點初中物理教材插圖改編試題及答案:8年級下》
- 關(guān)于我國垂直型政府審計體制改革的思路與建議工商管理專業(yè)
- 電子商務(wù)B2B模式-ppt課件
- 調(diào)研匯報玄武湖
- 操作系統(tǒng)信號量PV操作題若干
- 浙江工商大學(xué)畢業(yè)論文格式正文
- EBZ260M-2掘錨機(jī)的技術(shù)規(guī)格書
- 小學(xué)人教版六年級下冊第三單元作文:六年級下冊語文第三單元作文:我的理想作文800字
- 涵洞水力計算
- PCBA外觀檢驗標(biāo)準(zhǔn)_IPC-A-610E完整
- 新版《江蘇省建設(shè)工程驗收資料》分部分項檢驗批劃分文檔
評論
0/150
提交評論