醫(yī)藥信息檢索:第3章 檢索技術_第1頁
醫(yī)藥信息檢索:第3章 檢索技術_第2頁
醫(yī)藥信息檢索:第3章 檢索技術_第3頁
醫(yī)藥信息檢索:第3章 檢索技術_第4頁
醫(yī)藥信息檢索:第3章 檢索技術_第5頁
已閱讀5頁,還剩105頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、第3章 檢索技術3.1 傳統(tǒng)檢索技術3.2 現(xiàn)代檢索技術3.1 傳統(tǒng)檢索技術3.1.1 布爾檢索3.1.2 截詞檢索3.1.3 限制檢索3.1.4 位置檢索3.1.5 聚類檢索3.1.6 加權檢索3.1.7 擴展檢索3.1.8 反饋檢索3.1.1 布爾檢索布爾邏輯算符運算次序及注意事項算符AND(邏輯與):常用*來表示,相當于英文中“bothand”,要求AND所連接的檢索詞必須同時出現(xiàn)在一個記錄中。算符OR(邏輯或):常用+來表示,相當于英文“eitheror”,OR連接的檢索詞中有一個出現(xiàn)即為命中文獻。算符 NOT(邏輯非):常用-來表示,要求包含NOT所連接的左邊檢索詞而不包含其右檢索詞

2、的文獻為命中文獻。3.1.2 截詞檢索截詞(Truncation)檢索,就是把檢索詞截斷,取其中的一部分片段,再加上截詞符號一起輸入檢索,系統(tǒng)按照詞的片段與數(shù)據(jù)庫里的索引詞對比匹配,凡是包含這些詞的片段的文獻均被檢索出來。按截斷的位置分為前截斷、中截斷和后截斷。按截斷的字符數(shù)量分為有限截斷和無限截斷。 *,: (無限截詞符) comput* ?,# (有限截詞符) colo?r3.1.2 截詞檢索brows* 1. browse 2.browser 3.browsers 4.browsing brows*=1 OR 2 OR 3 OR 4 OR3.1.2 截詞檢索acid? acid acid

3、ic acids acidicity acidify acidity3.1.2 截詞檢索后截斷主要使用在以下四個方面:詞的單復數(shù),例如:book?, potato?年代,例如:199? 19?作者,例如:Lancaster*同根詞,例如:biolog*、physic*3.1.2 截詞檢索*magnetic electromagnetic paramagnetic thermomagnetic3.1.2 截詞檢索*chemi* chemical chemist chemistry electrochemical electrochemistry physicochemical physicoch

4、emistry thermochemical thermochemistry 3.1.2 截詞檢索defense defence defen?esulphur sulfur sul?urorganization organisation organi?ationwoman women wom?n3.1.3 限制檢索字段限制檢索二次檢索3.1.3 限制檢索3.1.3 限制檢索將檢索詞限定在某一個字段或某幾個字段的檢索。多數(shù)系統(tǒng)采用“檢索詞 in 字段標識”的輸入格式進行字段限定 例如:leukemia in ti 有些限制字段也可采用“字段標識=檢索詞”的輸入格式 例如:la=chinese其他

5、格式:檢索詞字段標識(PubMed) 例如:leukemiati 檢索詞.字段標識.(OVID) 例如:leukemia.ti. 位置檢索也稱為原文檢索,是一類針對自然語言文本中檢索詞與檢索詞之間特定位置關系而進行得檢索匹配技術。四個級別:同記錄同字段同句具體的詞位置3.1.4 位置檢索(W)與(nW)(N)與(nN)(S)(F)3.1.4 位置檢索WITH:同字段檢索 例如:smoking with lung-neoplasms 表示:要求smoking 與lung-neoplasms同 時出現(xiàn)在同一字段中,無論語序。NEAR:同句檢索(Same) 例如:dislexia nearn chi

6、ld 表示:要求dislexia與child同時出現(xiàn)同一句子中,無論語序,且兩者之間最多可以相隔n-1個單詞。ADJn:表示檢索結果中含有的兩個檢索詞必須相鄰,且兩個詞之間最多可插入n個詞。3.1.4 位置檢索W/ nn(相隔):表示檢索詞之間允許插入nn個其它詞,前后詞序可變。 一般來說,兩個檢索詞在同一個短語中,可用W/3, W/4, 或W/5;兩個檢索詞在同一個句子中,可用W/15;兩個檢索在同一個段落中,可用W/50。如:pain W/15 morphine。PRE/nn(鄰接):表示兩個詞前后順序不變,而且兩個詞之間相隔nn個以內(nèi)的詞。 如:behavior PRE/3 distur

7、bances。3.1.4 位置檢索3.1.5 聚類檢索1.定義 文獻聚類是指針對對系統(tǒng)中的全部和文獻向量,使用一定的相似性度量指標和聚類方法,計算出文獻與文獻之間的相似度,并把相似度較高的文獻聚集在一起,形成一個個的文獻類目,進而生成文獻的聚類文檔。2. 聚類與分類的聯(lián)系與區(qū)別聯(lián)系:均基于類的思想?yún)^(qū)別:分類檢索式基于分類法,它的類目體系主要是先組式先的、有系統(tǒng)性的、類目和文獻之間具有相對獨立性;而聚類檢索則是先有文獻后有類,類的性質(zhì)及整個類目體系完全由系統(tǒng)中的文獻所決定。 從類目的形成過程上看,分類過程是從總到分,而聚類卻通常表現(xiàn)為從分到總的。 3.1.6 加權檢索 加權檢索是某些檢索系統(tǒng)中提

8、供的一種定量檢索技術。加權檢索同布爾檢索、截詞檢索等一樣,也是文獻檢索的一個基本檢索手段,但與它們不同的是,加權檢索的側重點不在于判定檢索詞或字符串是不是在數(shù)據(jù)庫中存在、與別的檢索詞或字符串是什么關系,而是在于判定檢索詞或字符串在滿足檢索邏輯后對文獻命中與否的影響程度。 加權檢索的基本方法是:在每個提問詞后面給定一個數(shù)值表示其重要程度,這個數(shù)值稱為權,在檢索時,先查找這些檢索詞在數(shù)據(jù)庫記錄中是否存在,然后計算存在的檢索詞的權值總和。權值之和達到或超過預先給定的閾值,該記錄即為命中記錄。 運用加權檢索可以命中核心概念文獻,因此它是一種縮小檢索范圍提高檢準率的有效方法。但并不是所有系統(tǒng)都能提供加權

9、檢索這種檢索技術,而能提供加權檢索的系統(tǒng),對權的定義、加權方式、權值計算和檢索結果的判定等方面,又有不同的技術規(guī)范。3.1.7 擴展檢索系統(tǒng)基于詞表,自動或半自動地對多個檢索詞執(zhí)行邏輯或(OR)的檢索?;谠~表的擴展檢索(Explode)主要有下位詞擴展檢索、同義詞擴展檢索等功能。3.1.8 相關反饋技術在檢索過程中如果發(fā)現(xiàn)某一檢索結果非常符合自己的需要,則希望進一步檢索到與該結果類似的信息,這就是相關信息反饋檢索。在數(shù)據(jù)庫檢索和網(wǎng)絡信息檢索中,相關信息反饋檢索由檢索系統(tǒng)自動進行,例如PubMed的“Related Articles”、Google的“Similar Pages”、“Web o

10、f Science”中的“Related Records”。利用相關反饋檢索獲得的檢索結果,像滾雪球似的越檢越多。但其效果有賴于第一次檢索的結果。3.2 現(xiàn)代檢索技術3.2.1 全文檢索技術3.2.2 超文本檢索技術3.2.3 多媒體檢索技術3.2.4 分布式信息檢索技術3.2.5 跨語言信息檢索技術3.2.1 全文檢索技術1.全文檢索系統(tǒng)及其功能2.全文檢索系統(tǒng)的實現(xiàn)技術3.全文檢索系統(tǒng)存在的問題及解決方法 4.全文檢索系統(tǒng)的發(fā)展 全文檢索以全文數(shù)據(jù)庫存儲為基礎。所謂全文數(shù)據(jù)庫即是將一個完整的信息源的全部內(nèi)容轉(zhuǎn)化為計算機可以識別、處理的信息單元而形成的數(shù)據(jù)集合。而且,全文檢索系統(tǒng)還必須對全文

11、數(shù)據(jù)庫進行詞(字)、句、段落等更深層次的編輯、加工,同時,允許用戶采用自然語言表達,借助截詞、鄰詞等匹配方法直接查閱文獻原文信息。 全文檢索系統(tǒng)的基本功能可以從系統(tǒng)設計與檢索兩個方面看:系統(tǒng)設計角度(1)全文本規(guī)模的處理功能,包括:全文本的標引、抽詞、排序及索引編制;(2)設置二級檢索機制,其中第一級滿足作為標引詞的檢索,查找模式為布爾邏輯檢索;第二級檢索為二次檢索,其對象可以是未經(jīng)標引的詞或字符串,采用順序掃描方式,找出與輸入詞匹配的段落或記錄;(3)具備二級詞表機制,即關鍵詞表與后控詞表。前者利用文本中已有標識,通過加注標引,提取關鍵詞的詞表形式顯示出來;后者由專家事先準備,由系統(tǒng)自動捕捉

12、,在自然語言標引的同時備有后控詞表機制,滿足族性檢索要求。(4)多級輸出方式,即屏幕顯示、打印機打印、機讀形式數(shù)據(jù)的套錄,甚至可以配備格式化語言供用戶控制輸出格式等。 全文檢索系統(tǒng)的基本功能可以從系統(tǒng)設計與檢索兩個方面看:從檢索角度看(1)內(nèi)容與外表特征組合檢索,即滿足某一外部特征或某一內(nèi)容特征的單獨檢索,也可以是兩種特征的組合檢索,還可以進行外部特征和內(nèi)容特征各自之間或更多組合的檢索;(2)全文分類專題檢索和二次檢索,即用戶可以在某一分類專題表中選擇專題號進行檢索,凡被賦予該號的文獻均被命中輸出;還可以在專題檢索基礎上進行二次檢索,即由用戶通過輸入的某一關鍵詞,利用在專題檢索中獲得的有限文獻

13、集合內(nèi)直接進行文中的掃描匹配檢索; 全文檢索系統(tǒng)的基本功能可以從系統(tǒng)設計與檢索兩個方面看:從檢索角度看(3)全文關鍵詞單漢字檢索,即當用戶需要檢索的關鍵詞未在標引短句庫和后控制詞表中出現(xiàn)時,可以通過全文關鍵詞單漢字檢索,將所包含關鍵詞的文獻檢索出來;(4)位置限定檢索,即包括同句、同段、同篇位置的限定檢索;(5)后控詞表檢索,是指具備后控關鍵詞智能檢索及后控關鍵詞分類檢索的功能。3.2.1 全文檢索技術1.全文檢索系統(tǒng)及其功能2.全文檢索系統(tǒng)的實現(xiàn)技術3.全文檢索系統(tǒng)存在的問題及解決方法 4.全文檢索系統(tǒng)的發(fā)展 全文檢索系統(tǒng)的基本問題是怎么處理全文本數(shù)據(jù),即如何在計算機中存儲表示各個知識項。通

14、常進行的“全文分割處理”或“電子文本格式化”就屬于這一范疇,這涉及到全文檢索系統(tǒng)在概念層次上的構建模型。關系型全文檢索系統(tǒng) 關系模型用于處理結構化、線性的數(shù)據(jù),表示實體與實體之間的聯(lián)系。它采用表格表示數(shù)據(jù),表達模型簡單,易于處理,由此構建的數(shù)據(jù)庫即是關系型數(shù)據(jù)庫。 針對全文文獻固有的多樣性、結構的不規(guī)范性、篇幅的大小不一等特點,目前在構建關系型全文檢索系統(tǒng)時有如下幾種選擇: (1)從文本內(nèi)容出發(fā),將文本中相對獨立、完整的內(nèi)容單元作為一個記錄單位,如一個標題下的文本作為一條記錄,一個小節(jié)作為一個記錄,一個百科全書條目作為一個記錄單元等,除人工加注標識符外,行之有效的途徑是由軟件自動識別印刷文本中

15、的特殊排版符,抽取所需字段入庫; (2)從文本外部形式劃分自然段,一個自然段作為一個記錄。此方法簡單,由計算機自動完成,但缺點是不能將一個前后彼此相關聯(lián)的有始而終的事件有機地結合在一起,容易造成分割現(xiàn)象,甚至斷章取義。因此,關系型數(shù)據(jù)格式化的優(yōu)化方案是上述兩種選擇的結合。層次型全文檢索系統(tǒng) 全文本文獻有著復雜的層次結構體系。如在一篇文章中的每個標題之下可以派生出若干子標題,每個標題又有多個觀點等,常見的自然段劃分就是層次結構最明顯的反映。全文數(shù)據(jù)適合于用層次模型描述,可以將層次模型組織的全文檢索系統(tǒng)的數(shù)據(jù)結構分為三種類型:邏輯文檔、文本文檔、倒排文檔。 邏輯文檔用于提取整個文本的框架,便于向上

16、、下、平行移動,以確保文本在顯示過程中的連續(xù)性,即實際上的瀏覽性文本。文本文檔存儲文獻的內(nèi)容,如以ASCII碼源文本的形式存在,根據(jù)邏輯文檔中的位置指針建立起邏輯文檔與文本文檔之間的聯(lián)系。倒排文檔決定層次模型的檢索機制。 面向?qū)ο蟮娜臋z索系統(tǒng)(1)支持不同層次的數(shù)據(jù)抽象概念化,可將特定數(shù)據(jù)模型或類型的所有操作集中起來,增加數(shù)據(jù)庫的模塊化程度,易于理解一類對象的共同性質(zhì);(2)支持繼承性,即一個類可以成為另一個類的子類,因而不僅繼承了超類的所有特性,同時可以定義自己的特性,由此,方便地形成樹型結構的層次體系;(3)支持多繼承性,即允許對象屬于不同的類,即任意類的交叉。這一特點在結構中表現(xiàn)為每個

17、節(jié)點允許多個交節(jié)點的存在;(4)允許對象間通過定義適當?shù)倪^程和消息來表達相互間的復雜關系。 可見,對象模型是一種以自然的方式再現(xiàn)客觀世界中事物的邏輯關系,直觀顯示文獻數(shù)據(jù)庫極為復雜的層次結構體現(xiàn),目前面向?qū)ο蟮姆椒ㄕ挥糜诔谋鞠到y(tǒng)的研制中。只有借助超文本技術,才能研制出集關系模型、層次模型、對象模型的一體化的全文檢索系統(tǒng)。 自動標引技術(1)計算機輔助標引:人工為主、計算機為輔 (2)詞典標引 :主題詞表法、部件詞典法(3)單漢字標引:單漢字機助標引、單漢字位置標引、首字直接匹配法3.2.1 全文檢索技術1.全文檢索系統(tǒng)及其功能2.全文檢索系統(tǒng)的實現(xiàn)技術3.全文檢索系統(tǒng)存在的問題及解決方法

18、4.全文檢索系統(tǒng)的發(fā)展 存在問題文檢索系統(tǒng)存儲的對象是信息源本身,而不是信息的線索,因而占用空間大;系統(tǒng)響應速度慢;全文檢索系統(tǒng)采用自然語言標引與檢索,因而假聯(lián)系、錯組配在所難免。解決辦法對存儲空間問題,開展對適用于全文數(shù)據(jù)庫的壓縮技術以及與之相關的代碼技術的研究;超高密度磁盤、光盤及芯片技術的研究等。對上述第2、3問題的解決辦法是提高標引質(zhì)量,引進后控機制,標引短句加權,減少誤檢,提高查準率。3.2.1 全文檢索技術1.全文檢索系統(tǒng)及其功能2.全文檢索系統(tǒng)的實現(xiàn)技術3.全文檢索系統(tǒng)存在的問題及解決方法 4.全文檢索系統(tǒng)的發(fā)展 全文檢索系統(tǒng)的發(fā)展與超文本技術的融合 專家系統(tǒng)智能化檢索語言系統(tǒng)

19、3.2 現(xiàn)代檢索技術3.2.1 全文檢索技術3.2.2 超文本檢索技術3.2.3 多媒體檢索技術3.2.4 分布式信息檢索技術3.2.5 跨語言信息檢索技術3.2.2 超文本檢索技術 超文本技術概述 超文本的功能及結構 動態(tài)超文本生成技術 超文本技術概述超文本技術既是一種信息單元的組織和檢索技術,也是一種軟件設計技術,它利用計算機技術、通信技術、知識表達技術、多媒體技術等,將包含文字、圖像、聲音、視頻等電子信息按其相互之間的關聯(lián)性和可能出現(xiàn)的連續(xù)性進行非線性編排,使得只要兩個信息單元之間存在著直接或間接的關聯(lián),就可以從其一順著關系鏈到達另一個信息單元。 超文本技術概述超文本技術與全文檢索和布爾

20、邏輯檢索相比,具有如下幾個特點:(1)非線性的組織結構(2)以信息單元為檢索對象(3)體現(xiàn)了信息層次關系(4)交互更加友好(5)信息內(nèi)容豐富多樣(6)避免了檢索語言的復雜性 超文本的功能及結構 超文本的主要功能在于對信息的表示、信息的組織、信息的瀏覽以及信息的檢索。這些功能的實現(xiàn)主要取決于超文本的組織結構,超文本是在文本中定義了大量超鏈使其變成了非線性結構。 超文本的功能及結構信息的表示是通過超文本結構把圖形或文本、知識概念、組織結構以及知識概念間的關系表示出來,從信息表示的角度出發(fā),超文本結構表示為層次結構和交叉鏈接結構。層次結構交叉鏈接結構信息表示超文本的主要結構 超文本的功能及結構瀏覽與

21、檢索型的超文本強調(diào)信息間的充分關聯(lián),注重信息的分級和聚類,為用戶選擇信息源提供導航和檢索范圍,以保證在瀏覽時快速選準目標,檢索時有效縮小檢索范圍。表現(xiàn)這兩種類型的超文本結構主要為層次-交叉結構和簇網(wǎng)結構。層次-交叉鏈接結構簇網(wǎng)結構瀏覽與檢索型超文本主要結構圖 動態(tài)超文本生成技術超文本中信息節(jié)點通常在創(chuàng)建超文本文件時預設鏈接標記,以保證瀏覽時的跳躍閱讀。然而,對于大容量的文本信息或已建立好的全文數(shù)據(jù)庫創(chuàng)建超鏈,不但其工作量巨大,而且對以后全文中發(fā)生變化的鏈接(錨點)進行修改也是極其困難的,可見這種預置鏈接錨點的做法在全文檢索系統(tǒng)中是不現(xiàn)實的。因此,動態(tài)的自動生成全文信息中的鏈接,應該說是對全文檢

22、索技術的補充。 動態(tài)超文本生成技術(1) 動態(tài)生成文本鏈接錨點(2)錨點信息的激活(3)錨點詞的全文檢索(1) 動態(tài)生成文本鏈接錨點所謂動態(tài)生成文本鏈接錨點,是指在檢索過程中,系統(tǒng)自動為檢索結果(文本)建立鏈接錨點,使檢索者在閱讀檢索結果時,能夠通過鏈接錨點實現(xiàn)跳躍式閱讀.錨點的動態(tài)生成應體現(xiàn)在兩個方面:一是即時性,即只在檢索結果臨時生成鏈接錨點;二是可變性,即隨著錨點詞庫中內(nèi)容的增加,文本中即時生成的鏈接錨點也將相應增多。實現(xiàn)上述目標的研究重點是兩個方面:錨點詞庫的構建和鏈接錨點自動生成算法。 影響因子 文獻半衰期 普賴斯指數(shù) 普賴斯指數(shù) F 文獻半衰期 T map-filename 影響因

23、子 F 圖形文件集合圖形文件1圖形文件2圖形文件n全文錨點詞庫圖形文件全文與錨點詞庫的關系結構圖(2)錨點信息的激活動態(tài)錨點生成以后,人們所看到的檢索結果將是一個帶有錨點的全文或文本信息。用戶點擊這些錨點詞后,系統(tǒng)可以激活“錨點詞檢索程序”,將被點擊的錨點詞作為檢索詞對錨點詞庫進行檢索,所獲得的錨點詞解釋信息顯示在一個新的瀏覽窗口中。錨點詞解釋信息輸出時,依然可采用對全文結果的處理方法對它們進行動態(tài)錨點的生成,這樣可以確保在任何文本信息輸出時,均能獲得其中語詞的解釋信息。(3)錨點詞的全文檢索在閱讀檢索出的全文信息時,有時讀者要求能夠直接、快速閱讀包含某些關鍵詞的段落。這種要求在常規(guī)的全文檢索

24、系統(tǒng)和超文本檢索中極少見到,但這一方式確實能大大提高閱讀效率和閱讀的針對性。在自動生成錨點的過程中我們又得到了一個副產(chǎn)品(文本中所含錨點詞集合),可以通過在閱讀界面設計一個窗口(錨點此列表窗口),用于列出全文中出現(xiàn)的錨點詞。通過點擊錨點詞列表窗口中的詞匯,閱讀時光標可直接跳躍到全文中第一個擁有該詞的段落,光標所在段落即為當前閱讀段落,然后還可以順序閱讀出現(xiàn)在其他位置上的該錨點詞段落,這有點類似于word軟件中的“查找”命令。 動態(tài)錨點生成以后,人們所看到的檢索結果將是一個帶有錨點的全文或文本信息。用戶點擊這些錨點詞后,系統(tǒng)可以激活“錨點詞檢索程序”,將被點擊的錨點詞作為檢索詞對錨點詞庫進行檢索

25、,所獲得的錨點詞解釋信息顯示在一個新的瀏覽窗口中。錨點詞解釋信息輸出時,依然可采用對全文結果的處理方法對它們進行動態(tài)錨點的生成,這樣可以確保在任何文本信息輸出時,均能獲得其中語詞的解釋信息。解釋錨點全文文本錨點詞的全文檢索示例(3)錨點詞的全文檢索錨點詞列表窗口中信息的產(chǎn)生是在對檢索結果創(chuàng)建錨點時記錄下來的,不必專門整理。為了擴大錨點詞窗口中的信息量,可針對不同的數(shù)據(jù)庫增加一些關鍵詞。例如,在歷史類全文數(shù)據(jù)庫中增加重要的地名、人名、年代等。這樣可為用戶在閱讀過程中,增加全文搜索點。有時,用戶甚至可根據(jù)列表詞匯來確定該文獻是否是自己所需要的檢索結果。在全文檢索系統(tǒng)中嵌入超文本技術是信息檢索領域中

26、的一個新課題,對網(wǎng)絡環(huán)境的檢索系統(tǒng)更加具有意義。它的應用將改變?nèi)臋z索系統(tǒng)中只能順序閱讀檢索結果文本的狀況,保證了能夠在瀏覽檢索結果過程中同時獲取資料 中的專用知識信息,提高了檢索系統(tǒng)的閱讀效率和效果。3.2 現(xiàn)代檢索技術3.2.1 全文檢索技術3.2.2 超文本檢索技術3.2.3 多媒體檢索技術3.2.4 分布式信息檢索技術3.2.5 跨語言信息檢索技術3.2.3 多媒體檢索技術 多媒體信息檢索概念與類型 視頻檢索技術 聲音檢索技術 圖像檢索技術 實例分析 多媒體信息檢索概念與類型多媒體信息檢索技術是把文字、聲音、圖像、圖形等多種信息的傳播載體通過計算機進行數(shù)字化加工處理而形成的一種綜合技術

27、。目前有基于文本和基于內(nèi)容特征的兩種多媒體信息檢索方式?;谖谋镜亩嗝襟w信息檢索技術(TBR)由于計算機技術及其他相關技術的限制,早期的多媒體信息檢索是基于文本方式的(Text Based Retrieval,TBR )。當Internet逐漸發(fā)展起來以后,這種技術被直接引入到網(wǎng)絡的多媒體信息檢索領域。這種技術的特點是以關鍵詞的形式來反映多媒體物理特征和內(nèi)容特征,并對抽取出的關鍵詞按某種順序進行著錄或標引,建立類似于文本文獻的索引數(shù)據(jù)庫,這樣,多媒體信息檢索實際上就轉(zhuǎn)化成為對多媒體進行描述的關鍵詞的檢索。目前常用的關鍵詞索引字段有: 文件名或目錄名,如.gif或.jpg表示一個可顯示的圖像,.

28、wav表示聲音文件; 多媒體標題、周圍文本信息或解說文字; 其他,如Web頁的頁標題?;趦?nèi)容特征的多媒體信息檢索技術(CBR)基于內(nèi)容的檢索是指根據(jù)媒體和媒體對象的內(nèi)容及上下文聯(lián)系在大規(guī)模多媒體數(shù)據(jù)中進行檢索。 目前,基于內(nèi)容的多媒體信息檢索的主要工作集中在識別和描述圖像的顏色、紋理、形狀、空間關系上,對于視頻數(shù)據(jù),還有視頻分割、關鍵幀提取、場景變換探測以及故事情節(jié)重構等問題。 視頻檢索就是要在大量的視頻數(shù)據(jù)中查找所需要的視頻片段。目前采用的技術主要有:(1)框架檢索:對一個數(shù)據(jù)對象類似于傳統(tǒng)數(shù)據(jù)庫中的記錄進行結構層次處理,可按視頻主題或按內(nèi)容特點安排;(2)特征描述檢索:針對視頻的局部特征

29、(事物的顏色、形狀、紋理等)及視頻中目標的運動情況的檢索;(3)瀏覽檢索:利用分層場景轉(zhuǎn)移圖進行瀏覽,獲得整段視頻的場景圖后,再用分層方法對代表幀聚類,并將每類選取的代表幀作為瀏覽節(jié)點依次向下一層瀏覽。 視頻檢索技術 (1)特征描述法 :包括自然語言描述法和聲音解釋法;(2)內(nèi)容檢索法 :包括賦值檢索,示例匹配檢索,瀏覽檢索,語言識別與合成方式的檢索。 聲音檢索技術 (1)基于顏色特征的檢索 :包括矢量距離法,直方圖交叉法,直接差值法和主色調(diào)擴展法; (2)基于紋理特征的檢索 :QBE方式,對粗糙行、方向性和對比度進行確定,逐漸逼近檢索目標; (3)基于形狀特征的檢索:以形狀或輪廓作為檢索出發(fā)

30、點的檢索,包括模板匹配法和特征矢量法; (4)相關反饋技術 圖像檢索技術 (1) Scour () (2) WebSEEK (/webseek/) (3) Image Surfer () (4) QBIC (/) (5) VisualSEEK ( /visualseek) 實例分析(1)Scour () Scour成立于1998年,自稱是第一個基于Web的多媒體搜索引擎。主要是針對聲音和圖像的檢索,而且主要集中在藝術和娛樂類目中。其工作原理是在文件名、路徑名或ALT標簽中搜索用戶的檢索詞。提供的檢索技術主要是基于文本方式的檢索,即采用關鍵詞進行檢索,支持“+”(包括其后的關鍵詞)和“-”(排除

31、其后的關鍵詞),并可以在高級檢索中將檢索結果限制在gif ,bmp,jpeg等形式中。但因其標引深度不夠,使用盡可能少的關鍵詞檢索效果明顯,故不適于查找詳細的主題。檢索結果極具信息量,如圖像類信息包括:一張簡圖、圖像類型、大小、最后被查找的日期、檢索詞的匹配數(shù)量、標引使用的關鍵詞、成功下載的可靠程度、圖像的URL、源站點的URL,另外還提供“搜索類似的圖像”和“特定結果請求幫助”兩個選項,如找到的是jpeg文件,可獲得怎樣下載此類文件以及如何觀看和編輯它們的建議。(2)WebSEEK (/webseek/) WebSEEK是由哥倫比亞大學開發(fā)的一種實驗性系統(tǒng)。其信息來源是WWW上的圖像和影像,

32、因而是真正意義上的因特網(wǎng)多媒體信息檢索工具。采用代理自動搜索可視信息并對其進行分類,目前已分類的圖像有66萬多幅,形成了一個極富創(chuàng)新性的圖像目錄,包括動物、建筑、藝術、地理等46個主題的分類目錄是它的主要優(yōu)點。檢索方式有三種,一是關鍵詞的全文檢索;二是利用不同的類目等級進行主題瀏覽;三是在檢出圖像的基礎上利用可視屬性進一步檢索,其中可視屬性包括從圖像的顏色、高度、紋理、色彩構成等方面入手,并運用形狀識別和相似形計算等方法為用戶提供更多的相關信息,這也是WebSEEK很具特色的一方面。結果雖只包括簡圖和圖像大小,但提供三個連接:col根據(jù)該圖顏色在檢出圖像列表中搜索相關圖像;web在整個WebS

33、EEK目錄中根據(jù)該圖顏色再次檢索相近圖像;his通過手動調(diào)整該圖像的顏色直方圖進行新的檢索。(3) Image Surfer()Image Surfer是Yahoo!公司提供的基于文本方式進行圖像檢索的多媒體信息檢索服務,主題集中在流行文化方面,也包括其它一些主題,如科學、車輛、旅游、計算機等。檢索途徑主要有三種:分類目錄瀏覽、關鍵詞檢索和可視屬性檢索。使用關鍵詞檢索時,Image Surfer主要在頁面標題、目錄、文件名或通向圖像的鏈路中查找檢索詞,并支持截詞檢索。例如,查找“tree”也會找到路徑名中含有“trees”的圖像。但只是使用較寬泛的主題詞才能檢出結果,例如,用“petunia”

34、(牽?;ǎ┗颉癰asset”(矮腳獵犬)檢不出什么結果,但用“flower”或“dog”卻可以檢出很多圖片。此外,還可以利用“例圖”的顏色、形狀、紋理特征或這些項目的組合執(zhí)行可視屬性檢索。但這種檢索只能在預先定義的類目內(nèi)且只有在瀏覽時才能進行。瀏覽結果包括簡圖、圖像的URL及存放該圖的頁面URL。(4)QBIC() QBIC(Query By Image Content)是IBM Almaden研究中心研制的。是第一個真正的功能齊全的CBR系統(tǒng)。同時,它對于基于內(nèi)容檢索技術的發(fā)展也產(chǎn)生了深遠的影響。QBIC系統(tǒng)可支持因特網(wǎng)上的圖像和動態(tài)影響的基于內(nèi)容的檢索。另外,QBIC提供多個圖像數(shù)據(jù)庫供檢

35、索實驗,如美國1995年以前發(fā)行的郵票圖案、世界著名商標、舊金山美術博物館圖像數(shù)據(jù)庫等。系統(tǒng)提供了多種檢索方式,在靜止圖像檢索中,QBIC通過友好的圖形界面,為使用者提供了顏色、紋理、草圖、形狀、多個對象等多種檢索方法,并提供了根據(jù)樣本圖像進行相似性檢索的方法;在視頻檢索中,包括了分鏡頭檢測、主運動估計、建立層描述、通過拼接完成代表幀(representative frame)生成等多種視頻處理手段,并在此基礎上提供通過物體運動、攝像機運動的附加視頻檢索手段。(5)VisualSEEK()由美國哥倫比亞大學圖像和高級電視實驗室開發(fā)的。它實現(xiàn)了互聯(lián)網(wǎng)上的基于內(nèi)容的圖像/視頻檢索,提供了一套供人們

36、在Web上搜索和檢索圖像和視頻的有效工具。 另外還有許多類似的系統(tǒng),例如加利福尼亞大學Santa Barbara分校的Netra、伊利諾依大學的MARS、CMU的Infomedia以及哥倫比亞大學的VideoQ等。 3.2 現(xiàn)代檢索技術3.2.1 全文檢索技術3.2.2 超文本檢索技術3.2.3 多媒體檢索技術3.2.4 分布式信息檢索技術3.2.5 跨語言信息檢索技術3.2.4 分布式信息檢索技術 產(chǎn)生背景 分布式信息檢索原理 分布式檢索處理技術 分布式信息檢索模式 隨著計算機技術的發(fā)展,繼從單機處理到C/S(客戶端/服務器)雙層結構的發(fā)展之后,計算機應用體系結構正在經(jīng)歷從C/S雙層結構到分

37、布式的多層結構方向發(fā)展.這種分布式的多層結構是在C/S結構和分布式技術的基礎上,將業(yè)務邏輯從客戶端分離出來移到一個或多個中間層,通過對中間層的有效組織和管理,采用負載平衡、動態(tài)伸縮和標準接口等技術,將客戶機與服務器高效地組合在一起。目前,這種分布式多層結構已經(jīng)廣泛地應用在數(shù)據(jù)庫系統(tǒng)的研究與開發(fā)中,在網(wǎng)絡環(huán)境下應用分布式技術解決海量信息的檢索也已經(jīng)成為人們研究的重點。 產(chǎn)生背景網(wǎng)絡環(huán)境中傳統(tǒng)的搜索引擎采用集中式的檢索系統(tǒng)與檢索方法,這種搜索引擎都有自己的信息庫,用戶利用它進行信息搜索時也只限于在它自己的信息庫的范圍內(nèi)進行搜索,雖然有些搜索引擎提供其他搜索引擎的鏈接,但這并不能解決用戶同時對網(wǎng)絡上

38、的多種分布式信息的檢索和利用問題。集中式(centralized index)檢索系統(tǒng)有著很多的局限性。首先,網(wǎng)絡信息量呈指數(shù)增長,集中式的檢索方法不能適應信息急劇增長的需要;其次,雖然目前的網(wǎng)絡搜索引擎都在努力地增加對網(wǎng)絡信息的覆蓋率,但要想覆蓋整個網(wǎng)絡上的信息,在目前幾乎是不可能的;最后,檢索系統(tǒng)之間通常沒有分工協(xié)作,各自獨立搜索和處理信息,造成了大量的重復工作和嚴重的帶寬浪費,有時甚至能造成網(wǎng)絡阻塞。 分布式信息檢索原理分布式信息檢索主要指在分布式的環(huán)境中,利用分布式計算和移動代理等技術從大量的、異構的信息資源中檢索出對用戶有用的信息的過程。分布式環(huán)境指的是信息資源在物理上分布于各地,小到一個辦公系統(tǒng),大到跨越國家。這些分布式的信息資源在邏輯上是一個整體,從而構成一個分布式檢索系統(tǒng)。但是,不同的信息資源具有不同的數(shù)據(jù)庫結構,即分布式

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論