《信息檢索系統(tǒng)》PPT課件.ppt

上傳人：x*** IP屬地：四川上傳時間：2020-01-09 格式：PPT 頁數：69 大小：839.51KB 積分：15 舉報 版權申訴

已閱讀5頁，還剩64頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

1信息檢索系統(tǒng)的類型2信息檢索系統(tǒng)的構成3標引處理4數據庫的文檔結構5倒排文檔的檢索技術第三章信息檢索系統(tǒng) 3 1信息檢索系統(tǒng)及其類型 3 1 1信息檢索系統(tǒng)的概念 1 定義具有信息存儲和信息查詢功能的一類信息服務設施或者工具 2 構成要素明確的目標信息資源技術裝備方法與措施功能 1 按設備劃分書本式檢索系統(tǒng)卡片式檢索系統(tǒng)穿孔卡片檢索系統(tǒng)縮微膠卷檢索系統(tǒng)計算機檢索系統(tǒng)光盤檢索系統(tǒng)多媒體檢索系統(tǒng) 1 2信息檢索系統(tǒng)的類型 2 按照功能劃分文獻檢索系統(tǒng) 狹義的信息檢索系統(tǒng)數據庫管理系統(tǒng) 面向結構化數據自動問答系統(tǒng) 自然語言處理事實檢索管理信息系統(tǒng) 面向管理人員決策支持系統(tǒng) 數據分析 1 2信息檢索系統(tǒng)的類型 2020 1 9 5 3 2信息檢索系統(tǒng)的構成 3 2 1計算機檢索系統(tǒng)的物理結構計算機檢索系統(tǒng)由計算機硬件軟件數據庫和通訊網絡構成 1 硬件是包括具有一定性能的主計算機外圍設備以及與數據處理或數據傳送有關的其他設備 2 軟件由系統(tǒng)維護軟件與檢索軟件構成檢索效果 3 數據庫在計算機存儲設備上按一定方式存儲的相互關聯(lián)的數據集合 2020 1 9 6 3 2信息檢索系統(tǒng)的構成 3 2 2檢索系統(tǒng)的邏輯結構信息檢索系統(tǒng)的邏輯構成 1 信息源選擇與采集子系統(tǒng) 該功能模塊的任務主要是根據系統(tǒng)需要采取人工或者計算機自動方式從眾多信息源中選擇和采集符合需要的信息資源在有些計算機檢索系統(tǒng)中此部分還承擔轉換數據格式的任務 2 標引子系統(tǒng) 該功能模塊的任務主要是對收集的信息資源進行內外部特征分析并借助詞表系統(tǒng) 對每條數據進行標引目前主題標引和分類標引主要是靠人工標引而抽詞標引主要是由計算機完成 8 3 建庫子系統(tǒng) 該功能模塊的任務是建立和維護可直接用于計算機檢索的數據庫主要工作包括數據錄入錯誤檢查與處理數據格式轉換生成和更新各種文檔建立各種索引數據庫等 4 詞表管理子系統(tǒng) 該功能模塊的任務是建立和管理維護系統(tǒng)中的主題詞表和分類表并使它們和標引建庫等子系統(tǒng)相連接支持用戶的各種詞匯查詢操作該系統(tǒng)可以獨立存在也可以和建庫子系統(tǒng)中的詞典文檔合并在一起信息檢索系統(tǒng)的邏輯構成 5 用戶接口子系統(tǒng) 它的全稱為系統(tǒng) 用戶接口 system userinterface 簡稱用戶接口它的任務是承擔用戶與系統(tǒng)之間的通信功能通常由用戶模型信息顯示命令語言和反饋機制等部分構成 6 提問處理子系統(tǒng) 該功能模塊的任務是負責處理用戶輸入的提問式并將它們與數據庫存儲的數據進行比較運算然后將運算結果輸入給用戶該模塊主要由檢索程序構成包括接收提問提問校驗提問加工和檢索信息檢索系統(tǒng)的邏輯構成 3 3標引處理 3 3 1基本概念標引 indexing 對信息資源的各種檢索特征進行分析并使之顯性化標引深度衡量標引詳盡性標引詞對每條記錄各方面內容表達和識別的詳盡程度標引專指度衡量標引詞對記錄特定內容描述的精細程度標引方式人工標引和自動標引抽詞標引和賦詞標引 11 Documentindexing Goal identifytheimportantmeaningsandcreateaninternalrepresentationFactorstoconsider Accuracytorepresentmeanings semantics Exhaustiveness coverallthecontents FacilityforcomputertomanipulateWhatisthebestrepresentationofcontents Char string charbigrams notpreciseenoughWord goodcoverage notprecisePhrase poorcoverage morepreciseConcept poorcoverage precise Coverage Recall Accuracy Precision StringWordPhraseConcept 3 3 2自動標引處理流程圖見教材60頁 3 3標引處理 3 3 3自動標引中的詞語加權方案 1 絕對詞頻法根據每個詞在特定文檔集合中的出現頻次來確定該詞重要程度的一種方法最早有盧恩提出基本原理給定一個由N篇文檔組成的文檔集合計算出每篇文檔中每個不同的詞的出現次數把每個不同的詞在N篇文檔的出現次數相加得到詞K的集合頻率按集合頻率遞減順序排列這些詞并確定高頻詞和低頻詞的閾值挑選剩下的中頻詞作為標引詞并按照他們在相應文檔的出現頻次確定權重缺點是什么 3 3標引處理 14 Keywordselectionandweighting Howtoselectimportantkeywords Simplemethod usingmiddle frequencywords 2 逆文檔頻率法英文InverseDocumentFrequency 基于以下假設某詞的重要性與它在特定文檔中的出現次數成正比與含有該詞的文檔數成反比詞頻加逆文檔詞頻確定權值的方法得到了廣泛的應用 3 3標引處理 3 3 3自動標引中的詞語加權方案 16 tf termfrequencyfrequencyofaterm keywordinadocumentThehigherthetf thehighertheimportance weight forthedoc df documentfrequencyno ofdocumentscontainingthetermdistributionofthetermidf inversedocumentfrequencytheunevennessoftermdistributioninthecorpusthespecificityoftermtoadocumentThemorethetermisdistributedevenly thelessitisspecifictoadocumentweight t D tf t D idf t tf idfweightingschema 3 3 3自動標引中的詞語加權方案 3 3標引處理 3 3 4中文自動標引中文和西文英文的不同中文標引關注詞語切分對于詞語加權關注較少詞語切分方法 1 詞典切分法 2 單漢字法 3 3標引處理 19 Resultofindexing Eachdocumentisrepresentedbyasetofweightedkeywords terms D1 t1 w1 t2 w2 e g D1 comput 0 2 architect 0 3 D2 comput 0 1 network 0 5 Invertedfile comput D1 0 2 D2 0 1 Invertedfileisusedduringretrievalforhigherefficiency 3 4數據庫的建立和維護 3 4 1數據庫的類型參考數據庫源數據庫參考數據庫 Referencedatabases 是指引用戶到另一信息源以獲得原文或其他細節(jié)的一類數據庫它包括書目數據庫 Bibliographicdatabases 指南數據庫 Referraldatabase或Directorydatabase 兩種參考數據庫 1 書目數據庫是指存儲某個領域的二次文獻如文摘題錄目錄等書目數據的一類數據庫如中國機械工程文摘數據庫屬于此類型數據庫 2 指南數據庫也稱指示性數據庫是指存儲關于某些機構人物出版物項目程序活動等對象的簡要描述指引用戶從其他有關信息源獲取更詳細的信息的一類數據庫如產品目錄機構名錄研發(fā)項目基金項目等數據庫均屬于此類型源數據庫 Sourcedatabases 是指能直接提供原始資料或具體數據的數據庫用戶不必再查閱其他信息源它可以分為 1 數值數據庫這是一種專門提供以數值方式表示的數據的源數據庫如統(tǒng)計數據庫財務數據庫等 2 文本數值數據庫這是一種能同時提供文本信息和數值數據的源數據庫如企業(yè)信息數據庫產品數據庫等 3 全文數據庫這是一種存儲文獻全文或其中主要部分的源數據庫如法律法規(guī)全文庫期刊全文庫等 4 術語數據庫這是一種專門存儲名詞術語信息詞語信息以及術語工作和語言規(guī)范工作成果的源數據庫如名詞術語信息庫各種電子化辭書等 5 圖像數據庫這是一種用來存儲各種圖像或圖形信息及有關文字說明資料的源數據庫主要應用于建筑設計廣告產品圖片或照片等資料類型的計算機存儲與檢索 1 記錄與字段記錄 record 是作為一個單位來處理的有關數據的集合是對某一實體的屬性進行描述的結果在書目數據庫中被描述的實體是某一特定的文獻實體的屬性就是該文獻的特征例如文獻的題名作者發(fā)表時間語種分類號主題詞等 3 4 2書目數據庫的結構字段 field 是記錄的下級數據單位用來描述實體的某一屬性一個記錄中通常含有文獻號字段題名字段作者字段出版字段語種字段文摘字段主題詞字段分類號字段等各種必要的字段每個字段的具體內容稱為字段值 fieldvalue 或屬性值 attributevalue 子字段 subfield 是字段的下一級數據單位在有些字段中它們的值往往由多個子項構成例如作者字段可能含有多個作者出版字段含有出版者出版地和出版年主題詞字段含有若干個主題詞 4 文檔若干個邏輯紀錄構成的信息集合 5 邏輯記錄某些邏輯上相關聯(lián)的數據組織在一起的數據集合稱為邏輯記錄 6 物理記錄硬件設備上一個基本存儲單位塊 block 2 文檔的類型若干個邏輯記錄構成的信息集合稱為文檔 file 文檔是書目數據庫和文獻檢索系統(tǒng)中數據組織的基本形式 2 文檔的類型順序文檔順序文檔 sequentialfile 是文檔在計算機存儲器中的一種存放形式文檔中的全部記錄按順序一個接一個地存放記錄的物理位置通常由記錄的鍵值決定記錄之間的邏輯順序與物理順序一致文檔的修改和刪除操作比較簡單但插入操作較為麻煩存取時間與數據的物理位置有關隨機文檔文檔中的記錄按隨機方式存放在支持直接存取的磁盤磁鼓或內存中在記錄的關鍵碼與存放該記錄的地址之間建立某種關系根據這種關系來確定該記錄在文檔中的位置以及對文檔進行存取的方式對文檔中的記錄可以隨機存取不考慮記錄在文檔中的排列次序數據的存取時間與數據的存儲位置無關實現隨機文檔快速存取的關鍵是尋址技術 2 文檔的類型主文檔 masterfile 書目數據庫中描述每篇文獻的完整記錄通常以線性排列方式存放在磁帶或磁盤上檢索時只能按其物理順序讀取這些記錄及其中的字段由于它存儲有關于每篇文獻的最完整信息所以通常又把它稱為主文檔 masterfile 2 文檔的類型倒排文檔所謂倒排檔就是把記錄中一切可檢字段或屬性值如著者名主題詞等抽出按某種順序重新加以組織后所得到的一種文檔既可以按不同類型的字段組成不同的倒排檔如著者倒排檔主題詞倒排檔等也可以把所有不同的字段組成一個混合倒排檔 2 文檔的類型 Documentsareparsedtoextractwords orstems andthesearesavedwiththeDocumentID HowAreInvertedFilesCreated倒排檔的生成 Nowisthetimeforallgoodmentocometotheaidoftheircountry Itwasadarkandstormynightinthecountrymanor Thetimewaspastmidnight HowInvertedFilesareCreated Afteralldocumenthavebeenparsedtheinvertedfileissorted HowInvertedFilesareCreated Multipletermentriesforasingledocumentaremergedandfrequencyinformationadded ThefileiscommonlysplitintoaDictionaryandaPostingsfile HowInvertedFilesareCreated 3 文檔的存貯結構 A固定格式固定長字段1 物理記錄和邏輯記錄相一致可以理解為一個邏輯記錄一個塊 2 每條記錄中的字段數量字段長度子字段的長度以及排列位置順序都是不變的 3 物理塊的大小必須依據邏輯記錄的最大可能的長度來確定 4 優(yōu)缺點優(yōu)點便于處理缺點造成空間的浪費造成數據的遺失 B固定格式可變長記錄中字段數目和位置的排列是固定的但各字段的長度是可變的一些早期的圖書采購磁帶格式采用這種方式國際標準書號訂購號書名項出版項單價發(fā)票號訂購數書商訂購日期需要識別字段的開始結束以及記錄的結束引入字段標識符字段結束符記錄結束符 3 文檔的存貯結構 C可變格式可變長沒有任何空間上的浪費記錄頭標區(qū) 固定長 24目次區(qū) 有多個目次項和一個分隔符組成每個目次項占12個字節(jié) 結構如下標識符段長段起始位置345目次區(qū)的長度依目次項的數量而定長度為12N 1數據區(qū) 記錄分隔符 3 文檔的存貯結構書目數據庫的記錄格式 ISO 2709格式記錄頭標 1eader 目次 directory 數據區(qū) datafield 記錄分隔符頭標區(qū) 頭標是對一條書目記錄的簡要說明固定長度共含24字節(jié) 其信息內容及布局如下記錄總長字符位置o 4 用5位十進制數表示記錄中字符的個數包括頭標區(qū) 目次區(qū) 數據區(qū)和記錄分隔符記錄狀態(tài) 字符位置5 用單一字符如字母N或C等標示該記錄是新增修改還是刪除過的記錄類型與目錄級別 7符位置6 9 用代碼表示記錄類型圖書期刊文章地圖圖片等和文獻目錄級別分析性專題性和連續(xù)出版物等指示符長 7符位置10 以一個十進制數給出指示符位數若不用指示符則長度為0 頭標區(qū) 標識符長字符位置11 以一個十進制數給出子字段標識符位數若沒有標識符則長度為0 若有標識符則其第一個字符必須是IS0646的ISl 相當于16進制的代碼1E 通常記為 1E 16 數據基地址字符位置12 16 用5位十進制數給出記錄頭標區(qū)與目次區(qū)的總長度用戶自由利用區(qū) 字符位置17 19 23 段長信息字符位置20 22 目次區(qū) 目次區(qū)由多個目次項加一個域段分隔符組成每個目次項分為標識符段域長和段域起始字符位置以及指定執(zhí)行部分可選等部分共占12個字節(jié) 數據區(qū) 在目錄數據區(qū)中用字段指示符域指示符標識某一字段的性質或與其他字段的關系字段分隔符用ISO 646的IS2表示相當于十六進制代碼1F 寫作 1F 16 在字段中可以用子字段標識符子域標識符進一步標識子字段 4 記錄分隔符記錄分隔符亦稱記錄結束符用ISO一646的IS 表示相當于十六進制代碼1D 寫作 1D 16 例如頭標區(qū) 01041cam2200265a4500目次區(qū)001002000000003000400020005001700024008004100041010002400082020002500106030004400131040001800175050002400193082001800217 數據區(qū)891101s1990 maua j 000 0 eng a 89048230 AC r91 a0316107514 c 12 95 a0316107506 pbk c 5 95 6 95Can aDLC cDLC dDLC 00 aGV943 25 b B741990 00 a796 334 2 220 10 aBrenner RichardJ d1941 10 aMaketheteam pSoccer baheadsupguidetosupersoccer cRichardJ Brenner 30 aHeadsupguidetosupersoccer a1sted aBoston bLittle Brown cc1990 a127p bill c19cm a ASportsillustratedforkidsbook aInstructionsforimprovingsoccerskills Discussesdribbling heading playmaking defense conditioning mentalattitude howtohandleproblemswithcoaches parents andotherplayers andthehistoryofsoccer 0 aSoccer vJuvenileliterature 1 aSoccer 5 數據庫的文檔結構不是所有的檢索系統(tǒng)的文檔結構都是一致的但是基本上包括主文檔MF 主文檔的索引文檔MX 倒排檔IF 倒排檔的索引文檔 IX 和詞表文檔 1 主文檔MF MainFiles一般按照順序文檔方式采取可變長格式組塊存儲大型的數據庫一般可以分成若干個主文檔來存儲如DIALOG的化學文摘數據庫就分為六個文檔 2 主文檔索引 MX 即主文檔的索引文檔指明每條記錄在磁盤上的存貯起始地址結構如下存取號地址指針 5 數據庫的文檔結構 3 倒排檔 IF 就是將紀錄中一切可見字段或屬性值抽出按照某種順序重新加以組織后得到的一種文檔既可以按不同類型的字段組成不同到排檔著者到排檔主題詞倒排檔等也可以把所有不同的字段組成一個混合倒排檔存貯與檢索鍵對應的記錄號集合 5 數據庫的文檔結構如按照關鍵詞順序A1 2 8B2 5 6 7C2 3 41 2 8 2 5 6 7 2 3 4 4 倒排檔索引詞典文檔也稱為倒排檔索引單獨存貯各種作為檢索鍵的值如著者名主題詞分類號自由詞等 n為出現頻次即有關的記錄個數 p為地址指針指向相應的倒排檔記錄的相對地址碼值命中數記錄號地址指針Knp 5 數據庫的文檔結構各文檔之間的關系針對文摘索引數據庫和全文數據庫來說還應該標明字段和字詞出現的位置這樣才能支持位置檢索 a10010001ti1amusing21010004ab5 5 詞表文檔首先必須要有一部主題詞表或敘詞表幫助用戶選擇檢索詞提高檢索效率 5 數據庫的文檔結構 6 書目數據庫的建立和維護 1 數據庫的設計A市場與用戶調查包括以下兩個方面市場調查當前數據庫的數量類型學科分布地理分布生產者利用情況發(fā)展動向等非常重要的一環(huán) 國內目前許多數據庫成為死庫在很大程度上是由于沒有進行市場分析思考如何獲得這方面的信息用戶調查調查用戶需求以及對檢索系統(tǒng)的期待內容范圍檢索功能數據完整性以及提供方式等 B數據庫設計包括以下幾種設計邏輯設計在市場調查的基礎上確定用戶類型內容范圍功能技術設計確定數據庫的總體結構各文檔的結構文檔之間的聯(lián)系物理組織方式以及存儲空間的分配等模擬建庫測試評價 6 書目數據庫的建立和維護 2 數據準備數據采集根據設計方案規(guī)定的數據庫內容范圍和數據類型采集所需要的數據數據評價評價方法可以采用引文分析法專家評價法用戶調查法來源渠道和著者鑒別法等數據加工整理數據加工整理工作包括數據源的分析數據的提取與描述數據錯誤及一致性的校驗與糾正等 6 書目數據庫的建立和維護 3 文獻的初始化處理格式標準化語言編碼標準化 unicodeGb2312big5 存儲格式的選擇 Mpeg Jpeg 有損壓縮和無損壓縮確定檢索范圍檢索途徑檢索途徑子段全文篇名摘要關鍵詞正文參考文獻等部分 6 書目數據庫的建立和維護 3 文獻的初始化處理非檢索詞的處理標點符號停用詞etc 目的是提高運算速度節(jié)省存儲空間涉及到標點符號某些標點符號按照實際情況需要進行處理如表示所有格的符號連字符smallbusinessmen等停用詞和停用算法主要指沒有任何檢索意義的詞包括介詞冠次以及一些其他出現次數過多的詞思考使用停用詞和停用算法對查全率和查準率會有什么影響明確詞義上下位類大小寫 6 書

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《信息檢索系統(tǒng)》PPT課件.ppt

文檔簡介

溫馨提示

最新文檔

評論

《信息檢索系統(tǒng)》PPT課件.ppt

文檔簡介

溫馨提示

最新文檔

評論

相關文檔