




已閱讀5頁,還剩64頁未讀, 繼續(xù)免費閱讀
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1信息檢索系統(tǒng)的類型2信息檢索系統(tǒng)的構成3標引處理4數據庫的文檔結構5倒排文檔的檢索技術 第三章信息檢索系統(tǒng) 3 1信息檢索系統(tǒng)及其類型 3 1 1信息檢索系統(tǒng)的概念 1 定義 具有信息存儲和信息查詢功能的一類信息服務設施或者工具 2 構成要素 明確的目標信息資源技術裝備方法與措施功能 1 按設備劃分書本式檢索系統(tǒng)卡片式檢索系統(tǒng)穿孔卡片檢索系統(tǒng)縮微膠卷檢索系統(tǒng)計算機檢索系統(tǒng)光盤檢索系統(tǒng)多媒體檢索系統(tǒng) 1 2信息檢索系統(tǒng)的類型 2 按照功能劃分文獻檢索系統(tǒng) 狹義的信息檢索系統(tǒng)數據庫管理系統(tǒng) 面向結構化數據自動問答系統(tǒng) 自然語言處理 事實檢索管理信息系統(tǒng) 面向管理人員決策支持系統(tǒng) 數據分析 1 2信息檢索系統(tǒng)的類型 2020 1 9 5 3 2信息檢索系統(tǒng)的構成 3 2 1計算機檢索系統(tǒng)的物理結構計算機檢索系統(tǒng)由計算機硬件 軟件 數據庫和通訊網絡構成 1 硬件 是包括具有一定性能的主計算機 外圍設備以及與數據處理或數據傳送有關的其他設備 2 軟件 由系統(tǒng)維護軟件與檢索軟件構成 檢索效果 3 數據庫 在計算機存儲設備上按一定方式存儲的相互關聯(lián)的數據集合 2020 1 9 6 3 2信息檢索系統(tǒng)的構成 3 2 2檢索系統(tǒng)的邏輯結構 信息檢索系統(tǒng)的邏輯構成 1 信息源選擇與采集子系統(tǒng) 該功能模塊的任務主要是根據系統(tǒng)需要 采取人工或者計算機自動方式 從眾多信息源中選擇和采集符合需要的信息資源 在有些計算機檢索系統(tǒng)中 此部分還承擔轉換數據格式的任務 2 標引子系統(tǒng) 該功能模塊的任務主要是對收集的信息資源進行內外部特征分析 并借助詞表系統(tǒng) 對每條數據進行標引 目前 主題標引和分類標引主要是靠人工標引 而抽詞標引主要是由計算機完成 8 3 建庫子系統(tǒng) 該功能模塊的任務是建立和維護可直接用于計算機檢索的數據庫 主要工作包括數據錄入 錯誤檢查與處理 數據格式轉換 生成和更新各種文檔 建立各種索引數據庫等 4 詞表管理子系統(tǒng) 該功能模塊的任務是建立和管理維護系統(tǒng)中的主題詞表和分類表 并使它們和標引 建庫等子系統(tǒng)相連接 支持用戶的各種詞匯查詢操作 該系統(tǒng)可以獨立存在 也可以和建庫子系統(tǒng)中的詞典文檔合并在一起 信息檢索系統(tǒng)的邏輯構成 5 用戶接口子系統(tǒng) 它的全稱為 系統(tǒng) 用戶接口 system userinterface 簡稱用戶接口 它的任務是承擔用戶與系統(tǒng)之間的通信功能 通常由用戶模型 信息顯示 命令語言和反饋機制等部分構成 6 提問處理子系統(tǒng) 該功能模塊的任務是負責處理用戶輸入的提問式 并將它們與數據庫存儲的數據進行比較運算 然后將運算結果輸入給用戶 該模塊主要由檢索程序構成 包括 接收提問 提問校驗 提問加工和檢索 信息檢索系統(tǒng)的邏輯構成 3 3標引處理 3 3 1基本概念標引 indexing 對信息資源的各種檢索特征進行分析并使之顯性化 標引深度 衡量標引詳盡性 標引詞對每條記錄各方面內容表達和識別的詳盡程度標引專指度 衡量標引詞對記錄特定內容描述的精細程度 標引方式 人工標引和自動標引抽詞標引和賦詞標引 11 Documentindexing Goal identifytheimportantmeaningsandcreateaninternalrepresentationFactorstoconsider Accuracytorepresentmeanings semantics Exhaustiveness coverallthecontents FacilityforcomputertomanipulateWhatisthebestrepresentationofcontents Char string charbigrams notpreciseenoughWord goodcoverage notprecisePhrase poorcoverage morepreciseConcept poorcoverage precise Coverage Recall Accuracy Precision StringWordPhraseConcept 3 3 2自動標引處理流程 圖見教材60頁 3 3標引處理 3 3 3自動標引中的詞語加權方案 1 絕對詞頻法根據每個詞在特定文檔 集合 中的出現頻次來確定該詞重要程度的一種方法 最早有盧恩提出 基本原理給定一個由N篇文檔組成的文檔集合 計算出每篇文檔中每個不同的詞的出現次數 把每個不同的詞在N篇文檔的出現次數相加 得到詞K的集合頻率 按集合頻率遞減順序排列這些詞 并確定高頻詞和低頻詞的閾值 挑選剩下的中頻詞作為標引詞 并按照他們在相應文檔的出現頻次確定權重 缺點是什么 3 3標引處理 14 Keywordselectionandweighting Howtoselectimportantkeywords Simplemethod usingmiddle frequencywords 2 逆文檔頻率法英文InverseDocumentFrequency 基于以下假設 某詞的重要性與它在特定文檔中的出現次數成正比 與含有該詞的文檔數成反比 詞頻加逆文檔詞頻確定權值的方法得到了廣泛的應用 3 3標引處理 3 3 3自動標引中的詞語加權方案 16 tf termfrequencyfrequencyofaterm keywordinadocumentThehigherthetf thehighertheimportance weight forthedoc df documentfrequencyno ofdocumentscontainingthetermdistributionofthetermidf inversedocumentfrequencytheunevennessoftermdistributioninthecorpusthespecificityoftermtoadocumentThemorethetermisdistributedevenly thelessitisspecifictoadocumentweight t D tf t D idf t tf idfweightingschema 3 3 3自動標引中的詞語加權方案 3 3標引處理 3 3 4中文自動標引 中文和西文 英文 的不同中文標引關注詞語切分 對于詞語加權關注較少 詞語切分方法 1 詞典切分法 2 單漢字法 3 3標引處理 19 Resultofindexing Eachdocumentisrepresentedbyasetofweightedkeywords terms D1 t1 w1 t2 w2 e g D1 comput 0 2 architect 0 3 D2 comput 0 1 network 0 5 Invertedfile comput D1 0 2 D2 0 1 Invertedfileisusedduringretrievalforhigherefficiency 3 4數據庫的建立和維護 3 4 1數據庫的類型參考數據庫源數據庫 參考數據庫 Referencedatabases 是指引用戶到另一信息源以獲得原文或其他細節(jié)的一類數據庫 它包括書目數據庫 Bibliographicdatabases 指南數據庫 Referraldatabase或Directorydatabase 兩種 參考數據庫 1 書目數據庫是指存儲某個領域的二次文獻 如文摘 題錄 目錄等書目數據 的一類數據庫 如中國機械工程文摘數據庫 屬于此類型數據庫 2 指南數據庫也稱指示性數據庫 是指存儲關于某些機構 人物 出版物 項目 程序 活動等對象的簡要描述 指引用戶從其他有關信息源獲取更詳細的信息的一類數據庫 如產品目錄 機構名錄 研發(fā)項目 基金項目等數據庫均屬于此類型 源數據庫 Sourcedatabases 是指能直接提供原始資料或具體數據的數據庫 用戶不必再查閱其他信息源 它可以分為 1 數值數據庫 這是一種專門提供以數值方式表示的數據的源數據庫 如統(tǒng)計數據庫 財務數據庫等 2 文本 數值數據庫 這是一種能同時提供文本信息和數值數據的源數據庫 如企業(yè)信息數據庫 產品數據庫等 3 全文數據庫 這是一種存儲文獻全文或其中主要部分的源數據庫 如法律法規(guī)全文庫 期刊全文庫等 4 術語數據庫 這是一種專門存儲名詞術語信息 詞語信息以及術語工作和語言規(guī)范工作成果的源數據庫 如名詞術語信息庫 各種電子化辭書等 5 圖像數據庫 這是一種用來存儲各種圖像或圖形信息及有關文字說明資料的源數據庫 主要應用于建筑 設計 廣告 產品 圖片或照片等資料類型的計算機存儲與檢索 1 記錄與字段記錄 record 是作為一個單位來處理的有關數據的集合 是對某一實體的屬性進行描述的結果 在書目數據庫中 被描述的實體是某一特定的文獻 實體的屬性就是該文獻的特征 例如文獻的題名 作者 發(fā)表時間 語種 分類號 主題詞等 3 4 2書目數據庫的結構 字段 field 是記錄的下級數據單位 用來描述實體的某一屬性 一個記錄中通常含有文獻號字段 題名字段 作者字段 出版字段 語種字段 文摘字段 主題詞字段 分類號字段等各種必要的字段 每個字段的具體內容稱為字段值 fieldvalue 或屬性值 attributevalue 子字段 subfield 是字段的下一級數據單位 在有些字段中 它們的值往往由多個子項構成 例如 作者字段可能含有多個作者 出版字段含有出版者 出版地和出版年 主題詞字段含有若干個主題詞 4 文檔 若干個邏輯紀錄構成的信息集合 5 邏輯記錄 某些邏輯上相關聯(lián)的數據組織在一起的數據集合稱為邏輯記錄 6 物理記錄 硬件設備上一個基本存儲單位 塊 block 2 文檔的類型 若干個邏輯記錄構成的信息集合稱為文檔 file 文檔是書目數據庫和文獻檢索系統(tǒng)中數據組織的基本形式 2 文檔的類型 順序文檔順序文檔 sequentialfile 是文檔在計算機存儲器中的一種存放形式 文檔中的全部記錄按順序一個接一個地存放 記錄的物理位置通常由記錄的鍵值決定 記錄之間的邏輯順序與物理順序一致 文檔的修改和刪除操作比較簡單 但插入操作較為麻煩 存取時間與數據的物理位置有關 隨機文檔文檔中的記錄按隨機方式存放在支持直接存取的磁盤 磁鼓或內存中 在記錄的關鍵碼與存放該記錄的地址之間建立某種關系 根據這種關系來確定該記錄在文檔中的位置以及對文檔進行存取的方式 對文檔中的記錄可以隨機存取 不考慮記錄在文檔中的排列次序 數據的存取時間與數據的存儲位置無關 實現隨機文檔快速存取的關鍵是尋址技術 2 文檔的類型 主文檔 masterfile 書目數據庫中描述每篇文獻的完整記錄通常以線性排列方式存放在磁帶或磁盤上 檢索時 只能按其物理順序讀取這些記錄及其中的字段 由于它存儲有關于每篇文獻的最完整信息 所以通常又把它稱為主文檔 masterfile 2 文檔的類型 倒排文檔所謂倒排檔 就是把記錄中一切可檢字段或屬性值 如著者名 主題詞等 抽出 按某種順序重新加以組織后所得到的一種文檔 既可以按不同類型的字段組成不同的倒排檔 如著者倒排檔 主題詞倒排檔等 也可以把所有不同的字段組成一個混合倒排檔 2 文檔的類型 Documentsareparsedtoextractwords orstems andthesearesavedwiththeDocumentID HowAreInvertedFilesCreated倒排檔的生成 Nowisthetimeforallgoodmentocometotheaidoftheircountry Itwasadarkandstormynightinthecountrymanor Thetimewaspastmidnight HowInvertedFilesareCreated Afteralldocumenthavebeenparsedtheinvertedfileissorted HowInvertedFilesareCreated Multipletermentriesforasingledocumentaremergedandfrequencyinformationadded ThefileiscommonlysplitintoaDictionaryandaPostingsfile HowInvertedFilesareCreated 3 文檔的存貯結構 A固定格式 固定長字段1 物理記錄和邏輯記錄相一致 可以理解為一個邏輯記錄一個塊 2 每條記錄中的字段數量 字段長度 子字段的長度以及排列位置順序都是不變的 3 物理塊的大小必須依據邏輯記錄的最大可能的長度來確定 4 優(yōu)缺點 優(yōu)點 便于處理缺點 造成空間的浪費 造成數據的遺失 B固定格式 可變長記錄中字段數目和位置的排列是固定的 但各字段的長度是可變的 一些早期的圖書采購磁帶格式采用這種方式 國際標準書號 訂購號 書名項 出版項 單價 發(fā)票號 訂購數 書商 訂購日期需要識別字段的開始 結束以及記錄的結束 引入字段標識符 字段結束符 記錄結束符 3 文檔的存貯結構 C可變格式 可變長沒有任何空間上的浪費 記錄頭標區(qū) 固定長 24目次區(qū) 有多個目次項和一個分隔符組成 每個目次項占12個字節(jié) 結構如下 標識符段長段起始位置345目次區(qū)的長度依目次項的數量而定 長度為12N 1數據區(qū) 記錄分隔符 3 文檔的存貯結構 書目數據庫的記錄格式 ISO 2709格式 記錄頭標 1eader 目次 directory 數據區(qū) datafield 記錄分隔符 頭標區(qū) 頭標是對一條書目記錄的簡要說明 固定長度 共含24字節(jié) 其信息內容及布局如下 記錄總長 字符位置o 4 用5位十進制數表示記錄中字符的個數 包括頭標區(qū) 目次區(qū) 數據區(qū)和記錄分隔符 記錄狀態(tài) 字符位置5 用單一字符 如字母N或C等 標示該記錄是新增 修改 還是刪除過的 記錄類型與目錄級別 7符位置6 9 用代碼表示記錄類型 圖書 期刊 文章 地圖 圖片等 和文獻目錄級別 分析性 專題性和連續(xù)出版物等 指示符長 7符位置10 以一個十進制數給出指示符位數 若不用指示符 則長度為0 頭標區(qū) 標識符長 字符位置11 以一個十進制數給出子字段標識符位數 若沒有標識符 則長度為0 若有標識符 則其第一個字符必須是IS0646的ISl 相當于16進制的代碼1E 通常記為 1E 16 數據基地址 字符位置12 16 用5位十進制數給出記錄頭標區(qū)與目次區(qū)的總長度 用戶自由利用區(qū) 字符位置17 19 23 段長信息 字符位置20 22 目次區(qū) 目次區(qū)由多個目次項加一個域 段 分隔符組成 每個目次項分為標識符 段 域 長和段 域 起始字符位置以及 指定執(zhí)行部分 可選 等部分 共占12個字節(jié) 數據區(qū) 在目錄數據區(qū)中 用字段指示符 域指示符 標識某一字段的性質或與其他字段的關系 字段分隔符用ISO 646的IS2表示 相當于十六進制代碼1F 寫作 1F 16 在字段中可以用子字段標識符 子域標識符 進一步標識子字段 4 記錄分隔符記錄分隔符 亦稱記錄結束符 用ISO一646的IS 表示 相當于十六進制代碼1D 寫作 1D 16 例如 頭標區(qū) 01041cam2200265a4500目次區(qū)001002000000003000400020005001700024008004100041010002400082020002500106030004400131040001800175050002400193082001800217 數據區(qū)891101s1990 maua j 000 0 eng a 89048230 AC r91 a0316107514 c 12 95 a0316107506 pbk c 5 95 6 95Can aDLC cDLC dDLC 00 aGV943 25 b B741990 00 a796 334 2 220 10 aBrenner RichardJ d1941 10 aMaketheteam pSoccer baheadsupguidetosupersoccer cRichardJ Brenner 30 aHeadsupguidetosupersoccer a1sted aBoston bLittle Brown cc1990 a127p bill c19cm a ASportsillustratedforkidsbook aInstructionsforimprovingsoccerskills Discussesdribbling heading playmaking defense conditioning mentalattitude howtohandleproblemswithcoaches parents andotherplayers andthehistoryofsoccer 0 aSoccer vJuvenileliterature 1 aSoccer 5 數據庫的文檔結構 不是所有的檢索系統(tǒng)的文檔結構都是一致的 但是基本上包括主文檔MF 主文檔的索引文檔MX 倒排檔IF 倒排檔的索引文檔 IX 和詞表文檔 1 主文檔MF MainFiles一般按照順序文檔方式 采取可變長格式 組塊存儲 大型的數據庫一般可以分成若干個主文檔來存儲 如DIALOG的化學文摘數據庫就分為六個文檔 2 主文檔索引 MX 即主文檔的索引文檔 指明每條記錄在磁盤上的存貯起始地址 結構如下 存取號地址指針 5 數據庫的文檔結構 3 倒排檔 IF 就是將紀錄中一切可見字段或屬性值抽出 按照某種順序重新加以組織后得到的一種文檔 既可以按不同類型的字段組成不同到排檔 著者到排檔 主題詞倒排檔等 也可以把所有不同的字段組成一個混合倒排檔 存貯與檢索鍵對應的記錄號集合 5 數據庫的文檔結構 如 按照關鍵詞順序A1 2 8B2 5 6 7C2 3 41 2 8 2 5 6 7 2 3 4 4 倒排檔索引 詞典 文檔 也稱為倒排檔索引 單獨存貯各種作為檢索鍵的值 如著者名 主題詞 分類號 自由詞等 n為出現頻次 即有關的記錄個數 p為地址指針 指向相應的倒排檔記錄的相對地址 碼值命中數記錄號地址指針Knp 5 數據庫的文檔結構 各文檔之間的關系 針對文摘索引數據庫和全文數據庫來說 還應該標明字段和字詞出現的位置 這樣 才能支持位置檢索 a10010001ti1amusing21010004ab5 5 詞表文檔首先必須要有一部主題詞表或敘詞表 幫助用戶選擇檢索詞 提高檢索效率 5 數據庫的文檔結構 6 書目數據庫的建立和維護 1 數據庫的設計A市場與用戶調查 包括以下兩個方面 市場調查 當前數據庫的數量 類型 學科分布 地理分布 生產者 利用情況 發(fā)展動向等 非常重要的一環(huán) 國內目前許多數據庫成為死庫在很大程度上是由于沒有進行市場分析 思考 如何獲得這方面的信息 用戶調查 調查用戶需求以及對檢索系統(tǒng)的期待 內容范圍 檢索功能 數據完整性 以及提供方式等 B數據庫設計 包括以下幾種設計 邏輯設計 在市場調查的基礎上 確定用戶類型 內容范圍 功能 技術設計 確定數據庫的總體結構 各文檔的結構 文檔之間的聯(lián)系 物理組織方式以及存儲空間的分配等 模擬建庫 測試評價 6 書目數據庫的建立和維護 2 數據準備數據采集 根據設計方案規(guī)定的數據庫內容范圍和數據類型 采集所需要的數據 數據評價 評價方法可以采用引文分析法 專家評價法 用戶調查法 來源渠道和著者鑒別法等 數據加工整理 數據加工整理工作包括數據源的分析 數據的提取與描述 數據錯誤及一致性的校驗與糾正等 6 書目數據庫的建立和維護 3 文獻的初始化處理格式標準化 語言編碼標準化 unicodeGb2312big5 存儲格式的選擇 Mpeg Jpeg 有損壓縮和無損壓縮 確定檢索范圍 檢索途徑 檢索途徑 子段 全文 篇名 摘要 關鍵詞 正文 參考文獻等部分 6 書目數據庫的建立和維護 3 文獻的初始化處理非檢索詞的處理 標點符號停用詞etc 目的是提高運算速度 節(jié)省存儲空間 涉及到 標點符號 某些標點符號按照實際情況需要進行處理 如表示所有格的符號 連字符smallbusinessmen等 停用詞和停用算法 主要指沒有任何檢索意義的詞 包括介詞 冠次以及一些其他出現次數過多的詞 思考 使用停用詞和停用算法對查全率和查準率會有什么影響 明確詞義 上下位類 大小寫 6 書
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《初中立定跳遠教學課件》
- 2024年鉗工四級理論知識題庫(附答案解析)
- 企業(yè)網絡設計方案
- 膠合板生產過程中的能源消耗與節(jié)能措施考核試卷
- 《創(chuàng)傷性脾破裂》教學課件
- 洗浴行業(yè)服務品質保障措施實施考核試卷
- 稀有稀土金屬加工中的行業(yè)政策研究與分析考核試卷
- 礦山設備與機械自動化技術研究考核試卷
- 絕緣橡膠制品與應用考核試卷
- 貨幣經紀公司客戶服務體驗提升考核試卷
- 70歲以上老人考駕照,三力測試題庫答案
- 2023年副主任醫(yī)師(副高)-中醫(yī)婦科學(副高)考試上岸歷年考點真題演練含答案
- 醫(yī)院預算業(yè)務流程圖
- ALeader 阿立得 ALD515使用手冊
- 政教主任國旗下的講話稿-講話稿
- 國學文化古典中國風模板
- 國民經濟核算司精講GDP核算
- 畢業(yè)論文PLC在機械手控制系統(tǒng)中的應用
- HY/T 0331-2022綠潮生態(tài)調查與監(jiān)測技術規(guī)范
- GB/T 7064-2017隱極同步發(fā)電機技術要求
- GB/T 31928-2015船舶用不銹鋼無縫鋼管
評論
0/150
提交評論