InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實_第1頁
InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實_第2頁
InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實_第3頁
InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實_第4頁
InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實2024/3/30InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實InfoMall萬維網(wǎng)信息博物館中國萬維網(wǎng)歷史信息的存儲和展示系統(tǒng)維護2001年以來從中國萬維網(wǎng)上搜集的近12億篇網(wǎng)頁(約20TeraByte)以每月1000萬的速度增長InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實現(xiàn)有服務(wù)及問題目前提供三種服務(wù)根據(jù)URL檢索歷史網(wǎng)頁提供人工整理的歷史事件專題回放免費提供網(wǎng)頁和日志數(shù)據(jù)局限訪問途徑單一(只能通過URL)整理歷史事件專題需要大量的人工工作只能獲得某個時間段搜集的全部網(wǎng)頁,且免費數(shù)據(jù)的獲取需要很多人工維護工作InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實InfoMall數(shù)據(jù)檢索服務(wù)目的整合現(xiàn)有服務(wù)通過統(tǒng)一的數(shù)據(jù)訪問接口,提供更加豐富,更加自動和便利的數(shù)據(jù)服務(wù)InfoMall數(shù)據(jù)檢索服務(wù)提供以InfoMall歷史網(wǎng)頁文檔為核心數(shù)據(jù),以內(nèi)容、空間、時間為查詢緯度的,面向高層應(yīng)用的客戶服務(wù)器體系結(jié)構(gòu)的數(shù)據(jù)檢索服務(wù)。InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實“三維”的數(shù)據(jù)模型InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實檢索服務(wù)原語AugmentedBNF語法定義(部分摘錄如下)<query>=“select”<data-type>“from”<data-repository>“where”1*<conditions>[“max”<maximum-item-number>]<conditions>=<content-condition>/<time-condition>/<location-condition>例子selectWebsfrom:1234wherecontentcontains民主timebetween1997-02to2005-02locationatGEO:150000locationatURL:*.”InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實系統(tǒng)組成InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實全文檢索系統(tǒng)InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實索引構(gòu)建流程(1)從文檔源取得文檔(2)對文檔進行分詞得到<DocID,Term,Positions>三元組(3)查看詞典,把新出現(xiàn)的索引詞合并到詞典中,得到<DocID,TermID,Positions>(4)當<DocID,TermID,Positions>三元組的數(shù)量恰好填滿內(nèi)存時,對整個三元組集合執(zhí)行快速排序(5)使用“游程編碼”處理遞增排序的三元組,然后編碼壓縮,輸出到臨時順串文件(runfile)(6)對所有順串文件執(zhí)行多路歸并,結(jié)果輸出為最終索引文件(7)將最終得到的詞典存入文件InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實索引壓縮目的減少索引數(shù)據(jù)空間提高索引構(gòu)建的速度方法第一步,游程編碼,也就是把遞增整數(shù)序列變換為差分序列(原來相鄰整數(shù)之間的增量序列)第二步,采用某種編碼方法對整數(shù)進行編碼InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實編碼方法統(tǒng)計方法哈夫曼編碼(Huffmancoding)算術(shù)編碼(arithmeticcoding)特定分布的ad-hoc編碼UnaryCode(Pr[x]=2-x)DeltaCodeGolombCode字典方法Ziv-Lempel編碼InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實實驗結(jié)果InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實本文貢獻設(shè)計了一個服務(wù):如何利用寶貴的歷史網(wǎng)頁數(shù)據(jù)提供公共信息服務(wù)以充分發(fā)揮信息作為研究工作基礎(chǔ)設(shè)施的作用設(shè)計和實現(xiàn)了全文索引系統(tǒng):重點討論了利用壓縮技術(shù)減少全文索引的倒排文件索引的大小,為海量歷史網(wǎng)頁數(shù)據(jù)的檢索服務(wù)提供現(xiàn)實可行的基礎(chǔ)設(shè)施保障InfoMa

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論