版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實2024/3/30InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實InfoMall萬維網(wǎng)信息博物館中國萬維網(wǎng)歷史信息的存儲和展示系統(tǒng)維護2001年以來從中國萬維網(wǎng)上搜集的近12億篇網(wǎng)頁(約20TeraByte)以每月1000萬的速度增長InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實現(xiàn)有服務(wù)及問題目前提供三種服務(wù)根據(jù)URL檢索歷史網(wǎng)頁提供人工整理的歷史事件專題回放免費提供網(wǎng)頁和日志數(shù)據(jù)局限訪問途徑單一(只能通過URL)整理歷史事件專題需要大量的人工工作只能獲得某個時間段搜集的全部網(wǎng)頁,且免費數(shù)據(jù)的獲取需要很多人工維護工作InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實InfoMall數(shù)據(jù)檢索服務(wù)目的整合現(xiàn)有服務(wù)通過統(tǒng)一的數(shù)據(jù)訪問接口,提供更加豐富,更加自動和便利的數(shù)據(jù)服務(wù)InfoMall數(shù)據(jù)檢索服務(wù)提供以InfoMall歷史網(wǎng)頁文檔為核心數(shù)據(jù),以內(nèi)容、空間、時間為查詢緯度的,面向高層應(yīng)用的客戶服務(wù)器體系結(jié)構(gòu)的數(shù)據(jù)檢索服務(wù)。InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實“三維”的數(shù)據(jù)模型InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實檢索服務(wù)原語AugmentedBNF語法定義(部分摘錄如下)<query>=“select”<data-type>“from”<data-repository>“where”1*<conditions>[“max”<maximum-item-number>]<conditions>=<content-condition>/<time-condition>/<location-condition>例子selectWebsfrom:1234wherecontentcontains民主timebetween1997-02to2005-02locationatGEO:150000locationatURL:*.”InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實系統(tǒng)組成InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實全文檢索系統(tǒng)InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實索引構(gòu)建流程(1)從文檔源取得文檔(2)對文檔進行分詞得到<DocID,Term,Positions>三元組(3)查看詞典,把新出現(xiàn)的索引詞合并到詞典中,得到<DocID,TermID,Positions>(4)當<DocID,TermID,Positions>三元組的數(shù)量恰好填滿內(nèi)存時,對整個三元組集合執(zhí)行快速排序(5)使用“游程編碼”處理遞增排序的三元組,然后編碼壓縮,輸出到臨時順串文件(runfile)(6)對所有順串文件執(zhí)行多路歸并,結(jié)果輸出為最終索引文件(7)將最終得到的詞典存入文件InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實索引壓縮目的減少索引數(shù)據(jù)空間提高索引構(gòu)建的速度方法第一步,游程編碼,也就是把遞增整數(shù)序列變換為差分序列(原來相鄰整數(shù)之間的增量序列)第二步,采用某種編碼方法對整數(shù)進行編碼InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實編碼方法統(tǒng)計方法哈夫曼編碼(Huffmancoding)算術(shù)編碼(arithmeticcoding)特定分布的ad-hoc編碼UnaryCode(Pr[x]=2-x)DeltaCodeGolombCode字典方法Ziv-Lempel編碼InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實實驗結(jié)果InfoMall數(shù)據(jù)檢索服務(wù)的設(shè)計以及全文檢索系統(tǒng)的初步實本文貢獻設(shè)計了一個服務(wù):如何利用寶貴的歷史網(wǎng)頁數(shù)據(jù)提供公共信息服務(wù)以充分發(fā)揮信息作為研究工作基礎(chǔ)設(shè)施的作用設(shè)計和實現(xiàn)了全文索引系統(tǒng):重點討論了利用壓縮技術(shù)減少全文索引的倒排文件索引的大小,為海量歷史網(wǎng)頁數(shù)據(jù)的檢索服務(wù)提供現(xiàn)實可行的基礎(chǔ)設(shè)施保障InfoMa
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中國色母粒行業(yè)市場競爭格局及投資方向研究報告(智研咨詢)
- 糖尿病引發(fā)的并發(fā)癥
- 2023年上海市數(shù)字城市規(guī)劃研究中心事業(yè)單位招聘考試真題
- 老年常見病預(yù)防及護理
- 2023年山西大同云岡區(qū)教育系統(tǒng)所屬事業(yè)單位招聘筆試真題
- 2023年寧波象山縣機關(guān)事業(yè)單位編外招聘考試真題
- 2023年遼陽市農(nóng)村義務(wù)教育階段學校教師特設(shè)崗位計劃招考考試真題
- 2023年河南省理工中等專業(yè)學校招聘工作人員考試真題
- 采購模具合同范本
- 物聯(lián)網(wǎng)澆花系統(tǒng)
- 第五講鑄牢中華民族共同體意識-2024年形勢與政策
- 【寒假閱讀提升】四年級下冊語文試題-非連續(xù)性文本閱讀(一)-人教部編版(含答案解析)
- 霍去病課件教學課件
- 郵政儲蓄銀行的2024年度借款合同范本
- 山東省濱州市博興縣2024-2025學年九年級上學期11月期中數(shù)學試題
- 2.1 充分發(fā)揮市場在資源配置中的決定性作用(課件) 2024-2025學年高中政治 必修2 經(jīng)濟與社會
- 外立面改造項目腳手架施工專項方案
- ASTMD638-03中文版塑料拉伸性能測定方法
- 統(tǒng)編版(2024新版)七年級上冊道德與法治期中模擬試卷(含答案)
- 二十屆三中全會精神應(yīng)知應(yīng)會知識測試30題(附答案)
- 2024美團商家入駐合作協(xié)議
評論
0/150
提交評論