




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
淺談校園網(wǎng)多數(shù)據(jù)源信息檢索系統(tǒng)的設(shè)計與實現(xiàn)的論文本文從網(wǎng)絡(luò)收集而來,上傳到平臺為了幫到更多的人,如果您需要使用本文檔,請點擊下載按鈕下載本文檔(有償下載),另外祝您生活愉快,工作順利,萬事如意!
論文關(guān)鍵詞:信息集成異構(gòu)數(shù)據(jù)odinutchlucene
論文摘要:高校校園網(wǎng)信息資源數(shù)量巨大,各信息發(fā)布系統(tǒng)的相互獨立及多種異構(gòu)數(shù)據(jù)源的使用對在校園網(wǎng)范圍內(nèi)進行統(tǒng)一的信息檢索設(shè)置了障礙,系統(tǒng)著重解決由非結(jié)構(gòu)化文本數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)庫數(shù)據(jù)形成的多數(shù)據(jù)源的集成與整合問題,在nutch搜索引擎基礎(chǔ)上利用lucene接口對多種源數(shù)據(jù)建立索引,構(gòu)建多數(shù)據(jù)源全文信息檢索平臺,從而有效地實現(xiàn)全網(wǎng)信息檢索并提高檢索速度和精度。
一、引言
隨著校園信息化進程的不斷深入,校園網(wǎng)上信息資源的數(shù)量迅速膨脹,各種相互獨立的信息發(fā)布系統(tǒng)在提高效率的同時,也為校園網(wǎng)范圍內(nèi)統(tǒng)一的信息檢索設(shè)置了障礙,校園網(wǎng)信息資源主要包括兩類數(shù)據(jù):一類是非結(jié)構(gòu)化文本數(shù)據(jù),以網(wǎng)頁文件、文本文件、電子郵件等形式存儲在多個信息系統(tǒng)當(dāng)中:另一類是結(jié)構(gòu)化數(shù)據(jù),以數(shù)據(jù)記錄的形式存儲在不同的異構(gòu)數(shù)據(jù)庫之中。由于各獨立信息系統(tǒng)間沒有相互連接的渠道,快速檢索校園網(wǎng)內(nèi)部信息存在著較大困難。如何設(shè)計一個穩(wěn)定而高效的架構(gòu),能夠?qū)Χ喾N信息數(shù)據(jù)源進行集成與整合,實現(xiàn)全網(wǎng)范圍內(nèi)全文信息檢索成為校園信息化過程中一個重要研究課題。
校園網(wǎng)信息檢索技術(shù)大體可分為三個發(fā)展階段:第一階段是基于數(shù)據(jù)庫查詢方式的結(jié)構(gòu)化數(shù)據(jù)檢索,應(yīng)用于信息發(fā)布系統(tǒng)內(nèi)部的檢索功能,通常是通過匹配標(biāo)題、作者和摘要等字段來實現(xiàn)信息檢索。由于受到數(shù)據(jù)庫性能、檢索效率等因素影響,不能實現(xiàn)基于匹配正文內(nèi)容的全文檢索,因此該階段檢索方式從檢索范圍到檢索性能及效果都并不能完全滿足現(xiàn)階段用戶的需要:第二階段是將基于互聯(lián)網(wǎng)的搜索引擎技術(shù)應(yīng)用于校園網(wǎng),構(gòu)建校園網(wǎng)信息檢索平臺。主要采用開源lueene提供的全文檢索功能和基于lucene索引管理、存儲和檢索技術(shù)之上的nutch搜索引擎技術(shù)。這兩種方式能夠?qū)崿F(xiàn)對非結(jié)構(gòu)化文本數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)庫數(shù)據(jù)的檢索,應(yīng)用在網(wǎng)站站內(nèi)索引、企業(yè)內(nèi)部文檔管理及知識管理系統(tǒng)等多方面,對應(yīng)用系統(tǒng)內(nèi)部全文信息檢索取得了較好的效果,但要實現(xiàn)校園網(wǎng)全網(wǎng)范圍內(nèi)多系統(tǒng)綜合信息檢索還有待進一步完善與改進:當(dāng)前校園網(wǎng)信息檢索技術(shù)已經(jīng)發(fā)展到多系統(tǒng)多數(shù)據(jù)源信息檢索階段,通過多種方式將各種數(shù)據(jù)源統(tǒng)一建立索引進行檢索,對于非結(jié)構(gòu)化文本的web頁面信息采用網(wǎng)絡(luò)爬蟲方式獲取數(shù)據(jù),對于結(jié)構(gòu)化文檔數(shù)據(jù)源可通過lucene接口和nutch插件機制與第三方類庫相結(jié)合來進行文檔分析處理,對于數(shù)據(jù)庫資源通過lucene數(shù)據(jù)庫訪問接口來獲取數(shù)據(jù)記錄并建立索引。目前校園網(wǎng)信息檢索平臺大多是以檢索功能為核心通過上述方式與多數(shù)據(jù)源集成的輻射狀架構(gòu),該種架構(gòu)雖可實現(xiàn)全網(wǎng)多數(shù)據(jù)源檢索,但檢索平臺與各應(yīng)用系統(tǒng)耦合度高,系統(tǒng)整體穩(wěn)定性和可擴展性較差,數(shù)據(jù)安全和數(shù)據(jù)質(zhì)量較低。
針對上述問題,本系統(tǒng)將數(shù)據(jù)采集和數(shù)據(jù)集成作為平臺整體架構(gòu)的基礎(chǔ),將oracle數(shù)據(jù)集成工具odi用于對多數(shù)據(jù)源結(jié)構(gòu)化數(shù)據(jù)的抽取、轉(zhuǎn)換和處理,從而提供一個統(tǒng)一的全局共享數(shù)據(jù)源,對非結(jié)構(gòu)化文本數(shù)據(jù)提供對word、pdf、ppt及xml等多種格式化文檔解析的支持、以上述工作為基礎(chǔ),系統(tǒng)將分散分布、非結(jié)構(gòu)化、異構(gòu)的信息資源統(tǒng)一整合,提供給校園網(wǎng)用戶統(tǒng)一的全文信息檢索平臺。
二、系統(tǒng)體系結(jié)構(gòu)
多數(shù)據(jù)源校園網(wǎng)信息檢索系統(tǒng)分為數(shù)據(jù)采集層和信息檢索層兩層體系架構(gòu),數(shù)據(jù)采集層以oracle全局?jǐn)?shù)據(jù)庫為核心向下通過odi集成各異構(gòu)數(shù)據(jù)庫數(shù)據(jù),并通過網(wǎng)絡(luò)爬蟲和非結(jié)構(gòu)化文本數(shù)據(jù)解析來實現(xiàn)多數(shù)據(jù)源數(shù)據(jù)采集,向上通過數(shù)據(jù)庫接口為上層應(yīng)用提供數(shù)據(jù):信息檢索層采用以lueene為基礎(chǔ)的nutch搜索引擎實現(xiàn)信息索引和檢索。系統(tǒng)共包括異構(gòu)數(shù)據(jù)庫集成、異構(gòu)文檔解析、信息分類模塊、信息索引模塊、信息檢索模塊和系統(tǒng)管理模塊六部分,系統(tǒng)體系結(jié)構(gòu)如圖1所示。
校園網(wǎng)信息檢索技術(shù)并不是簡單地將開源搜索引擎技術(shù)應(yīng)用于校園網(wǎng),而是針對校園網(wǎng)內(nèi)部數(shù)據(jù)特點設(shè)計相應(yīng)的解決方案。異構(gòu)數(shù)據(jù)庫集成模塊從系統(tǒng)底層做好結(jié)構(gòu)化數(shù)據(jù)庫數(shù)據(jù)的高效獲取和有效組織。校園網(wǎng)內(nèi)信息發(fā)布以web網(wǎng)站為主要方式,對其進行信息檢索一是采用網(wǎng)絡(luò)爬蟲方式進行數(shù)據(jù)采集:二是通過lucene數(shù)據(jù)庫接口與各異構(gòu)數(shù)據(jù)庫相連采集數(shù)據(jù),第一種方式雖然操作簡單,但在數(shù)據(jù)采集質(zhì)量和深度上都有所不足,并沒有充分利用校園網(wǎng)信息數(shù)據(jù)存儲的特點:第二種方式雖然在數(shù)據(jù)來源上有所改進,但在系統(tǒng)的穩(wěn)定性、耦合程度和可擴展性上都存在不足,從各異構(gòu)數(shù)據(jù)庫中獲取的數(shù)據(jù)無法進一步加工處理,從而導(dǎo)致對上層應(yīng)用的支持有限。校園網(wǎng)內(nèi)數(shù)據(jù)雖然表現(xiàn)為web網(wǎng)頁等非結(jié)構(gòu)化文本形式,但其數(shù)據(jù)來源大都存儲在結(jié)構(gòu)化數(shù)據(jù)庫中。通過獲取對各業(yè)務(wù)異構(gòu)數(shù)據(jù)庫的查詢管理權(quán)限,系統(tǒng)將oracle數(shù)據(jù)集成工具odi代替網(wǎng)絡(luò)爬蟲和數(shù)據(jù)庫訪問接口,從底層實現(xiàn)對多個異構(gòu)數(shù)據(jù)庫的統(tǒng)一管理,使系統(tǒng)具有更加穩(wěn)定和高效的數(shù)據(jù)來源。異構(gòu)文檔解析模塊實現(xiàn)對pdf、office等文檔的解析功能,通過插件機制提取各種格式化文檔的文本信息進行處理。信息分類模塊按照信息來源的部門、發(fā)布時間等提供分類信息檢索,實現(xiàn)信息的高級檢索功能。信息索引模塊對多種數(shù)據(jù)源數(shù)據(jù)建立索引,并進行索引優(yōu)化以減少索引文件的數(shù)量,并且能在搜索時減少讀取索引文件的時間。信息檢索模塊為校園網(wǎng)用戶提供統(tǒng)一的信息檢索的平臺,可以快速定位用戶所需資源,及時有效地獲取信息。系統(tǒng)管理模塊針對不同資源,設(shè)置不同的訪問權(quán)限,按照用戶權(quán)限決定可以訪問的資源。
三、系統(tǒng)主要功能模塊
數(shù)據(jù)集成工具(odi)
odi(oracledataintegrator)是oracle公司采用elt理念進行數(shù)據(jù)抽取、加載、轉(zhuǎn)換的數(shù)據(jù)集成中間件工具,其最大特點是提出了知識模塊的概念。odi將一些場景(如文件加載到數(shù)據(jù)庫,從mysql數(shù)據(jù)庫抓取數(shù)據(jù)到oracle數(shù)據(jù)庫等)的詳細(xì)實現(xiàn)步驟使用jvthon腳本語言結(jié)合數(shù)據(jù)庫sql語句錄制成詳細(xì)的步驟記錄下來,形成知識模塊,odi中共有超過100種主流數(shù)據(jù)庫引擎和應(yīng)用系統(tǒng)的知識模塊,基本上包含了普通應(yīng)用所涉及的所有場景,因此odi可以實現(xiàn)對校園網(wǎng)內(nèi)多種異構(gòu)數(shù)據(jù)庫的支持。在一個數(shù)據(jù)集成任務(wù)中,odi通過聲明設(shè)計運用接口和關(guān)系圖等概念聲明數(shù)據(jù)集成規(guī)則,使集成的邏輯和技術(shù)層面分離,底層的技術(shù)方面由知識模塊描述和定義,系統(tǒng)只需要把重點放在集成任務(wù)規(guī)則的制定上面,再將制定好的集成規(guī)則封裝為一個服務(wù)模型。發(fā)布和訂閱該模型便可實現(xiàn)類似于數(shù)據(jù)增量定時更新的功能,異構(gòu)數(shù)據(jù)庫集成模塊示意如圖2所示。
系統(tǒng)以全局?jǐn)?shù)據(jù)庫為核心通過odi工具對校園網(wǎng)內(nèi)異構(gòu)數(shù)據(jù)庫數(shù)據(jù)進行抽取、轉(zhuǎn)換、清洗和加載,集成后的數(shù)據(jù)質(zhì)量得到了提高,對異構(gòu)數(shù)據(jù)源的處理也得到了加強。在對數(shù)據(jù)處理的過程中提取了信息的標(biāo)題、作者、正文、發(fā)布時間、url地址等字段,可定時對各異構(gòu)數(shù)據(jù)庫數(shù)據(jù)進行增量更新操作,從而替代利用網(wǎng)絡(luò)爬蟲獲取信息數(shù)據(jù)。oracle全局?jǐn)?shù)據(jù)庫可以集成校園網(wǎng)內(nèi)大部分信息發(fā)布系統(tǒng)的數(shù)據(jù)并提供給信息索引和檢索模塊。
與nutch
lucelle不是一個完整的搜索引擎,而是一個用于實現(xiàn)全文檢索的軟件庫,采用java語言開發(fā),提供了檢索內(nèi)核,其設(shè)計原理是索引檢索,任何信息資源只要被轉(zhuǎn)換成文本格式都可以被檢索。nutch是lucene得到廣泛應(yīng)用和認(rèn)可后出現(xiàn)的搜索引擎系統(tǒng),內(nèi)部使用了lucene的索引檢索技術(shù),并進一步封裝了網(wǎng)絡(luò)爬蟲和分布式處理等模塊從而成為一個完整的應(yīng)用系統(tǒng)。本系統(tǒng)以nutch為基礎(chǔ),既應(yīng)用了nuteh系統(tǒng)的完整性,減少了不必要的開發(fā),又可靈活使用lucene接口,豐富系統(tǒng)功能。
對于非結(jié)構(gòu)化文本信息,系統(tǒng)對office文檔采用了poi插件方式,用pdfbox插件來實現(xiàn)對pdf文檔的讀取,并將上述插件集成到nutch當(dāng)中。信息檢索的基礎(chǔ)是文本分析,而文本分析在很大程度上依賴于分詞模塊對語言的處理。nutch自帶的cjk分詞模塊對中文分詞的效率和準(zhǔn)確度上不能滿足實際需要。為此。在對比了je分詞、paoding分詞和ictclas分詞等多款中文分詞模塊后,paoding分詞由于其開源性和良好的分詞效果被本系統(tǒng)采用,并通過nuteh的插件機制集成到系統(tǒng)當(dāng)中。
3.信息索引與檢索
為滿足用戶全網(wǎng)檢索和分類分部門檢索信息的需要,并提高檢索效率,信息索引模塊首先對每個數(shù)據(jù)源建立索引文件提供給分類檢索用戶,然后通過優(yōu)化索引提供給全網(wǎng)檢索用戶。優(yōu)化索引就是將多個索引文件合并成單個文件的過程,目的是為了減少索引文件的數(shù)量,并且能在搜索時減少讀取索引文件的時間。nutch中的indexwrite類提供了optimize方法實現(xiàn)該優(yōu)化操作。利用nutch中的multisearcher類可實現(xiàn)對優(yōu)化后索引的全網(wǎng)檢索功能,檢索結(jié)果會以一種指定的順序合并起來。
針對校園網(wǎng)用戶信息檢索的特點。綜合考慮信息相關(guān)度、時效性和訪問量等因素后,系統(tǒng)采用了自定義的排序機制,文檔文本相關(guān)度作為信息檢索的主要排序依據(jù),信息發(fā)布時間和訪問次數(shù)作為重要的排序因子,系統(tǒng)通過lucene的激勵因子boost值來改變文檔得分,從而調(diào)整文檔的出現(xiàn)順序。系統(tǒng)為校園網(wǎng)用戶提供了通用檢索和高級檢索功能,通用檢索在用戶輸入檢索信息的關(guān)鍵字后可檢索出所需信息:高級檢索功能為用戶提供了更為詳細(xì)的檢索條件,用戶可根據(jù)需要對信息進行更加精細(xì)的檢索。系統(tǒng)管理功能除對用戶權(quán)限進行管理外還對信息檢索結(jié)果進行屏蔽和進一步處理。
四、系統(tǒng)運行環(huán)境
考慮到開發(fā)調(diào)試和維護的方便性,系統(tǒng)在測試運行期間采用了windows平臺。上層在開源nutch搜索引擎的基礎(chǔ)上進行開發(fā),采用myeclipse作為開發(fā)平臺,用java語言實現(xiàn),因此具有跨平臺特性。但由于運行nutch自帶的腳本命令需要linux環(huán)境,所以必須首先安裝cygwin來模擬這種環(huán)境。為了確保版本能夠正確運行,java虛擬機需采用以上的版本,運用作為檢索平臺的容器。系統(tǒng)底層采用oracle10g作為全局?jǐn)?shù)據(jù)庫。數(shù)據(jù)集成工具odi版本為,與數(shù)據(jù)庫安裝在同一臺服務(wù)器上。
五、結(jié)束語
校園網(wǎng)多數(shù)據(jù)源信息檢索系統(tǒng)將oracle數(shù)據(jù)集成工具odi引入到數(shù)據(jù)采集模塊,實現(xiàn)了對校園網(wǎng)內(nèi)各信息發(fā)布系統(tǒng)后臺異構(gòu)數(shù)據(jù)庫的有效整合與集成,改變了以往主要通過網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)的方式,提高了數(shù)據(jù)來源的精度與質(zhì)量,又通過nutch插件機制實現(xiàn)了對非結(jié)構(gòu)化文本的解析。從而為信息索引與檢索打下了良好的基礎(chǔ)。信息檢索模塊基于nutch搜索引擎技術(shù)并充分利用lucene接口實現(xiàn)了靈活高效的全網(wǎng)信息檢索系統(tǒng)
該系統(tǒng)為校園網(wǎng)用戶提供了方便快捷的信息檢索平臺,整合了校園網(wǎng)信息資源,實現(xiàn)了信息共享,對校園信息化建設(shè)起了很好的推進作用。
經(jīng)過對系統(tǒng)測試運行期間性能的測試,信息檢索時間和精度都得到了較大的提升,信息檢索的廣度和深度也有了很大提高,滿足了校園網(wǎng)用戶的需要、今后的工作是在信息檢索功能的基礎(chǔ)上進一步研究校園網(wǎng)輿情監(jiān)測技術(shù),完善系統(tǒng)功能,在提高校園信息化程度的同時為建設(shè)積極向上的校園網(wǎng)絡(luò)文化起到較好的推動作用。
參考文獻:
[1]王雪松lucene+nutch搜索引擎[m]北京:人民郵電出版社,2008
[2]邱哲,符滔滔,王雪松,開發(fā)自己的搜索引擎lucellc+heritrix,北京:人民郵電出版社,2010
[3]oracle,oracledataintegrator技術(shù)白皮書,北
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 深入理解備考要素福建事業(yè)單位考試試題及答案
- 2025年國際金融理財師考試心態(tài)調(diào)整試題及答案
- 2024年掌握項目執(zhí)行與控制試題及答案
- 項目溝通渠道的試題及答案
- 2024年微生物學(xué)原理及應(yīng)用試題及答案
- 招聘輔導(dǎo)員考試中的學(xué)科知識與實踐結(jié)合探討試題及答案
- 常用花材運用技巧的試題及答案
- 臨床微生物檢驗的流程與注意事項試題及答案
- 探討微生物檢驗實踐中的挑戰(zhàn)與試題及答案
- 客運站環(huán)境保護考核試卷
- 2025年03月四川成都農(nóng)業(yè)科技中心公開招聘筆試歷年典型考題(歷年真題考點)解題思路附帶答案詳解
- 全過程工程咨詢投標(biāo)方案(技術(shù)方案)
- GB/T 4802.2-2008紡織品織物起毛起球性能的測定第2部分:改型馬丁代爾法
- GB 14934-2016食品安全國家標(biāo)準(zhǔn)消毒餐(飲)具
- 輔警考試試題
- 蘇科版三年級上冊勞動第一課《包書皮》課件(定稿)
- 框架結(jié)構(gòu)柱、梁板模板安裝技術(shù)交底
- 二年級數(shù)學(xué)期中測試卷(含答案)
- 簡約紅色五四青年節(jié)活動策劃PPT模板
- 年產(chǎn)萬噸丙烯酸工藝設(shè)計
- 復(fù)擺式顎式破碎機結(jié)構(gòu)設(shè)計畢業(yè)設(shè)計
評論
0/150
提交評論