基于lucene的中文數(shù)碼產(chǎn)品搜索引擎的設(shè)計(jì)

上傳人：1*** IP屬地：廣東上傳時(shí)間：2023-10-28 格式：DOCX 頁(yè)數(shù)：3 大小：38.95KB 積分：12 舉報(bào) 版權(quán)申訴

基于lucene的中文數(shù)碼產(chǎn)品搜索引擎的設(shè)計(jì)_第2頁(yè)

基于lucene的中文數(shù)碼產(chǎn)品搜索引擎的設(shè)計(jì)_第3頁(yè)

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于lucene的中文數(shù)碼產(chǎn)品搜索引擎的設(shè)計(jì)

由于中國(guó)的漢語(yǔ)分詞技術(shù)很少，國(guó)外很少討論漢語(yǔ)。在國(guó)內(nèi),主要的中文分詞技術(shù)有詞表切分法、自動(dòng)切分算法。首先看詞表切分法,它適合于查詢(xún)和存儲(chǔ)效率要求比較高的搜索場(chǎng)合,不足之處是實(shí)現(xiàn)非常復(fù)雜,而且詞表不容易進(jìn)行維護(hù),對(duì)于漢語(yǔ)、日語(yǔ)、韓語(yǔ)等語(yǔ)種需要分開(kāi)維護(hù),另外也還需要包括詞語(yǔ)出現(xiàn)的頻率統(tǒng)計(jì)等方面內(nèi)容;自動(dòng)切分法也是常用的分詞算法,這種算法實(shí)現(xiàn)簡(jiǎn)單,維護(hù)起來(lái)也很容易,但是存在著索引效率不高等缺點(diǎn)。所以筆者認(rèn)為這兩種算法都不能很好地實(shí)現(xiàn)中文分詞。本文提出在Lucene自帶的中文分詞基礎(chǔ)上進(jìn)行改進(jìn),改進(jìn)后能實(shí)現(xiàn)詞庫(kù)更新,提高分詞的準(zhǔn)確性和完整性。Lucene是一個(gè)開(kāi)源的全文搜索引擎架構(gòu),它是用Java語(yǔ)言實(shí)現(xiàn)的,在這種架構(gòu)中定義了查詢(xún)模塊,索引模塊,文本分詞模塊和存儲(chǔ)管理模塊。通過(guò)使用Lucene工具,可以定制自己的搜索引擎系統(tǒng)。在Lucene中,分詞的實(shí)現(xiàn)是通過(guò)二元語(yǔ)法方式進(jìn)行切分,經(jīng)過(guò)這種方法,將處理的文檔切分成多個(gè)詞,但是這種算法切分的中文分詞不夠智能,如“中華人民共和國(guó)”經(jīng)過(guò)切分后變成“中華、華人、人民、民共、共和、和國(guó)”。筆者重寫(xiě)了中文分詞器,使用已有的詞庫(kù),通過(guò)序列化處理,能夠提高分詞的效率。1segmen類(lèi)、tokeniz類(lèi)筆者定義的是由java編寫(xiě)的分詞算法,用戶(hù)可以定義分詞切分的字?jǐn)?shù),設(shè)置最多可以匹配的數(shù)字?jǐn)?shù)目。另外它還提供了API,可以向詞庫(kù)中添加新詞。自定義的類(lèi)有Segmenter類(lèi),Tokeniz類(lèi),SegmenterUtil類(lèi)。如上3個(gè)類(lèi)的作用分別是:Segmenter類(lèi)用來(lái)載入所用的詞庫(kù),通過(guò)調(diào)用,可以把給定的文本用符號(hào)進(jìn)行分隔,將處理后的字符顯示出來(lái)。Tokeniz類(lèi)用來(lái)進(jìn)行詞法分析,用來(lái)對(duì)詞語(yǔ)進(jìn)行識(shí)別。SegmenterUtil類(lèi)來(lái)獲取Segmenter類(lèi)序列化的結(jié)果,返回的是經(jīng)過(guò)序列化后的對(duì)象。具體的算法設(shè)計(jì)思想,在這個(gè)模塊中由Segmenter類(lèi)來(lái)載入詞庫(kù)文件,詞庫(kù)使用的是中科院公布的詞庫(kù),能識(shí)別比較新的詞語(yǔ)(比如騰訊、百度等)。在加載后要同時(shí)定義Tokeniz類(lèi)的子類(lèi),實(shí)例化Tokeniz類(lèi),利用它的子類(lèi)來(lái)進(jìn)行詞語(yǔ)切分,為了提高加載詞庫(kù)的效率,可以通過(guò)Java中的Serializable接口對(duì)Segmenter對(duì)象進(jìn)行序列化,經(jīng)過(guò)序列化后可以提高載入索引的效率。2提取數(shù)據(jù)后的網(wǎng)站數(shù)碼產(chǎn)品搜索引擎系統(tǒng)一個(gè)專(zhuān)業(yè)領(lǐng)域的的搜索引擎,不同于通用的搜索引擎,是為用戶(hù)在數(shù)碼產(chǎn)品領(lǐng)域中查找信息。從抓取網(wǎng)頁(yè)原理和體系結(jié)構(gòu)來(lái)看,數(shù)碼產(chǎn)品收縮引擎是由針對(duì)性地選擇一些站點(diǎn)進(jìn)行抓取,所以可以減少網(wǎng)絡(luò)開(kāi)銷(xiāo)。這個(gè)系統(tǒng):由以下的5個(gè)功能部分構(gòu)成:分別是信息抓取部分、數(shù)據(jù)庫(kù)處理部分、索引部分,搜索部分,分詞部分,如圖1所示。由信息抓取部分來(lái)負(fù)責(zé)網(wǎng)頁(yè)上的信息的獲取,信息可以是以網(wǎng)頁(yè)形式,也可以是pdf,或者是word格式,將抓取的數(shù)據(jù)通過(guò)中間的核心部分交給IndexWriter模塊,經(jīng)過(guò)調(diào)用后實(shí)例化了Index對(duì)象,將處理結(jié)果保存在磁盤(pán)中指定的位置。在用戶(hù)使用搜索引擎時(shí),輸入查找的信息后,系統(tǒng)向核心部分提出檢索的要求,由核心部分將此要求交給Search來(lái)處理,處理后把結(jié)果顯示給請(qǐng)求方。2.1信息讀取實(shí)現(xiàn)過(guò)程本系統(tǒng)的抓取功能是由Heritrix擴(kuò)展實(shí)現(xiàn)的,實(shí)現(xiàn)信息抓取的過(guò)程包括,選擇抓取的網(wǎng)站,分析網(wǎng)站內(nèi)容同時(shí)準(zhǔn)備抓取清單,開(kāi)始抓取,解析網(wǎng)頁(yè)內(nèi)容。2.2主要特征識(shí)別分詞的實(shí)現(xiàn)基于詞庫(kù)的創(chuàng)建,當(dāng)有了詞庫(kù)后通過(guò)詞庫(kù)來(lái)處理抓取的信息。本文采用的是中科院的ICTCLAS系統(tǒng),本系統(tǒng)具有人名識(shí)別、地名識(shí)別、組織機(jī)構(gòu)名識(shí)別、支持行業(yè)詞典、用戶(hù)自定義詞典、多級(jí)詞性標(biāo)注、關(guān)鍵詞提取等特征。另外筆者還構(gòu)建了針對(duì)本系統(tǒng)(數(shù)碼產(chǎn)品銷(xiāo)售網(wǎng)站)的產(chǎn)品信息詞庫(kù),里面包括大量的數(shù)碼產(chǎn)品的品牌名稱(chēng),型號(hào)名稱(chēng)等信息,以便于更好的為用戶(hù)提供針對(duì)性地搜索服務(wù)。系統(tǒng)的詞庫(kù)文件中大約有2500個(gè)詞。分詞系統(tǒng)的實(shí)現(xiàn),如圖2所示,在SegmenterUtil類(lèi)來(lái)對(duì)對(duì)象序列化處理,將序列化的結(jié)果以文件形式保存到磁盤(pán)中,也可以將序列化后的對(duì)象進(jìn)行反序列化。2.3數(shù)據(jù)庫(kù)的定義這部分要將數(shù)碼產(chǎn)品的詳細(xì)信息記錄在數(shù)據(jù)庫(kù)中,具體的過(guò)程,定義數(shù)據(jù)庫(kù)中的各個(gè)字段,以及字段的類(lèi)型;定義一個(gè)產(chǎn)品類(lèi),用來(lái)將數(shù)據(jù)庫(kù)和索引中用到的信息保存;將具體的產(chǎn)品信息寫(xiě)在數(shù)據(jù)庫(kù)中。2.4對(duì)策三:單次使用冠詞進(jìn)行分析,方便獲得無(wú)詞索引建立的過(guò)程:(1)把數(shù)據(jù)轉(zhuǎn)換為L(zhǎng)ucene認(rèn)識(shí)的單詞流的形式。(2)進(jìn)行分析,把單詞流中的冠詞,介詞,代詞等無(wú)關(guān)詞去掉,方便數(shù)據(jù)更好地索引。(3)寫(xiě)索引,將數(shù)據(jù)保存在反向索引的數(shù)據(jù)結(jié)構(gòu)中,利用反向索引可以將單詞置為關(guān)鍵值,可以通過(guò)單詞查找相關(guān)文檔,可以快速實(shí)現(xiàn)查找并且降低了磁盤(pán)空間。2.5索引篩選結(jié)果反饋搜索模塊在收到網(wǎng)站頁(yè)面的搜索請(qǐng)求時(shí),利用相同的分詞技術(shù)對(duì)關(guān)鍵詞切分,通過(guò)轉(zhuǎn)換成Query之后返回給搜索部分,通過(guò)調(diào)用讀索引器IndexReader,讀入索引文件,將匹配的結(jié)果交給搜索器,處理后反饋給頁(yè)面。3系統(tǒng)搜索結(jié)果為了測(cè)試改進(jìn)后的基于Lucene網(wǎng)頁(yè)中文分詞的效果,在數(shù)碼產(chǎn)品搜索引擎系統(tǒng)上進(jìn)行了測(cè)試。使用此搜索引擎系統(tǒng)搜索“三星手機(jī)”,如果未改進(jìn)Lucene分詞算法,搜索的返回列表中包括“三”、“三星”、“星”、“手”、“手機(jī)”等作為關(guān)鍵字的鏈接,包含的臟鏈接超過(guò)49%,改進(jìn)之后返回的列表是以“三星”+“手機(jī)”為關(guān)鍵字的網(wǎng)頁(yè)列表,搜索的返回列表中搜索到171個(gè)項(xiàng)目,與三星手機(jī)相關(guān)的網(wǎng)頁(yè)有153個(gè),有效鏈接為89%。4基于lucene工具包的數(shù)字視頻

人人文庫(kù)> 全部分類(lèi)> 專(zhuān)業(yè)文獻(xiàn) > 學(xué)術(shù)論文

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于lucene的中文數(shù)碼產(chǎn)品搜索引擎的設(shè)計(jì)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論