lunce搜索引擎框架教程

上傳人：小*** IP屬地：天津上傳時間：2022-02-16 格式：DOC 頁數(shù)：16 大?。?83KB 積分：19 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩11頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 java 技術(shù)網(wǎng)，歡迎大家訪問!學(xué)習(xí)不息，進(jìn)步不止全文搜索lucene使用與優(yōu)化2008-01-23 20:581 lucene 簡介1.1什么是luceneLucene是一個全文搜索框架，而不是應(yīng)用產(chǎn)品。因此它并不像或者google Desktop那么拿來就能用，它只是提供了一種工具讓你能實(shí)現(xiàn)這些產(chǎn) 品。1.2 luce ne能做什么要回答這個問題，先要了解lucene的本質(zhì)。實(shí)際上lucene的功能很單一，說到底，就是你給它若干個字符串，然后它為你提供一個全文搜索服務(wù)，告訴你你要搜索的關(guān)鍵詞出現(xiàn)在哪里。知道了這個本質(zhì)，你就可以發(fā)揮想象做任何符合這個條件的事情了。你可以把站內(nèi)新聞都

2、索引了，做個資料庫；你可以把一個數(shù)據(jù) 庫表的若干個字段索引起來，那就不用再擔(dān)心因?yàn)椤發(fā)ike%”而鎖表了；你也可以寫個自己的搜索引擎,1.3你該不該選擇lucene下面給出一些測試數(shù)據(jù)，如果你覺得可以接受，那么可以選擇。測試一：250萬記錄，300M左右文本，生成索引380M左右，800線程下平均處理時間300ms測試二：37000記錄，索引數(shù)據(jù)庫中的兩個 varchar字段，索引文件2.6M, 800 線程下平均處理時間1.5ms。2 lucene 的工作方式lucene提供的服務(wù)實(shí)際包含兩部分：一入一出。所謂入是寫入，即將你提供的源（本質(zhì)是字符串）寫入索引或者將其從索引中刪除；所謂出是

3、讀出，即向用戶提供全文搜索服務(wù)，讓用戶可以通過關(guān)鍵詞定位源。2.1寫入流程源字符串首先經(jīng)過analyzer處理，包括：分詞，分成一個個單詞；去除stopword （可選）。將源中需要的信息加入 Document的各個Field中，并把需要索引的Field索引起來，把需要存儲的Field存儲起來。將索引寫入存儲器，存儲器可以是內(nèi)存或磁盤。2.2讀出流程用戶提供搜索關(guān)鍵詞，經(jīng)過 analyzer處理。對處理后的關(guān)鍵詞搜索索引找出對應(yīng)的Docume n。用戶根據(jù)需要從找到的Document中提取需要的Field。3 一些需要知道的概念lucene用到一些概念，了解它們的含義，有利于下面的講解。3

4、.1 an alyzerAnalyzer是分析器，它的作用是把一個字符串按某種規(guī)則劃分成一個個詞語，并去除其中的無效詞語，這里說的無效詞語是指英文中的“ of”、“the ”，中文中的“的”、“地”等詞語，這些詞語在文章中大量出現(xiàn)，但是本身不包含什么關(guān)鍵信息，去掉有利于縮小索引文件、提高效率、提高命中率。分詞的規(guī)則千變?nèi)f化，但目的只有一個：按語義劃分。這點(diǎn)在英文中比較容易實(shí) 現(xiàn)，因?yàn)橛⑽谋旧砭褪且詥卧~為單位的，已經(jīng)用空格分開；而中文則必須以某種方法將連成一片的句子劃分成一個個詞語。具體劃分方法下面再詳細(xì)介紹，這里只需了解分析器的概念即可。3.2 docume nt用戶提供的源是一條條記錄

5、，它們可以是文本文件、字符串或者數(shù)據(jù)庫表的一條記錄等等。一條記錄經(jīng)過索引之后，就是以一個 Docume nt的形式存儲在索引文件中的。用戶進(jìn)行搜索，也是以 Docume nt列表的形式返回。3.3 field一個Document可以包含多個信息域，例如一篇文章可以包含“標(biāo)題”、“正文”、“最后修改時間”等信息域，這些信息域就是通過 Field在Document中存儲的。Field有兩個屬性可選：存儲和索引。通過存儲屬性你可以控制是否對這個 Field 進(jìn)行存儲；通過索引屬性你可以控制是否對該 Field進(jìn)行索引。這看起來似乎有些廢話，事實(shí)上對這兩個屬性的正確組合很重要，下面舉例說明：

6、還是以剛才的文章為例子，我們需要對標(biāo)題和正文進(jìn)行全文搜索，所以我們要把索引屬性設(shè)置為真，同時我們希望能直接從搜索結(jié)果中提取文章標(biāo)題，所以我們把標(biāo)題域的存儲屬性設(shè)置為真，但是由于正文域太大了，我們?yōu)榱丝s小索引文件大小，將正文域的存儲屬性設(shè)置為假，當(dāng)需要時再直接讀取文件；我們只是希望能從搜索解果中提取最后修改時間，不需要對它進(jìn)行搜索，所以我們把最后修改時間域的存儲屬性設(shè)置為真，索引屬性設(shè)置為假。上面的三個域涵蓋了兩個屬性的三種組合，還有一種全為假的沒有用到，事實(shí)上 Field不允許你那么設(shè)置，因?yàn)榧炔淮鎯τ植凰饕挠蚴菦]有意義的。3.4 termterm由兩部分組成：它表示term是搜

7、索的最小單位，它表示文檔的一個詞語, 的詞語和這個詞語所出現(xiàn)的field 。3.5 tocke ntocken是term的一次出現(xiàn)，它包含trem文本和相應(yīng)的起止偏移，以及一個類型字符串。一句話中可以出現(xiàn)多次相同的詞語，它們都用同一個term表示，但是用不同的tocken，每個tocken標(biāo)記該詞語出現(xiàn)的地方。3.6 segme nt添加索引時并不是每個docume nt都馬上添加到同一個索引文件，它們首先被寫入到不同的小文件，然后再合并成一個大索引文件，這里每個小文件都是一個segme nt。4 lucene的結(jié)構(gòu)lucene包括core和sandbox兩部分，其中core是lucene

8、穩(wěn)定的核心部分， san dbox包含了一些附加功能，例如 highlighter 、各種分析器。Lucene core 有七個包：analysis ，document，index，queryParser， search， store ，util 。4.1 an alysisAnalysis包含一些內(nèi)建的分析器，例如按空白字符分詞的 WhitespaceAnalyzer ，添加了 stopwrod 過濾的 StopAnalyzer，最常用的 StandardAnalyzer 。4.2 docume ntDocume nt包含文檔的數(shù)據(jù)結(jié)構(gòu)，例如 Docume nt類定義了存儲文檔的數(shù)據(jù)結(jié)構(gòu)，

9、 Field類定義了 Document的一個域。4.3 in dexIndex包含了索引的讀寫類，例如對索引文件的segment進(jìn)行寫、合并、優(yōu)化的 IndexWriter類和對索引進(jìn)行讀取和刪除操作的IndexReader類，這里要注意的是不要被IndexReader這個名字誤導(dǎo)，以為它是索引文件的讀取類，實(shí)際上刪除索引也是由它完成，IndexWriter只關(guān)心如何將索引寫入一個個 segment，并將它們合并優(yōu)化；IndexReader則關(guān)注索引文件中各個文檔的組織形式。4.4 queryParserQueryParser包含了解析查詢語句的類，lucene的查詢語句和sql語句有點(diǎn)

10、類似，有各種保留字，按照一定的語法可以組成各種查詢。Lucene有很多種Query 類，它們都繼承自Query，執(zhí)行各種特殊的查詢，QueryParser的作用就是解析查詢語句，按順序調(diào)用各種Query類查找出結(jié)果。4.5 searchSearch包含了從索引中搜索結(jié)果的各種類，例如剛才說的各種Query類，包括TermQuery BooleanQuery 等就在這個包里。4.6 storeStore包含了索引的存儲類，例如 Directory定義了索引文件的存儲結(jié)構(gòu)，F(xiàn)SDirectory為存儲在文件中的索引，RAMDirectory為存儲在內(nèi)存中的索引， MmapDirectory為使

11、用內(nèi)存映射的索引。4.7 utilUtil包含一些公共工具類，例如時間和字符串之間的轉(zhuǎn)換工具。5如何建索引5.1最簡單的能完成索引的代碼片斷IndexWrit er writer = new IndexWriter( “/data/index/ ” , new StandardAnalyzer(), true);Docume nt doc = new Docume nt();doc.add( new Field("title", "luce ne in troductio n", Field.Store.YES, Field.I ndex.TOKENIZ

12、ED);doc.add(new Field("content", "lucene works well", Field.Store.YES,Fieldndex.TOKENIZED); writer.addDocume nt(doc); writer.optimize();writer.close();下面我們分析一下這段代碼。首先我們創(chuàng)建了一個writer，并指定存放索引的目錄為“ /data/index ”，使用的分析器為StandardAnalyzer，第三個參數(shù)說明如果已經(jīng)有索引文件在索引目錄下，我們將覆蓋它們。然后我們新建一個document

13、。我們向document添加一個field ，名字是“ title ”，內(nèi)容是“ lucene in troduction ”，對它進(jìn)行存儲并索引。再添加一個名字是“ content ”的field ，內(nèi)容是“ lucene works well ”，也是存儲并索引。然后我們將這個文檔添加到索引中，如果有多個文檔，可以重復(fù)上面的操作，創(chuàng) 建document并添加。添加完所有document，我們對索引進(jìn)行優(yōu)化，優(yōu)化主要是將多個segment合并到一個，有利于提高索引速度。隨后將writer關(guān)閉，這點(diǎn)很重要。對，創(chuàng)建索引就這么簡單！當(dāng)然你可能修改上面的代碼獲得更具個性化的服務(wù)。5.2將索引直

14、接寫在內(nèi)存你需要首先創(chuàng)建一個RAMDirectory，并將其傳給writer，代碼如下：Directory dir = new RAMDirectory();In dexWriter writer = new In dexWriter(dir,n ewSta ndardA nalyzer(),true);Docume nt doc = new Docume nt();doc.add( new Field("title", "luce ne in troductio n", Field.Store.YES,Field.I ndex.TOKENIZED);d

15、oc.add(new Field("content", "lucene works well", Field.Store.YES,Field.I ndex.TOKENIZED);writer.addDocume nt(doc);writer.optimize();writer.close();5.3索引文本文件如果你想把純文本文件索引起來，而不想自己將它們讀入字符串創(chuàng)建field，你可以用下面的代碼創(chuàng)建field :Field field = new Field("content", new FileReader(file); 這里的

16、file就是該文本文件。該構(gòu)造函數(shù)實(shí)際上是讀去文件內(nèi)容，并對其進(jìn)行索引，但不存儲。6如何維護(hù)索引索引的維護(hù)操作都是由IndexReader類提供。6.1如何刪除索引lucene提供了兩種從索引中刪除document的方法，一種是void deleteDocume nt(i nt docNum)這種方法是根據(jù)document在索引中的編號來刪除，每個document加進(jìn)索引后都會有個唯一編號，所以根據(jù)編號刪除是一種精確刪除，但是這個編號是索引的內(nèi) 部結(jié)構(gòu)，一般我們不會知道某個文件的編號到底是幾，所以用處不大。另一種是void deleteDocume nts(Term term)這種方法實(shí)際

17、上是首先根據(jù)參數(shù)term執(zhí)行一個搜索操作，然后把搜索到的結(jié)果批量刪除了。我們可以通過這個方法提供一個嚴(yán)格的查詢條件，達(dá)到刪除指定 docume nt的目的。下面給出一個例子：Directory dir = FSDirectory.getDirectory(PATH, false);In dexReader reader = In dexReader.ope n( dir);Term term = new Term(field, key);reader.deleteDocume nts(term);reader.close();6.2如何更新索引lucene并沒有提供專門的索引更新方法，我們需

18、要先將相應(yīng)的document刪除，然后再將新的document加入索引。例如：Directory dir = FSDirectory.getDirectory(PATH, false);In dexReader reader = In dexReader.ope n( dir);Term term = new Term( “title ” ,“l(fā)ucene introduction”)；reader.deleteDocume nts(term);reader.close();In dexWriter writer = new In dexWriter(dir,n ewSta ndardA na

19、lyzer(),true);Docume nt doc = new Docume nt();doc.add( new Field("title", "luce ne in troductio n", Field.Store.YES, Field.I ndex.TOKENIZED);doc.add(new Field("content", "lucene is funny", Field.Store.YES,Fieldndex.TOKENIZED); writer.addDocume nt(doc); writer.

20、optimize();writer.close();7如何搜索lucene的搜索相當(dāng)強(qiáng)大，它提供了很多輔助查詢類，每個類都繼承自Query類, 各自完成一種特殊的查詢，你可以像搭積木一樣將它們?nèi)我饨M合使用，完成一些復(fù)雜操作；另外lucene還提供了 Sort類對結(jié)果進(jìn)行排序，提供了 Filter類對查詢條件進(jìn)行限制。你或許會不自覺地拿它跟 SQL語句進(jìn)行比較：“ lucene能執(zhí)行 and、or、order by、where> like xx% 操作嗎？ ”回答是：“當(dāng)然沒問題！”7.1各種各樣的Query下面我們看看lucene到底允許我們進(jìn)行哪些查詢操作:7.1.1 TermQue

21、ry“在content域中包含首先介紹最基本的查詢，如果你想執(zhí)行一個這樣的查詢:'luce ne '的 docume nt”，那么你可以用 TermQueryTerm t = new Term("con te nt", " luce ne" Query query = new TermQuery(t);7.1.2 Boolea nQuery如果你想這么查詢：“在 con te nt域中包含java或perl的docume nt”，那么你可以建立兩個TermQuery并把它們用BooleanQuery連接起來：TermQuery term

22、Query1 = new TermQuery( new Term("co nten t", "java"); TermQuery termQuery 2 = new TermQuery( new Term("co nten t", "perl"); Boolea nQuery boolea nQuery = new Boolea nQuery();boolea nQuery.add(termQuery 1, Boolea nClause.Occur.SHOULD); boolea nQuery.add(termQu

23、ery 2, Boolea nClause.Occur.SHOULD);7.1.3 WildcardQuery如果你想對某單詞進(jìn)行通配符查詢，你可以用WildcardQuery，通配符包括?' 匹配一個任意字符和* '匹配零個或多個任意字符，例如你搜索use* '，你可能找到'useful '或者'useless ':Query query = new WildcardQuery( new Term("co nten t", "use*");7.1.4 PhraseQuery你可能對中日關(guān)系比較

24、感興趣，想查找中和日挨得比較近（5個字的距離內(nèi))的文章，超過這個距離的不予考慮，你可以:PhraseQuery query = new PhraseQuery(); query.setSlop(5);query.add(new Term("content ",“中”)；query.add(new Term( “content ” ,“日”);那么它可能搜到“中日合作高層領(lǐng)導(dǎo)說日本欠扁”。中方和日方，”，但是搜不到“中國某Luce ne搜索引擎框架教程第8頁/共13頁 java 技術(shù)網(wǎng)，歡迎大家訪問!學(xué)習(xí)不息，進(jìn)步不止Luce ne搜索引擎框架教程第#頁/共13頁 java

25、技術(shù)網(wǎng)，歡迎大家訪問!學(xué)習(xí)不息，進(jìn)步不止7.1.5 PrefixQuery如果你想搜以中開頭的詞語，你可以用PrefixQuery :PrefixQuery query = new PrefixQuery (new Term("c on te nt ","7.1.6 FuzzyQueryFuzzyQuery用來搜索相似的term，使用Levenshtein算法。假設(shè)你想搜索跟 wuzza'相似的詞語，你可以：Query query = new FuzzyQuery (new Term("co nte nt", "wuzza&

26、quot;);你可能得到'fuzzy '和'wuzzy'o7.1.7 Ran geQuery另一個常用的Query是RangeQuery你也許想搜索時間域從 20060101至U 20060130之間的 document,你可以用 RangeQueryRangeQueryquery = newRangeQuery(newTerm( “time ” ,“20060101” ), newTerm( “time ” , “20060130' ), true);最后的true表示用閉合區(qū)間。7.2 QueryParser看了這么多Query，你可能會問：“不會讓

27、我自己組合各種Query吧，太麻煩了！ ”當(dāng)然不會，lucene提供了一種類似于SQL語句的查詢語句，我們姑且叫它lucene語句，通過它，你可以把各種查詢一句話搞定，lucene會自動把它們查分成小塊交給相應(yīng)Query執(zhí)行。下面我們對應(yīng)每種Query演示一下： TermQuery可以用“ field:key ”方式，例如“ content:lucene ”。Boolea nQuery 中'與'用'+'，'或'用''，例如“ con te nt:java conten terl ”。WildcardQuery 仍然用'

28、;？'和'* '，例如“ content:use* ”。PhraseQuery 用''，例如“ content:"中日"5”。PrefixQuery 用'* '，例如“中 * ”。FuzzyQuery 用'，例如“ content: wuzza ”。RangeQuery用'或 '，前者表示閉區(qū)間，后者表示開區(qū)間，例如“time:20060101 TO 20060130 ”，注意 TO區(qū)分大小寫。你可以任意組合query string ，完成復(fù)雜操作，例如“標(biāo)題或正文包括lucene，并且時間在

29、20060101到20060130之間的文章”可以表示為：“ + (title:lucene conten t:luce ne) +time:20060101 TO 20060130”。代碼如下：Directory dir = FSDirectory.getDirectory(PATH, false);In dexSearcher is = new In dexSearcher(dir);QueryParser parser = newQueryParser("content",new StandardAnalyzer();Query query = parser.pars

30、e("+(title:lucene content:lucene)+time:20060101 TO 20060130"Hits hits = is.search(query);for (i nt i = 0; i < hits .len gth(); i+)Document doc = hits.doc(i);System.out.pri ntln( doc.get("title");is.close();首先我們創(chuàng)建一個在指定文件目錄上的IndexSearcher。然后創(chuàng)建一個使用StandardAnalyzer作為分析器的QueryParse

31、r，它默認(rèn)搜索的域是 content。接著我們用QueryParser來parse查詢字串，生成一個 Query。然后利用這個Query去查找結(jié)果，結(jié)果以Hits的形式返回。這個Hits對象包含一個列表，我們挨個把它的內(nèi)容顯示出來。7.3 Filterfilter的作用就是限制只查詢索引的某個子集，它的作用有點(diǎn)像SQL語句里的where，但又有區(qū)別，它不是正規(guī)查詢的一部分，只是對數(shù)據(jù)源進(jìn)行預(yù)處理，然后交給查詢語句。注意它執(zhí)行的是預(yù)處理，而不是對查詢結(jié)果進(jìn)行過濾，所以使用filter的代價是很大的，它可能會使一次查詢耗時提高一百倍。最常用的 filter 是 RangeFilter 和

32、QueryFilter。RangeFilter 是設(shè)定只搜索指定范圍內(nèi)的索引；QueryFilter是在上次查詢的結(jié)果中搜索。Filter的使用非常簡單，你只需創(chuàng)建一個filter 實(shí)例，然后把它傳給searcher，繼續(xù)上面的例子，查詢“時間在20060101到20060130之間的文章”除了將限制寫在query string 中，你還可以寫在 RangeFilter 中：Directory dir = FSDirectory.getDirectory(PATH, false);In dexSearcher is = new In dexSearcher(dir);QueryParse

33、r parser = newQueryParser("content",new StandardAnalyzer();Query query = parser.parse("title:lucene content:lucene"Ra ngeFilter filter = new Ran geFilter("time", "20060101", "20060230",true, true);Hits hits = is.search(query, filter); for (i nt i = 0

34、; i < hits .len gth(); i+) Document doc = hits.doc(i); System.out.pri ntln( doc.get("title"); is.close();7.4 Sort有時你想要一個排好序的結(jié)果集，就像SQL語句的“ order by ”，luce ne能做到：通過Sort。Sort sort = new Sort(“time ” ); / 相當(dāng)于 SQL的“order by time ”Sort sort = new Sort(“time ” , true); /相當(dāng)于 SQL的“order by timed

35、esc”下面是一個完整的例子：Directory dir = FSDirectory.getDirectory(PATH, false);In dexSearcher is = new In dexSearcher(dir);QueryParser parser = newQueryParser("content",new StandardAnalyzer();Query query = parser.parse("title:lucene content:lucene"Ra ngeFilter filter = new Ran geFilter(&qu

36、ot;time", "20060101", "20060230",true, true);Sort sort = new Sort( “time ” );Hits hits = is.search(query, filter, sort);for (i nt i = 0; i < hits .len gth(); i+)Document doc = hits.doc(i);System.out.pri ntln( doc.get("title");is.close();8分析器在前面的概念介紹中我們已經(jīng)知道了分析器的作

37、用，就是把句子按照語義切分成一個個詞語。英文切分已經(jīng)有了很成熟的分析器：Sta ndardA nalyzer，很多情況下StandardAnalyzer是個不錯的選擇。甚至你會發(fā)現(xiàn) StandardAnalyzer 也能對中文進(jìn)行分詞。但是我們的焦點(diǎn)是中文分詞，StandardAnalyzer能支持中文分詞嗎？實(shí)踐證明是可以的，但是效果并不好，搜索“如果”會把“牛奶不如果汁好喝”也搜索出來，而且索引文件很大。那么我們手頭上還有什么分析器可以使用呢？core里面沒有，我們可以在 sandbox里面找到兩個：ChineseAnalyzer和CJKA nalyzer。但是它們同樣都有分詞不準(zhǔn)

38、的問題。相比之下用StandardAnalyzer和ChineseAnalyzer 建立索引時間差不多，索引文件大小也差不多，CJKAnalyzer表現(xiàn)會差些，索引文件大且耗時比較長。要解決問題，首先分析一下這三個分析器的分詞方式。StandardAnalyzer和ChineseAnalyzer都是把句子按單個字切分，也就是說“牛奶不如果汁好喝”會被它們切分成“牛奶不如果汁好喝”；而CJKAnalyzer則會切分成“牛奶奶不不如如果果汁汁好好喝”。這也就解釋了為什么搜索“果汁” 都能匹配這個句子。以上分詞的缺點(diǎn)至少有兩個：匹配不準(zhǔn)確和索引文件大。我們的目標(biāo)是將上面的句子分解成“牛奶不如果

39、汁好喝”。這里的關(guān)鍵就是語義識別，我們?nèi)绾巫R 別“牛奶”是一個詞而“奶不”不是詞語？我們很自然會想到基于詞庫的分詞法，也就是我們先得到一個詞庫，里面列舉了大部分詞語，我們把句子按某種方式切分，當(dāng)?shù)玫降脑~語與詞庫中的項(xiàng)匹配時，我們就認(rèn)為這種切分是正確的。這樣切詞的過程就轉(zhuǎn)變成匹配的過程，而匹配的方式最簡單的有正向最大匹配和逆向最大匹配兩種，說白了就是一個從句子開頭向后進(jìn)行匹配，一個從句子末尾向前進(jìn)行匹配?；谠~庫的分詞詞庫非常重要，詞庫的容量直接影響搜索結(jié)果，在相同詞庫的前提下，據(jù)說逆向最大匹配優(yōu)于正向最大匹配。當(dāng)然還有別的分詞方法，這本身就是一個學(xué)科，我這里也沒有深入研究?；氐骄唧w應(yīng)用，

40、我們的目標(biāo)是能找到成熟的、現(xiàn)成的分詞工具，避免重新發(fā)明車輪。經(jīng)過網(wǎng)上搜索，用的比較多的是中科院的ICTCLAS和一個不開放源碼但是免費(fèi)的JE-Analysis。ICTCLAS有個問題是它是一個動態(tài)鏈接庫，java調(diào)用需要本地方法調(diào)用，不方便也有安全隱患，而且口碑也確實(shí)不大好。JE-Analysis效果還不錯，當(dāng)然也會有分詞不準(zhǔn)的地方，相比比較方便放心。9性能優(yōu)化一直到這里，我們還是在討論怎么樣使lucene跑起來，完成指定任務(wù)。利用前面說的也確實(shí)能完成大部分功能。但是測試表明lucene的性能并不是很好，在大數(shù)據(jù)量大并發(fā)的條件下甚至?xí)邪敕昼姺祷氐那闆r。另外大數(shù)據(jù)量的數(shù)據(jù)初始化建立索引

41、也是一個十分耗時的過程。那么如何提高lucene的性能呢？下面從優(yōu)化創(chuàng)建索引性能和優(yōu)化搜索性能兩方面介紹。9.1優(yōu)化創(chuàng)建索引性能這方面的優(yōu)化途徑比較有限，IndexWriter提供了一些接口可以控制建立索引的操作，另外我們可以先將索引寫入 RAMDirectory，再批量寫入FSDirectory ，不管怎樣，目的都是盡量少的文件I0,因?yàn)閯?chuàng)建索引的最大瓶頸在于磁盤I0。另外選擇一個較好的分析器也能提高一些性能。9.1.1通過設(shè)置IndexWriter的參數(shù)優(yōu)化索引建立 setMaxBufferedDocs(i nt maxBufferedDocs)控制寫入一個新的segment前內(nèi)存

42、中保存的document的數(shù)目，設(shè)置較大的數(shù)目可以加快建索引速度，默認(rèn)為10。setMaxMergeDocs(i nt maxMergeDocs)控制一個segment中可以保存的最大document數(shù)目，值較小有利于追加索引的速度，默認(rèn)Integer.MAX_VALUE,無需修改。setMergeFactor(i nt mergeFactor)控制多個segment合并的頻率，值較大時建立索引速度較快，默認(rèn)是10,可以在建立索引時設(shè)置為100。9.1.2通過RAMDirectory緩寫提高性能我們可以先把索引寫入RAMDirectory，達(dá)到一定數(shù)量時再批量寫進(jìn)FSDirectory，減

43、少磁盤10次數(shù)。FSDirectory fsDir = FSDirectory.getDirectory("/data/i ndex", true);RAMDirectory ramDir = new RAMDirectory。；In dexWriter fsWriter = new In dexWriter(fsDir, new Sta ndardA nalyzer(),true);In dexWriter ramWriter = new In dexWriter(ramDir,new Sta ndardA nalyzer(),true);while (there are

44、 docume nts to in dex). create Docume nt .ramWriter.addDocume nt(doc);if (condition for flushing memory to disk has been met)fsWriter.add In dexes( new Directory ramDir );ramWriter.close();ramWriter = new In dexWriter(ramDir, new Sta ndardA nalyzer(), true);9.1.3選擇較好的分析器這個優(yōu)化主要是對磁盤空間的優(yōu)化，可以將索引文件減小將近一

45、半，相同測試數(shù)據(jù)下由600M減少到380M但是對時間并沒有什么幫助，甚至?xí)枰L時間，因?yàn)檩^好的分析器需要匹配詞庫，會消耗更多cpu，測試數(shù)據(jù)用StandardAnalyzer 耗時 133 分鐘；用 MMAnalyzer耗時 150 分鐘。9.2優(yōu)化搜索性能雖然建立索引的操作非常耗時，但是那畢竟只在最初創(chuàng)建時才需要，平時只是少量的維護(hù)操作，更何況這些可以放到一個后臺進(jìn)程處理，并不影響用戶搜索。我們創(chuàng)建索引的目的就是給用戶搜索，所以搜索的性能才是我們最關(guān)心的。下面就來探討一下如何提高搜索性能。9.2.1將索引放入內(nèi)存這是一個最直觀的想法，因?yàn)閮?nèi)存比磁盤快很多。Lucene提

46、供了 RAMDirectory“/data/index/” , false);可以在內(nèi)存中容納索引：Directory fsDir = FSDirectory.getDirectory(Directory ramDir = new RAMDirectory(fsDir);Searcher searcher = new In dexSearcher(ramDir);但是實(shí)踐證明RAMDirectory和FSDirectory速度差不多，當(dāng)數(shù)據(jù)量很小時兩者都非常快，當(dāng)數(shù)據(jù)量較大時（索引文件400M RAMDirectory甚至比FSDirectory 還要慢一點(diǎn)，這確實(shí)讓人出乎意料。而且luce

47、ne的搜索非常耗內(nèi)存，即使將400M的索引文件載入內(nèi)存，在運(yùn)行一段時間后都會out of memory，所以個人認(rèn)為載入內(nèi)存的作用并不大。9.2.2優(yōu)化時間范圍限制既然載入內(nèi)存并不能提高效率，一定有其它瓶頸，經(jīng)過測試發(fā)現(xiàn)最大的瓶頸居然是時間范圍限制，那么我們可以怎樣使時間范圍限制的代價最小呢？當(dāng)需要搜索指定時間范圍內(nèi)的結(jié)果時，可以：1、用RangeQuery,設(shè)置范圍，但是RangeQuery的實(shí)現(xiàn)實(shí)際上是將時間范圍內(nèi) 的時間點(diǎn)展開，組成一個個 BooleanClause加入到BooleanQuery中查詢，因此時間范圍不可能設(shè)置太大，經(jīng)測試，范圍超過一個月就會拋Boolea nQuery.TooMa nyClauses，可以通過設(shè)置Boolea nQuery.setMaxClauseCou nt （int maxClauseCou nt）擴(kuò)大，但是擴(kuò)大也是有限的，并且隨著maxClauseCount擴(kuò)大，占用內(nèi)存也擴(kuò)大2、用RangeFilter 代替RangeQuery經(jīng)測試速度不會比 RangeQuery慢，但是仍然有性能瓶頸，查

人人文庫> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

lunce搜索引擎框架教程

文檔簡介

溫馨提示

最新文檔

評論

lunce搜索引擎框架教程

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔