技術7.1關于solr schema.xml和solrconfig的解釋_第1頁
技術7.1關于solr schema.xml和solrconfig的解釋_第2頁
技術7.1關于solr schema.xml和solrconfig的解釋_第3頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、關于solr schema.xml 和solrconfig.xml的解釋 - CONAN ZONE - BlogJava筆記本:技術資料創(chuàng)建時間:2015/2/2 14:15 URL:關于solr schema.xml 和solrconfig.xml的解釋一、字段配置(schema)schema.xml位于solr/conf/目錄下,類似于數(shù)據(jù)表配置文件,定義了加入索引的數(shù)據(jù)的數(shù)據(jù)類型,主要包括type、fields和其他的一些缺省設置。1、先來看下type節(jié)點,這里面定義FieldType子節(jié)點,包括name,class,等一些參數(shù)。itionIncrementGapname:就是這個Fie

2、ldType的名稱。class:指向為。ysis包里面對應的class名稱,用來定義這個類型的行.apache.solr.1.2.3. schema name = exle ver= 1.2 class = solr.TrieDoubleField preci.必要的時候fieldType還需要自己定義這個類型的數(shù)據(jù)在建立索引和進行查詢的時候要使用的分析器yzer,包括分詞和過濾,如下:view plain pr?1.itionIncrementGap =.6.itionIncrementGap = 1007.8.ysis包并沒有帶支持中文的包,需要自己添加中文分詞器,10.11

3、.3.34.35.!-itionIncrements = true filterclass = solr.SnowballPorterFilterFactory language = Englishprotected = protwords.txt /yzer type = query 2.43.itionIncrements = true class = solr.LowerCaseFilterFactory /class =

4、solr.SnowballPorterFilterFactory language = Englishprotected = protwords.txt / filter filter2、再來看下fields節(jié)點內(nèi)定義具體的字段(類似數(shù)據(jù)庫的字段),含有以下屬性:name:字段名type:之前定義過的各種FieldType indexed:是否被索引stored:是否被(如果不需要相應字段值,盡量設為false)multiValued:是否有多個值(對可能存在多值的字段盡量設置為true,避免建索引時拋出錯誤)view plain pr?.. field field

5、 field field field name = summary type = text indexed = true stored = true / name = author type = string indexed = true stored = true / name = date type = date indexed = false stored = true / name = content type = text indexed = true stored = false / name = keywords type = keyword_text indexed = tru

6、e stored =false multiValued = true /、建議建立一個拷貝字段,將所有的 全文本 字段索:到一個字段中,以便進行的檢以下是拷貝設置:view plain pr?4、動態(tài)字段,沒有具體名稱的字段,用dynamicField字段如:name為*_i,定義它的type為,那么在使用這個字段的時候,任務以_i結果的字段都被認為符合這個定義。如name_i, school_iview plain pr?1.name = *_itype = indexed = truestored = = *_stype = stringindexe

7、d = truestored = = *_ltype = longindexed = truestored = = *_ttype = textindexed = truestored = = *_btype = indexed = truestored =6.name = *_ftype = floatindexed = truestored = = *_dtype = double indexed = truestored = = *_dttype = dateindexed =

8、truestored = trueschema.xml文檔注釋中的信息:1、為了改進性能,可以采取以下幾種措施:將所有只用于搜索的,而不需要作為結果的field(特別是一些比較大的field)的stored設置為false將不需要被用于搜索的,而只是作為結果返回的field的indexed設置為false刪除所有不必要的copyField為了索引字段的最小化和搜索的效率,將所有的 text fields的index都設置成field,然后使用copyField將他們都到一個總的 text field上,然后對他進行搜索。為了最大化搜索效率,使用java編寫的客戶端與solr交互(使用流通信)在

9、服務器端運行JVM(省去網(wǎng)絡通信),使用盡可能高的Log輸出等級,減少日志量。2、name:標識這個schema的名字ver:現(xiàn)在版本是1.23、filedTypename:標識而已。class和其他屬性決定了這個fieldType的實際行為。(class以solr開始的,都是在.appache.solr.ysis包下)可選的屬性:sortMissingLast和sortMissing兩個屬性是用在可以內(nèi)在使用String排序的類型上(包括:string,s,slong,sfloat,sdouble,pdate)。sortMissingLast=true,沒有該field的數(shù)據(jù)排在有該fiel

10、d的數(shù)據(jù)之后,而不管請求時的排序規(guī)則。sortMissing=true,跟上面倒過來唄。2個值默認是設置成falseStrField類型不被分析,而是被逐字地索引/。StrField和TextField都有一個可選的屬性“compressThreshold”,保證壓縮到不小于一個大?。ǎ篶har)solr.TextField 允許用戶通過分析器來定制索引和查詢,分析器包括一個分詞器(tokenizer)和多個過濾器(filter)itionIncrementGap:可選屬性,定義在同一個文檔中此類型數(shù)據(jù)的空白間隔,避免短語匹配錯誤。字段類型名java類名缺省true。 說明這個數(shù)據(jù)應被搜索和排

11、序,如果數(shù)據(jù)沒有indexed,則stored應是name: class:indexed: true。 stored:缺省true。說明這個字段被包含在搜索結果中是合適的。如果數(shù)據(jù)沒有stored,則indexed應是true。 sortMissingLast:面指沒有該指定字段數(shù)據(jù)的排在有該指定字段數(shù)據(jù)的的后指沒有該指定字段數(shù)據(jù)的排在有該指定字段數(shù)據(jù)的的前sortMissing面omitNorms:字段的長度不影響得分和在索引時不做boost時,設置它為true。一般文本字段不設置為true。termVectors:如果字段被用來做more like this 和highlight的特性時應

12、設置為true。字段是壓縮的。這可能導致索引和搜索變慢,但會減少空間,只有compressed:StrField和TextField是可以壓縮,這通常適合字段的長度超過200個字符。multiValued:字段多于一個值的時候,可設置為true。itionIncrementGap:和multiValued一起使用,設置多個值之間的虛擬空白的數(shù)量空格分詞,精確匹配。在分詞和匹配時,考慮 -連字符,字母數(shù)字的界限,非字母數(shù)字字符,這樣 wifi或wi fi都能匹配Wi-Fi。同義詞在禁用字(stopword)刪除后,在短語間增加間隔stopword:即在建立索引過程中(建立索引和搜索)被忽略的詞,

13、比如is this等常用詞。在。conf/stopwords.txt4、fieldsname:標識而已。 type:先前定義的類型。indexed:是否被用來建立索引(關系到搜索和排序) stored:是否compressed:false,是否使用gzip壓縮(只有TextField和StrField可以壓縮) mutiValued:是否包含多個值omitNorms:是否忽略掉Norm,可以節(jié)省內(nèi)存空間,只有全文本field和need an index-time boost的field需要norm。(具體沒看懂,注釋里有)termVectors:false,當設置true,會term vect

14、or。當使用MoreLikeThis,用來作為相似詞的field應該起來。termitions: termOffsets:term vector中的地址信息,會消耗開銷。term vector 的偏移量,會消耗開銷。default:如果沒有屬性需要修改,就可以用這個標識下。包羅萬象(有點夸張)的field,包含所有可搜索的text fields,通過copyField實現(xiàn)。在添加索引時,將所有被拷貝field(如cat)中的數(shù)據(jù)拷貝到text field中作用:將多個field的數(shù)據(jù)放在一起同時搜索,提供速度將一個field的數(shù)據(jù)拷貝到另一個,可以用2種不同的方式來建立索引。如果一個field

15、的名字沒有匹配到,那么就會用動態(tài)field試圖匹配定義的各種模式。*只能出現(xiàn)在模式的最前和最后較長的模式會被先去做匹配如果2個模式同時匹配上,最先定義的優(yōu)先如果通過上面的匹配都沒找到,可以定義這個,然后定義個type,當String處理。(一般不會發(fā)生)但若不定義,找不到匹配會報錯。5、其他一些 id 文檔的唯一標識, 必須填寫這個field(除非該field被標記required=false),否則solr建立索引報錯。 text 如果搜索參數(shù)中沒有指定具體的field,那么這是默認的域。配置搜索參數(shù)短語間的邏輯,可以是AND|OR。二、solrconfig.xml1、索引配置mainInd

16、ex 標記段定義了控制Solr索引處理的一些poundFile:通過將很多 Lucene.整合到單一一個文件來減少使用中的文件的數(shù)量。這可有助于減少 Solr 使用的文件句柄數(shù)目,代價是降低了性能。除非是應用程序用完了文件句柄,否則 false 的默認值應該就已經(jīng)足夠。poundFile:通過將很多Lucene整合到一個文件,來減少使用中的文件的數(shù)量。這可有助于減少Solr使用的文件句柄的數(shù)目,代價是降低了性能。除非是應用程序用完了文件句柄,否則false的默認值應該就已經(jīng)足夠了。mergeFacor:決定Lucene段被合并的頻率。較小的值(最小為2)使用的內(nèi)存較少但導致的索引時間也更慢。較

17、大的值可使索引時間變快但會犧牲較多的內(nèi)存。(典型的時間與空間 的平衡配置)maxBufferedDocs:在合并內(nèi)存中文檔和創(chuàng)建新段之前,定義所需索引的最小文檔數(shù)。段是用來索引信息的Lucene文件。較大的值可使索引時間變快但會犧牲較多內(nèi)存。maxMergeDocs:控制可由Solr合并的適合于具有大量更新的應用程序。 maxFieldLength:對于給定的的最大數(shù)。較小的值(10,000)最,控制可添加到Field的最大條目數(shù),進而階段該文檔。如果文檔可能會很大,就需要增加這個數(shù)值。然后,若將這個值設置得過高會導致內(nèi)存錯誤。unlockOnStartup:告知Solr忽略在多線程環(huán)境中用來

18、保護索引的鎖定機制。在某些情況下,索引可能會由于不正確的關機或其他錯誤而一直處于鎖定,這就妨礙了添加和更 新。將其設置為true可以禁用啟動索引,進而允許進行添加和更新。(鎖機制)2、查詢處理配置query標記段中以下一些與緩存無關的特性:Clauses:定義可組合在一起形成以個查詢的字句數(shù)量的上限。正常情況max1024已經(jīng)足夠。如果應用程序大量使用了通配符或范圍查詢,增加這個限制將能避免當值超出時,拋出TooMangClausesException。enableLazyFieldLoading:如果應用程序只會檢索將這個屬性設置為 true。懶散加載的一個常見場景大都發(fā)生在應用程序返回一些

19、列搜上少數(shù)幾個Field,那么可以索結果的時候,用戶常常會單擊其中的一個來查看在此索引中的原始文檔。初始的現(xiàn)實常常只需要現(xiàn)實很短的一段信息。若是檢索大型的應該避免加載整個文檔。,除非必需,否則就query部分負責定義與在Solr中發(fā)生的時間相關的幾個選項:概念:Solr(實際上是Lucene)使用稱為Searcher的Java類來處理Query實例。Searcher將索引內(nèi)容相關的數(shù)據(jù)加載到內(nèi)存中。根據(jù)索引、CPU已經(jīng)可用內(nèi)存的大小,這個過程可能需要較長的一段時間。要改進這一設計和顯著提高性能,Solr引入了一張“溫暖”策略,即把這些新的 Searcher聯(lián)機以便為現(xiàn)場用戶提供查詢服務之前,先對它們進行“熱身”。newSearcher和Searcher事件,可以使用這些事件來制定實例化新Searcher或第一個Searcher時,應該執(zhí)行哪些查詢。如果應用程序期望請求某些特定的查詢,那么在創(chuàng)建新Searcher或第一個Searcher時就應該反注釋這些部分并執(zhí)行適當?shù)牟樵?。query中的智能緩存:filterCache:通過一個匹配給定查詢的文檔 id 的無序集,過濾器讓 Solr 能夠有效提高查詢的性能。緩存這些過濾器意味著對Solr的重復調(diào)用可以導致結果集的快速查 找。更

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論