




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、中文信息檢檢索引擎中中的若干技技術(shù)吳棟 滕育平(南開大學(xué)學(xué)組合數(shù)學(xué)學(xué)研究中心心 核心數(shù)學(xué)學(xué)與組合數(shù)數(shù)學(xué)教育部部重點實驗驗室, 天天津 30000711)摘要本本文論述了了在開發(fā)中中文信息檢檢索系統(tǒng)中中所涉及到到的兩項關(guān)關(guān)鍵技術(shù),即即中文分詞詞技術(shù)和檢檢索技術(shù)。對中文分分詞技術(shù),本本文介紹了了一種改進進的正向最最大匹配切切分算法,以以及為消除除歧義引入入的校正策策略,并在在此基礎(chǔ)上上結(jié)合統(tǒng)計計方法處理理未登錄詞詞。針對檢檢索技術(shù),本本文綜述了了幾種最常常用的檢索索模型的原原理,并對對每種模型型的優(yōu)缺點點進行了簡簡要分析。最后對給給出的分詞詞算法進行行了測試,測測試表明本本文給出的的分詞算法法準(zhǔn)確
2、度和和效率能夠夠滿足實用用的要求。關(guān)鍵詞信信息檢索 搜索索引擎 分詞技技術(shù)檢索技術(shù)術(shù)1 引言隨著社會的的不斷進步步,特別是是在互聯(lián)網(wǎng)網(wǎng)迅猛發(fā)展展的今天,人人們在不斷斷地接觸形形形色色的的信息,同同時也要對對這些信息息進行過濾濾,從而提提取出對自自己真正有有用的內(nèi)容容。為了達達到這個目目的,人們們開發(fā)出了了眾多的檢檢索引擎,有有針對Weeb進行搜搜索的Gooolgee、百度等等,也有針針對各行業(yè)業(yè)開發(fā)的專專題檢索系系統(tǒng)。目前前,國內(nèi)的的每個行業(yè)業(yè)、領(lǐng)域都都在飛速發(fā)發(fā)展,這中中間產(chǎn)生了了大量的中中文信息資資源,為了了能夠及時時準(zhǔn)確的獲獲取最新的的信息,中中文檢索引引擎是必然然的產(chǎn)物。中文檢索索引擎
3、與西西文檢索引引擎在實現(xiàn)現(xiàn)的機制和和原理上大大致雷同,但但由于漢語語本身的特特點,必須須引入對于于中文語言言的處理技技術(shù),而中中文分詞技技術(shù)就是其其中很關(guān)鍵鍵的部分。2 中文檢檢索引擎的的基本原理理常見的中文文檢索引擎擎主要完成成兩方面的的任務(wù):1信息的的規(guī)范化。將搜集來來的信息按按照一定的的方式進行行組織管理理,使之成成為可以高高效檢索的的信息庫。 22信息的的檢索和表表達。以索引好好的信息庫庫作為信息息基礎(chǔ),利利用信息庫庫已被索引引的特點,實實施快速檢檢索,同時時根據(jù)用戶戶的需求將將檢索結(jié)果果進行輸出出。其中,信息息的規(guī)范化化包括分詞詞和索引(以以及資料的的搜集和整整理)、更更新(維護護)
4、兩部分分;信息的的檢索包括括搜索、結(jié)結(jié)果輸出兩兩部分。整整個信息處處理和檢索索過程如圖圖1所示:3 中文分分詞技術(shù)3.1 漢漢語的特點點詞是最小的的、能獨立立活動的、有意義的的語言成分分。因此,通通常的檢索索引擎都是是以每一個個獨立的詞詞為單位建建立索引,在在查詢時按按照檢索詞詞出現(xiàn)的位位置和頻率率對文檔進進行輸出。英語文本本是小字符符集上的已已充分分隔隔開的詞串串,而漢語語文本是大大字符集上上的連續(xù)字字串,并且且在詞與詞詞之間并沒沒有明顯的的分割標(biāo)記記。故而存在在一個對漢漢語中的詞詞加以識別別的問題,即即中文檢索索引擎首先先必須對原原文進行切切分詞。如如果不切詞詞(按字檢檢索),可可能檢索的
5、的結(jié)果與用用戶的查詢詢要求會大大相徑庭,例例如當(dāng)檢索索德國貨幣幣單位馬馬克時,就會把馬克思檢索出來來,而檢索索華人時會把中華人民民共和國檢索出來來。因而進行切切詞,可以以大大提高高檢索的準(zhǔn)準(zhǔn)確率。中國的漢字字是示意文文字,總數(shù)數(shù)有幾萬個個,在由國國家標(biāo)準(zhǔn)總總局頒布的的信息交交換用漢字字編碼字符符集-基基本集(即即GB23312-880)中共共收錄了一一級和二級級常用漢字字共67663個,而而在Uniicodee編碼中更更是收錄多多達209902個漢漢字。據(jù)統(tǒng)統(tǒng)計,在常常用漢語中中,90%以上使用用的是二字字詞和三字字詞,也有有使用四字字詞和五字字詞。知道道這些漢字字的特點,對對于我們選選擇合理
6、的的切分算法法是有益的的。3.2 一一般的分詞詞技術(shù)由于書面漢漢語是字的的序列,詞詞與詞之間間沒有間隔隔標(biāo)記,使使得詞的界界定往往模模糊不清。即使這樣樣,在過去去的時間里里,人們在在漢語的自自動分詞技技術(shù)的研究究上還是做做了很多工工作,設(shè)計計了許多實實用、高效效的算法。通常的方方法主要分分為兩類1:第第一類主要要基于字典典、詞庫的的匹配和詞詞的頻度統(tǒng)統(tǒng)計,這類類方法實用用、具體,比比較容易實實現(xiàn);第二二類方法主主要基于句句法、語法法分析,并并結(jié)合語義義分析,通通過對上下下文內(nèi)容所所提供信息息的分析對對詞進行定定界,這類類方法試圖圖讓機器具具有人類的的理解能力力,其原理理較為晦澀澀,一般不不易實
7、現(xiàn)。常用的切詞詞算法如下下:1)最大正正向匹配法法(Maxximumm Mattchinng Meethodd)通常簡稱為為MM法。其基本思思想為:設(shè)設(shè)D為詞典典,MAXX表示D中中的最大詞詞長,sttr為待切切分的字串串。MM法法是每次從從str中中取長度為為MAX的的子串與DD中的詞進進行匹配。若成功,則則該子串為為詞,指針針后移MAAX個漢字字后繼續(xù)匹匹配,否則則子串逐次次減一進行行匹配。2)逆向最最大匹配法法(Revversee Maxximumm Mattcingg Metthod) 通常簡稱為為RMM法法。RMMM法的基本本原理與MMM法相同同,不同的的是分詞的的掃描方向向,它是從
8、從右至左取取子串進行行匹配。統(tǒng)統(tǒng)計結(jié)果表表明,單純純使用正向向最大匹配配的錯誤率率為1/1169,單單純使用逆逆向最大匹匹配的錯誤誤率為1/245,RRMM法在在切分的準(zhǔn)準(zhǔn)確率上比比MM法有有很大提高高。3)基于詞詞頻的統(tǒng)計計方法統(tǒng)計方法一一般不依賴賴于詞典,而而是將原文文中任意前前后緊鄰的的兩個字作作為一個詞詞進行出現(xiàn)現(xiàn)頻率的統(tǒng)統(tǒng)計,出現(xiàn)現(xiàn)的次數(shù)越越高,成為為一個詞的的可能性也也就越大。在頻率超超過某個預(yù)預(yù)先設(shè)定得得閾值時,就就將其作為為一個詞進進行索引。這種方法法能夠有效效地提取出出未登錄詞詞。3.3 一一種改進的的MM算法法MM法和RRMM法的的缺點在于于對詞典的的完全性有有很強的依依賴
9、性,而而且無法很很好的解決決歧義問題題,有人提提出了雙向向匹配法,即即針對一個個字符串,分分別從兩個個方向進行行處理,但但這種方法法只有檢錯錯功能,卻卻不能自動動進行校正正,給出正正確結(jié)果。由于一個個詞在不同同的文章中中出現(xiàn)的次次數(shù)通常不不一樣,因因此采用統(tǒng)統(tǒng)計方法對對詞的切分分準(zhǔn)確度并并不太高。鑒于以上幾幾種方法的的優(yōu)缺點,人人們自然想想把這幾種種方法結(jié)合合起來,揚揚長避短。這里,介介紹一種改改進的MMM算法。3.3.11 詞典存儲儲格式采用分層存存儲的形式式,一共分分為3層,形形成樹型結(jié)結(jié)構(gòu),如下下所示(每每一個字母母代表一個個字)。一層存儲所所有單字。第二層保保存所有的的雙字詞和和多字詞
10、的的前兩個字字(因為,也也許會出現(xiàn)現(xiàn)ABC為為詞,但AAB不是詞詞的情況),并并對兩者做做不同標(biāo)記記(t/ff)。每一一個可成詞詞的單字對對應(yīng)一系列列第二層結(jié)結(jié)點,用來來存儲所有有以該字為為詞首的雙雙字(包括括上述兩種種情況)。并且,在在這里,針針對每一個個雙字,需需要記錄以以該雙字為為詞首的所所有詞的最最大長度,實實際中,可可以保存除除去該雙字字部分的最最大長度(記為n)。第三層層存儲以某某一雙字為為首的所有有詞。為了了減少存儲儲空間,只只存儲除去去該雙字以以外的部分分(如上圖圖所示)。每一層各各結(jié)點需按按某種次序序排列,可可使用haash、二二分查找等等方法進行行查詢。采采用這種層層次的存
11、儲儲結(jié)構(gòu),可可以很快把把查詢詞的的工作縮小小到一個很很小的范圍圍內(nèi),有利利于分詞效效率的提高高。3.3.22 匹配方法法(MM方方法)由于詞庫中中的最大詞詞長通常大大于所切分分出的詞長長,為了提提高切分的的效率,不不采用逐次次減一個字字的方法,而而是使用正正向逐一增增長的方法法。假設(shè)對一個個句子C11C2進行分分詞處理,算算法描述如如下:1) 兩個個字(開始始時為C1C2),在詞詞典中查詢詢C1C2是否存在在2) 不存存在,則CC1為單字詞詞,一次分分詞結(jié)束,返返回1。3) 存在在,判斷CC1C2是否為詞詞,并從詞詞典中獲取取該詞下層層節(jié)點漢字字的最大長長度,設(shè)為為n4) 若nn=0,一一次分
12、詞結(jié)結(jié)束,保存存結(jié)果。5) 否則則,i=2,轉(zhuǎn)轉(zhuǎn)6)。6 ) ii=i+1,若若i=n+33,轉(zhuǎn)8);否則,轉(zhuǎn)轉(zhuǎn)7)。7) 再取取一個字(此此處為Cii),判斷斷第三層中中是否有以以C3Ci開始的字字(不需要要恰好匹配配,只要匹匹配開始的的i個字就就可以了)。8) 若存存在,分詞詞結(jié)束,返返回最近一一次能夠恰恰好匹配的的C3Cj(jii),并與與C1C2組合成詞詞。如果是是C1C2,則根據(jù)據(jù)C1C2的標(biāo)記判判斷是雙字字詞還是分分為兩個單單字詞。9) 否則則,轉(zhuǎn)6)。3.3.33 歧義詞處處理漢語中的歧歧義結(jié)構(gòu)主主要有兩種種:交集型型歧義和組組合型歧義義。據(jù)統(tǒng)計計,漢語中中的交集型型歧義字段段約
13、占全部部歧義字段段的90%。所以,處處理好交集集歧義字段段在很大程程度上能保保證一定的的分詞精度度。鑒于漢漢語中多數(shù)數(shù)的詞組、短語為偏偏正結(jié)構(gòu),中中心詞在后后,而修飾飾詞在前,故故而在進行行歧義校正正時,我們們讓交集歧歧義字優(yōu)先先與右邊的的子段組成成詞,而其其余的字段段則盡可能能的向左組組詞。設(shè)C1C22Cn是連續(xù)型型交叉歧義義字段,具具體的歧義義校正策略略如下:A主導(dǎo)策策略1) 指針針移向Cnn,調(diào)用分分詞算法對對以Cn為首字的的詞進行查查找。2) 若句句子中Cnn可以和后后面的字構(gòu)構(gòu)成詞(設(shè)設(shè)CnCm為構(gòu)成的的最長詞),則則對Cn進行標(biāo)記記。 3) 移向向Cm,繼續(xù)對對Cm進行處理理,方法
14、類類似于2),直到找找到?jīng)]有歧歧異的詞為為止。4) 不妨妨設(shè)Cm與其后的的字不成詞詞,此時讓讓Cn優(yōu)先與右右邊的子段段組成詞,即即切分CnnCm為一詞。5) 對CCn之前的部部分做最大大正向匹配配,歧義處處理結(jié)束。B輔助策策略在漢語中許許多字是多多義字,由由于上下文文環(huán)境的不不同,這些些字既可以以作為只具具語法意義義或功能意意義的虛詞詞,也可以以與其他字字組合構(gòu)成成實詞,如如“的”、“地”、“了”等。統(tǒng)計計結(jié)果表明明,當(dāng)這些些字作為虛虛詞時,通通常作為詞詞的尾字出出現(xiàn),而構(gòu)構(gòu)成實詞時時,往往出出現(xiàn)在詞的的首位,或或中間部位位,所以對對這些字如如果直接采采用主導(dǎo)策策略,往往往會造成切切分錯誤。因
15、此,我我們對這些些字引入輔輔助策略。1) 在使使用主導(dǎo)策策略第一步步時,判斷斷Cn是否是上上述的多義義字2) 若是是,且Cnn是某個詞詞的詞尾字字,同時CCn無法與其其后的字構(gòu)構(gòu)成詞,此此時將Cnn視為虛詞詞,并作為為單獨一個個詞進行切切分,而對對Cn之前的部部分做最大大正向匹配配。3) 否則則,繼續(xù)采采用主導(dǎo)策策略。3.3.44 統(tǒng)計方法法運用由于詞典的的不完全性性,許多詞詞可能不會會在字典中中登錄,為為了處理句句子中的未未登錄詞,我我們在原有有的算法中中嵌入詞頻頻統(tǒng)計方法法,將某些些出現(xiàn)頻率率較高的連連續(xù)字段作作為一個詞詞切分,我我們首先對對頻度設(shè)定定一個閾值值f。設(shè)已對C11Cn進行切分
16、分,由切分分算法和歧歧義處理算算法得到CC1Ci為一個詞詞,CjCn為一個詞詞,Ci與Cj之間皆為為單字詞,即即C1Ci和CjCn是相鄰最最近的兩個個多字詞,則則將Ci+1Cj-1作為為一個多字字詞進行詞詞頻統(tǒng)計,在在對文章全全部切分完完畢之后,若若Ci+1Cj-1的出出現(xiàn)次數(shù)達達到f時,則則將其看作作一個詞,否否則,將其其拆分為單單字詞。同時,對于于相同或相相近專業(yè)和和領(lǐng)域建立立起動態(tài)詞詞庫,將由由統(tǒng)計得到到的詞不斷斷加入詞庫庫中,可以以實現(xiàn)對詞詞典的動態(tài)態(tài)維護。通過將基于于詞典的處處理方法和和基于頻率率的統(tǒng)計方方法結(jié)合起起來,不僅僅保證了切切分速度快快、精度高高的優(yōu)點,而而且能夠結(jié)結(jié)合上下
17、文文,最大限限度的識別別人名、地地名、專業(yè)業(yè)術(shù)語等未未登錄詞。4 檢索技技術(shù)根據(jù)查找相相關(guān)信息的的實現(xiàn)方式式不同,常常見的信息息檢索引擎擎有布爾邏輯輯模型、模模糊邏輯模模型、向量量空間模型型和概率檢檢索模型等等幾類。4.1 布布爾邏輯模模型布爾邏輯模模型是最簡簡單的檢索索模型,也也是其他檢檢索模型的的基礎(chǔ)。設(shè)文本集DD=(d11,d2,d3,dn),di(i=11,2,n)為為文本集中中某一文檔檔;又設(shè)TTi=(ti11,ti2,tim)為ddi的標(biāo)引引詞集合,則對于形形如Q=WW1W2Wk的檢索式式,如果WW1Ti,W2Ti,WkTi,則di為查詢QQ的命中文文檔,否則則di為Q的不不命中文
18、檔檔;而對于于形如Q=W1W2Wk的檢索式式,如果至至少存在某某個WjTi(j=11,2,k),則di為Q的命命中文檔,否則dii為不命中中文檔。用戶根據(jù)所所檢索關(guān)鍵鍵字在檢索索結(jié)果中的的邏輯關(guān)系系遞交查詢詢,查詢模模塊根據(jù)布布爾邏輯的的基本運算算法則來給給出查詢結(jié)結(jié)果。布爾檢索模模型原理簡簡單易理解解,容易在在計算機上上實現(xiàn)并且且具有檢索索速度快的的優(yōu)點。但但是最終給給出的查詢詢結(jié)果沒有有相關(guān)性排排序,不能能全面反映映用戶的需需求,功能能不如其他他的檢索模模型。4.2 模模糊邏輯模模型模糊邏輯模模型以模糊糊數(shù)學(xué)作為為理論基礎(chǔ)礎(chǔ),設(shè)置單單個的檢索索詞w在文文檔d中的的隸屬度uu,u0,11,u
19、越越大代表ww和文檔dd的相關(guān)性性越高。用用戶給出查查詢要求,查查詢模塊根根據(jù)模糊邏邏輯運算給給出查詢的的結(jié)果,并并能夠按照照相關(guān)度排排序。模糊邏輯模模型能夠克克服布爾邏邏輯模型檢檢索結(jié)果的的無序性,但但是給查詢詢詞設(shè)置準(zhǔn)準(zhǔn)確的隸屬屬度有一定定困難。4.3 向向量空間模模型向量空間模模型4將文檔映映射為一個個特征向量量V(d)=(t11,1(d);tn, n(d),其中tti(i=1,22, ,n)為一列互互不雷同的的詞條項,i(d)為ti在d中的權(quán)值, 一般被定義為ti在d中出現(xiàn)頻率tfi(d)的函數(shù),即。在信息檢索中常用的詞條權(quán)值計算方法為 TF-IDF 函數(shù),其中N為所有文檔的數(shù)目,ni
20、為含有詞條ti的文檔數(shù)目。TF-IDF公式有很多變種,下面是一個常用的TF-IDF公式:根據(jù)TF-IDF公公式,文檔檔集中包含含某一詞條條的文檔越越多,說明明它區(qū)分文文檔類別屬屬性的能力力越低,其其權(quán)值越小??;另一方方面,某一一文檔中某某一詞條出出現(xiàn)的頻率率越高,說說明它區(qū)分分文檔內(nèi)容容屬性的能能力越強,其其權(quán)值越大大。兩文檔之間間的相似度度可以用其其對應(yīng)的向向量之間的的夾角余弦弦來表示,即即文檔dii,dj的相似度度可以表示示為進行查詢的的過程中,先先將查詢條條件Q進行行向量化,主主要依據(jù)布布爾模型:當(dāng)ti在查查詢條件QQ中時,將將對應(yīng)的第第i坐標(biāo)置置為1,否否則置為00,即從而文檔dd與查
21、詢QQ的相似度度為 根據(jù)文檔之之間的相似似度,結(jié)合合機器學(xué)習(xí)習(xí)的一些算算法如神經(jīng)經(jīng)網(wǎng)絡(luò)算法法,K-近近鄰算法和和貝葉斯分分類算法等等,可以將將文檔集分分類劃分為為一些小的的文檔子集集。在查詢過程程中,可以以計算出每每個文檔與與查詢的相相似度,進進而可以根根據(jù)相似度度的大小,將將查詢的結(jié)結(jié)果進行排排序。向量空間模模型可以實實現(xiàn)文檔的的自動分類類和對查詢詢結(jié)果的相相似度排序序,能夠有有效提高檢檢索效率;它的缺點點是相似度度的計算量量大,當(dāng)有有新文檔加加入時,則則必須重新新計算詞的的權(quán)值。4.4 概概率檢索模模型概率檢索模模型是在布布爾邏輯模模型的基礎(chǔ)礎(chǔ)上為解決決檢索中存存在的一些些不確定性性而引入
22、的。概率檢檢索模型有有多種形式式,常見的的為第二概概率檢索模模型,首先先設(shè)定標(biāo)引引詞的概率率值,一般般是對檢索索作業(yè)重復(fù)復(fù)若干次,每一次檢檢索用戶對對檢出文檔檔進行相關(guān)關(guān)性判斷。再利用這這種反饋信信息,根據(jù)據(jù)每個詞在在相關(guān)文檔檔集合和無無關(guān)文檔集集合的分布布情況來計計算它們的的相關(guān)概率率,將詞的的權(quán)值設(shè)計計為:其中P,PP分別表示示某詞在相相關(guān)文檔集集和無關(guān)文文檔集中出出現(xiàn)的概率率。某一文文檔的權(quán)值值則是它所所含的標(biāo)引引詞權(quán)值之之和,于是是,文檔dd與用戶查查詢Q相關(guān)關(guān)概率可定定義為:其中pw和和pw分別為ww在相關(guān)文文檔和無關(guān)關(guān)文檔中的的概率。上上式中右邊邊和式是對對所有出現(xiàn)現(xiàn)在文檔dd和查
23、詢QQ中的詞ww求和,即即wdQ.概率模型有有嚴格的數(shù)數(shù)學(xué)理論基基礎(chǔ),采用用了相關(guān)反反饋原理克克服不確定定性推理的的缺點,它它的缺點是是參數(shù)估計計的難度比比較大,文文件和查詢詢的表達也也比較困難難。以上介紹了了幾種傳統(tǒng)統(tǒng)的檢索模模型,隨著著檢索技術(shù)術(shù)的不斷發(fā)發(fā)展,新的的檢索技術(shù)術(shù)也不斷涌涌現(xiàn),出現(xiàn)現(xiàn)了諸如并并行信息檢檢索系統(tǒng)、演繹信息息檢索系統(tǒng)統(tǒng)、基于超超文本技術(shù)術(shù)的信息檢檢索系統(tǒng)、分布式檢檢索系統(tǒng)和和智能檢索索系統(tǒng)等5。這這些新的技技術(shù)代表了了檢索技術(shù)術(shù)的發(fā)展方方向。5 實驗結(jié)結(jié)果我們對設(shè)計計的切分算算法作了程程序上的實實現(xiàn),采用用的語料庫庫來自由北北京大學(xué)計計算語言學(xué)學(xué)研究所和和富士通研研
24、究開發(fā)中中心有限公公司共同制制作的PFFR人民日日報標(biāo)注語語料庫(版版本1.00)。CPU內(nèi)存操作系統(tǒng)開發(fā)環(huán)境P4 11.5G256MWin20000VC+66.0本文在以下下環(huán)境中實實現(xiàn)了切分分算法:切分結(jié)果:文件大小漢字(個)用時(秒)切分準(zhǔn)確率率3.55 MB18394414 483.5544 91577%統(tǒng)計結(jié)果:統(tǒng)計詞數(shù)(個個)人名(個)地名(個)其它有意義義的詞(個個)有效率19966229032351855%結(jié)果分析:我們的詞典典總共收錄錄了1300152個個詞,基本本上覆蓋了了常用詞匯匯。切分結(jié)結(jié)果表明采采用一個比比較完全的的詞典,再再配合以快快速的切分分算法和適適當(dāng)?shù)男U?/p>
25、略,從從而使得無無論是切分分效率還是是切分正確確率,都是是令人滿意意的。根據(jù)據(jù)詞頻統(tǒng)計計出的結(jié)果果中,也有有很大一部部分是有意意義的詞匯匯,說明用用統(tǒng)計方法法處理未登登錄詞包括括人名和地地名也是有有效的。最最后,我們們還將經(jīng)過過統(tǒng)計得到到的有意義義的詞加入入詞典進行行再次切分分,得到的的準(zhǔn)確率為為92.334%,比比原結(jié)果提提高了0.77%,可可見在原有有的切分算算法上再輔輔助以統(tǒng)計計方法,可可以有效提提高切分的的準(zhǔn)確度。 6 結(jié)束語語要開發(fā)高性性能的中文文檢索引擎擎,快速、可靠的中中文分詞算算法和準(zhǔn)確確、高效的的檢索技術(shù)術(shù)是至關(guān)重重要的,針針對不同領(lǐng)領(lǐng)域和需求求,需要采采取不同的的策略和方方
26、法,本文文僅起拋磚磚引玉的作作用。隨著著科學(xué)技術(shù)術(shù)的發(fā)展,人人們必然需需要針對性性更強的中中文檢索引引擎,因此此,專業(yè)化化、 深層層次的中文文檢索引擎擎將是今后后的發(fā)展方方向。參考文獻獻1嚴威威, 趙政政. 開發(fā)發(fā)中文搜索索引擎漢語語處理的關(guān)關(guān)鍵技術(shù). 計算算機工程 Voll .255, Noo.61, 19999, ppp5-66.2姚天天順, 朱朱靖波等. 自然語語言理解(第第2版). 北京:清華大學(xué)學(xué)出版社, 20002.3Toom M. Mittchelll. 機機器學(xué)習(xí). 曾華軍軍, 張銀銀奎等譯.北京:機械工業(yè)業(yè)出版社,22003.4G.Saltton, A.Woong, C.S.
27、Yangg. Onn thee speecifiicatiion oof teerm vvaluees inn auttomattic iindexxing. Jouurnall of Docuumenttatioon, 11973 , 299(4):351372.5賈同同興. 人人工智能與與情報檢索索.北京:北京圖書書館出版社社, 19997.77.Some Techhniquues for IInforrmatiion SSearcch Ennginees foor ChhinesseWU DoongTENGG Yu-pingg(Centter ffor CCombiinatooricss
28、, Laaboraatoryy of Puree Matthemaaticss andd Commbinaatoriics, Nankkai Univversiity, Tiannjin 3000071, P.R. Chiina)Abstrract. Two kkey ttechnniquees inn thee devveloppmentt of Chinnese Infoormattion Retrrievaal Syystemm aree disscusssed iin thhis ppaperr, i.e., Chinnese wordd seggmenttatioon annd seearchh tecchniqque. For Chinnese
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 墩、臺身和蓋梁工程現(xiàn)場質(zhì)量檢驗報告單(五)
- 智能交通管理平臺開發(fā)協(xié)議
- 辦公用品采購預(yù)算與實際使用對比表格
- 專業(yè)資料出版合作協(xié)議
- 水利水電工程施工承包協(xié)議
- 企業(yè)品牌授權(quán)使用協(xié)議書
- 小學(xué)生體育運動啟蒙故事讀后感
- 太陽能光伏系統(tǒng)安裝維護合同
- 2024-2025學(xué)年高二數(shù)學(xué)湘教版選擇性必修第二冊教學(xué)課件 第2章-2.4空間向量在立體幾何中的應(yīng)用-2.4.3 向量與夾角
- 水系統(tǒng)基礎(chǔ)知識培訓(xùn)課件
- 2025湖北省建筑安全員考試題庫及答案
- 2025年《中央一號文件》參考試題庫資料100題及答案(含單選、多選、判斷題)
- 《影視照明技術(shù)》課件:照亮影視作品的靈魂
- 2023安徽省公務(wù)員考試【申論A卷、申論C卷、行測B類】 三套 真題及答案
- 《酒店前廳設(shè)計》課件
- 老年醫(yī)學(xué)科建設(shè)與發(fā)展
- 2025年貴州能礦錳業(yè)集團有限公司招聘筆試參考題庫含答案解析
- 公司積分制管理實施方案
- 2025年部編版道德與法治小學(xué)三年級下冊全冊教案(含教學(xué)計劃)
- 2023河南中醫(yī)藥大學(xué)學(xué)士學(xué)位英語題
- 中等職業(yè)學(xué)校英語教學(xué)大綱詞匯表本表共收詞2200個左右含
評論
0/150
提交評論