




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 中文分詞算法及改進(jìn)研究 申琳摘要:該文主要對(duì)中文分詞算法過程中的歧義字段的發(fā)現(xiàn)和消解進(jìn)行研究。首先,通過雙向最大匹配檢索算法和逐詞掃描最大匹配法等方法實(shí)現(xiàn)中文文本的分詞處理,并針對(duì)其中所存在的歧義字段,通過計(jì)算其互信息和t-信息來實(shí)現(xiàn)中文分詞歧義的消除。該文所研究的中文分詞算法,不僅可以在多個(gè)中文分詞方案中選擇更優(yōu)的分詞方案,消解中文分詞歧義;同時(shí),還可以在已有分詞方案的基礎(chǔ)上,發(fā)現(xiàn)更加符合實(shí)際情況的分詞方案,以提高中文分詞的準(zhǔn)確性和適用性。關(guān)鍵詞:中文分詞;歧義發(fā)現(xiàn);歧義消解;互信息;t-信息:tp18 :a :1009-3044(201
2、7)31-0199-021 概述信息技術(shù)的不斷發(fā)展,提高了信息的搜集和傳輸效率;而信息技術(shù)的廣泛應(yīng)用,直接導(dǎo)致了信息的爆炸式增長(zhǎng)。海量信息的增長(zhǎng),促使人們需要更加自動(dòng)化的方法來對(duì)海量信息進(jìn)行處理的新需求。信息的了解是海量信息自動(dòng)化處理的基礎(chǔ),對(duì)于中文信息而言,如何通過中文分詞進(jìn)行中文文本信息的切分,理解中文文本信息的具體內(nèi)容,就是海量中文文本信息就是自動(dòng)化處理的基礎(chǔ)。2 中文分詞歧義消解研究2.1 中文分詞歧義消解概述中文分詞最大的問題就在于中文分詞歧義的消除,例如在詞句“”的分詞中“他說的確實(shí)在理”文本的分詞時(shí),“的確”、“是在”、“確實(shí)”、“在理”等詞語都是生活中常見的詞組方法。因此按照不
3、同的分詞方法會(huì)產(chǎn)生歧義:正向優(yōu)化最大匹配方法(fmm)的分詞結(jié)果為:“他/說/的確/實(shí)在/理”;算法進(jìn)和逆向優(yōu)化最大匹配方法(rmm)的分詞結(jié)果為“他/說/的/確實(shí)/在理”。而對(duì)于文本“老師教你馬上去”而言,使用fmm和rmm算法的處理結(jié)果分別為“老師/叫/你/馬上/去”(fmm)和“老師/叫/你/馬/上去”(rmm)。除fmm算法和rmm算法以外,在進(jìn)行具體的中文文本分詞時(shí),都有可能因?yàn)橹形奈谋镜奶厥庑?,?dǎo)致分詞結(jié)果不正確,即中文分詞的歧義。2.2 中文分詞歧義消解難點(diǎn)歧義的處理是進(jìn)行中文文本自動(dòng)分詞,進(jìn)而理解中文文本信息時(shí)所遇到的主要困難之一,而由于如下的各種原因,導(dǎo)致中文分詞歧義的處理存
4、在諸多難點(diǎn)。(1) 歧義字段類型多種多樣歧義字段的類型豐富,而歧義消解策略也多種多樣,例如通過增加語義、語用知識(shí)等外部條件來消解歧義,例如“他說的確實(shí)在理”等文本的分詞,就可以通過外部知識(shí)條件來消解分詞時(shí)存在的歧義;或者依靠上下文語義信息來消解歧義,例如“乒乓球拍賣完了”文本,可以分為“乒乓球拍/賣完/了”(fmm)和“乒乓球/拍賣/完了”(rmm),就可以通過上下文來消解歧義;甚至在生活中還存在,借助上下文內(nèi)容,人為也無法消解的歧義。(2) 未登錄詞的分詞歧義由于信息的爆發(fā)式增長(zhǎng),中文詞語本身也在不斷發(fā)展,例如網(wǎng)絡(luò)上每年就有大量網(wǎng)絡(luò)流行語出現(xiàn),這些詞庫中為存儲(chǔ)的未登錄詞的存在,也為中文分詞歧
5、義的處理帶來了很大的困難。由于中文分詞歧義的類型多樣,而且中文詞語本身也在不斷變化發(fā)展過程中,為此想要準(zhǔn)確、完整的解決所有中文分詞歧義難以實(shí)現(xiàn)。而且讓計(jì)算機(jī)完全理解文本的信息,通過上下文的語義來消除部分中文分詞歧義,也會(huì)導(dǎo)致中文分詞效率急劇下降。為此,在本文的研究中主要對(duì)可以借助語用知識(shí)消解的中文分詞歧義進(jìn)行研究。3 中文分詞歧義發(fā)現(xiàn)算法分析當(dāng)前,中文分詞歧義發(fā)現(xiàn)算法的研究成果較多。(1) 雙向最大匹配檢索算法通過采用fmm算法和rmm算法對(duì)中文文本分詞結(jié)果的對(duì)比,來發(fā)現(xiàn)中文分詞過程中所存在的歧義。例如在“他說的確實(shí)在理”的分詞過程中,發(fā)現(xiàn)“的確實(shí)在理”為歧義字段。(2) 逐詞掃描最大匹配法通
6、過fmm和逐詞掃描相結(jié)合以發(fā)現(xiàn)中文分詞中的歧義字段,其原理為從文本起點(diǎn)取不超過最大長(zhǎng)度的漢字符進(jìn)行匹配,若在字典庫中有該匹配字段,則且反一條分詞,并通過與最近的分詞進(jìn)行比較,對(duì)存在的歧義字段進(jìn)行標(biāo)記;若在字典庫中沒有找到該匹配字段,則去掉匹配字段的最后一個(gè)漢字,重新進(jìn)行匹配,直到匹配字段的長(zhǎng)度為零為止,并文本中的下一個(gè)字進(jìn)行同樣處理,直到文本中的漢字全部處理完畢為止。(3) 正向最大匹配結(jié)合回退一字法fmm和逐詞掃描相結(jié)合以發(fā)現(xiàn)中文分詞中歧義字段的新算法,其原理與逐詞掃描最大匹配法類似,若匹配字段在詞典庫中匹配成果,則將匹配字段回退一字,進(jìn)行重新匹配,如果回退一字的匹配字段在詞典庫中依然匹配成
7、果,則認(rèn)為中文文本中存在歧義字段。與中文分詞歧義消解的研究類似,由于中文分詞歧義類型眾多,以及中文詞語的不斷發(fā)展,使得中文分詞歧義發(fā)現(xiàn)算法同樣存在諸多難點(diǎn)。在本文中使用算法原理簡(jiǎn)單的fmm和rmm結(jié)合的中文分詞歧義算法進(jìn)行研究。4 中文分詞歧義消解算法設(shè)計(jì)4.1 算法原理通過構(gòu)建語料庫來計(jì)算不同中文詞語的次頻度,然后通過計(jì)算詞語的互信息和t-信息來消解中文分詞歧義。(1) 互信息待分詞的漢字串為xy,則詞組x和詞組y的互信息定義如式(1)所示。ix,y=px,ypxpy (1)其中,px、py、px,y分別表示詞語x、y、xy在語料庫中出現(xiàn)的概率。若ix,y=0,表示詞語xy未在語料庫中出現(xiàn)過
8、,在極限狀況下,px=0或py=0,則表示x或y未在語料庫中,則xy必然成詞(在當(dāng)前語料庫環(huán)境下)。因此,ixy越大,則xy成詞概率越高。(2) t-信息待分詞的漢字串為xyz,相對(duì)于漢字x和z,漢字y的t-信息定義如式(2)所示。 tx,zy=pzy-pyxp2zy-p2yx其中,pyx、pzy表示兩個(gè)漢字詞組的條件概率。若tx,zy<0,表示xy成詞概率比yz成詞概率要高,而且,tx,zy越大,表示xy成詞概率越大;若tx,zy=0,則表示xy和yz成詞的概率相同,難以確定;若tx,zy>0,表示yz成詞概率比xy成詞概率要高,而且,tx,zy越大,表示yz成詞概率越大。4.2
9、 應(yīng)用示例在一個(gè)中文詞條為64231條,總次頻度為12638035的詞典庫中,部分中文詞的頻度如表1所示。中文詞串“他說的確實(shí)在理”有“他/說/的確/實(shí)在/理”(fmm)和“他/說/的/確實(shí)/在理”(rmm)兩種分詞方法,即中文詞串存在分詞歧義。在對(duì)“他說的確實(shí)在理”歧義中文字段進(jìn)行處理時(shí),計(jì)算互信息分別為“的確”(45.45)、“確實(shí)”(289.69)、“實(shí)在”(47.04)、“在理”(189),根據(jù)互信息,“實(shí)在”和“在理”的成詞概率更高;計(jì)算和t-信息分別為“的確實(shí)”(0.86)、“確實(shí)在”(0.29)、“實(shí)在理”(-0.98)根據(jù)t-信息,可以看出“的確”的成詞概率比“確實(shí)”成詞概率更
10、高,“確實(shí)”的成詞概率比“實(shí)在”的成詞概率更高,“實(shí)在”比“在理”的成詞概率更高。為此,結(jié)合歧義中文字段的互信息和t-信息,將“他說的確實(shí)在理”歧義中文字段分詞為“他/說/的/確實(shí)/在理”。同樣,中文詞串“結(jié)合成分子時(shí)有”有“結(jié)合/成分/子時(shí)/有”(fmm)和“結(jié)/合成/分子/時(shí)有”(rmm)兩種分詞方法,即中文詞串存在分詞歧義。在對(duì)“結(jié)合成分子時(shí)有”歧義中文字段進(jìn)行處理時(shí),計(jì)算互信息分別為“結(jié)合”(172.53)、“合成”(11.27)、“成分”(4.51)、“分子”(45.53)、“子時(shí)”(0.058)、“時(shí)有”(0.002),根據(jù)互信息,“結(jié)合”和“分子”的成詞概率更高;計(jì)算和t-信息分
11、別為“結(jié)合成”(-4.53)、“合成分”(-0.725)、“成分子”(0.741)、“分子時(shí)”(-0.98)、“子時(shí)有”(-0.93),根據(jù)t-信息,雖然“結(jié)合”、“合成”、“分子”的成詞概率都很高,但是結(jié)合互信息,可以看出“結(jié)合”的互信息非常大,即“結(jié)合”應(yīng)該單獨(dú)成詞,而“成分子”的t-信息為0.741,即“分子”成詞概率更大,為此,結(jié)合歧義中文字段的互信息和t-信息,將“結(jié)合成分子時(shí)有”歧義中文字段分詞為與fmm和rmm算法都不同的分詞結(jié)果“結(jié)合/成/分子/時(shí)有”。如上的分析所示,本文所研究的中文分詞歧義消解算法,不僅可以在多個(gè)中文分詞方案中選擇更優(yōu)的分詞方案,同時(shí)還可以在已有分詞方案的基礎(chǔ)上,發(fā)現(xiàn)更加符合實(shí)際情況的分詞方案。5 結(jié)束語中文文本分詞是中文信息自動(dòng)化處理的基礎(chǔ),同時(shí)由于漢語的特點(diǎn),在中文分詞過程中,中文分詞的歧義字段處理就成為了人們研究和關(guān)注的重點(diǎn)。當(dāng)前,已經(jīng)有眾多的中文分詞歧義字段的發(fā)現(xiàn)和消解算法,但是這些算法都無法完全、正確的解決中文分詞歧義字段問題。而且,隨著漢語本身的不斷發(fā)展,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025屆廣東省佛山市超盈實(shí)驗(yàn)中學(xué)七下數(shù)學(xué)期末復(fù)習(xí)檢測(cè)試題含解析
- 個(gè)人職業(yè)目標(biāo)提高溝通技巧計(jì)劃
- 法學(xué)概論各知識(shí)模塊的復(fù)習(xí)重點(diǎn)試題及答案
- 強(qiáng)化應(yīng)變能力的自我提升計(jì)劃
- 快樂學(xué)習(xí)軟件設(shè)計(jì)師考試的試題及答案
- 藝術(shù)展覽安保工作的總結(jié)與反思計(jì)劃
- 商業(yè)智能基本概念試題及答案
- 班級(jí)活動(dòng)評(píng)估與效果反饋計(jì)劃
- 主管年度創(chuàng)業(yè)精神任務(wù)計(jì)劃
- 企業(yè)可持續(xù)發(fā)展與風(fēng)險(xiǎn)考量試題及答案
- 2025四川愛眾集團(tuán)第一批次招聘10人筆試參考題庫附帶答案詳解
- 工業(yè)用地開發(fā)項(xiàng)目成本分析與資金籌措方案
- 2025年初中地理學(xué)業(yè)水平考試模擬試卷:地圖與地球知識(shí)綜合訓(xùn)練試題卷及答案
- (人教2024版)英語七年級(jí)下冊(cè)Unit7.4 Section B 1a-2d課件(新教材)
- 2025閩教版英語三年級(jí)下冊(cè)單詞表
- 江蘇省建筑與裝飾工程計(jì)價(jià)定額(2014)電子表格版
- 配電變壓器調(diào)檔施工技術(shù)方案
- 預(yù)防性健康檢管理制度管理辦法
- 英漢語法對(duì)比研究
- CAAP2008X功能概述PPT課件
- 柴油發(fā)電機(jī)組檢查驗(yàn)收表_word文檔免費(fèi)
評(píng)論
0/150
提交評(píng)論