漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用

上傳人：b*** IP屬地：廣東上傳時間：2022-03-05 格式：PPT 頁數(shù)：83 大小：573KB 積分：30 舉報 版權(quán)申訴

已閱讀5頁，還剩78頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用1 緒論本文研究的目的和意義計算語言學(xué)概述相關(guān)領(lǐng)域研究與發(fā)展綜述統(tǒng)計語言建模技術(shù)漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用基于統(tǒng)計的計算語言模型給定所有可能的句子，統(tǒng)計語言模型就是一個概率分布：條件概率形式：N-gram模型：)( spniiindefhwpwwpsp11)|(),()(niiNiiwwwpsp111),|()(漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用統(tǒng)計語言模型的作用信源信道模型 :I:語言文本；O:聲音信號、字符圖像信號、拼音輸入等。語言模型：)|()(maxarg)()|()(maxarg)|(maxarg

2、IOpIpOpIOpIpOIpIIII)(Ip漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用統(tǒng)計語言模型建模方法極大似然方法語言建模貝葉斯方法)|(maxargMXPMM)|(maxargXMPMM)()()|(maxargXPMPMXPMM)()|(maxargMPMXPMM漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用統(tǒng)計語言模型的評價標(biāo)準(zhǔn) 熵(Entropy)交叉熵(Cross Entropy)復(fù)雜度(Perplexity) )(log1)(1limnnxpnLHxMTMTxPxPPPH)(log)();( );( 2)(MTPPHMTPP漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用參數(shù)學(xué)習(xí)和數(shù)據(jù)平滑參數(shù)學(xué)習(xí) 有

3、指導(dǎo)學(xué)習(xí)-基于完全數(shù)據(jù)的最大可能性估計無指導(dǎo)學(xué)習(xí)(針對不完全數(shù)據(jù)的)具有隱含變量的參數(shù)訓(xùn)練過程EM算法數(shù)據(jù)平滑-Good-Turing估計、回退平滑和線性插值技術(shù)；變長N-gram模型、網(wǎng)格方法、壓縮模型漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用當(dāng)前主要語言模型N-gram模型決策樹模型指數(shù)模型（最大熵模型）整句模型文法模型概率上下文無關(guān)文法鏈文法概率依存文法自適應(yīng)模型漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用統(tǒng)計語言模型存在的不足之處最成功的統(tǒng)計語言建模技術(shù)很少使用真實的語言知識跨領(lǐng)域的適應(yīng)能力差不能有效處理長距離語言約束：為保證可行性，所有現(xiàn)有的語言模型都在文本的不同部分之間作了獨立假設(shè)。

4、漢語語言模型的獨特問題漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用本文的目標(biāo) 針對漢語統(tǒng) 計模型的參數(shù) 訓(xùn)練問題進行研究應(yīng) 用于手機類信息設(shè) 備的智能拼音漢字輸入改進音字轉(zhuǎn) 換引入語言知識，提高統(tǒng) 計模型的描述能力研究漢語模型的自適應(yīng) 和機器學(xué) 習(xí) 方法漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用本文主要工作漢語統(tǒng)計語言模型參數(shù)訓(xùn)練的優(yōu)化基于語言元素的漢語統(tǒng)計模型漢語語言模型的自適應(yīng)方法面向手機類設(shè)備的智能拼音漢字輸入方法漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用2 漢語統(tǒng)計語言模型參數(shù)訓(xùn)練的

5、優(yōu)化 iwiNiiNiiNiiwwcwwcwwwp)()()|(1111 語料庫分詞語料參數(shù) 估計語言模型分詞系統(tǒng) 詞表漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用問題的分析漢語統(tǒng)計模型的準(zhǔn)確構(gòu)建和優(yōu)化涉及到以下幾個問題：詞表的確定（生詞識別）分詞參數(shù)估計三者存在因果關(guān)系詞表分詞分詞參數(shù)估計（模型）參數(shù)估計（模型）詞表優(yōu)化漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用分詞-生詞識別-參數(shù)估計迭代算法的提出非迭代過程的缺點：幾個過程不能相互作用，相互促進迭代過程的優(yōu)點：對分詞的影響：更好地解決分詞歧義問題，提高分詞精度對生詞識別的影響：減少不合理的候選生詞排除偽生詞，生詞自動消歧，減

6、少后處理過程對模型的影響：逐步優(yōu)化詞表、提高參數(shù)估計精度、提高音字轉(zhuǎn)換正確率漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用基于N-gram信息的生詞獲取基本思想：N元對詞頻過濾互信息過濾校正生詞獲取詞頻互信息（Mutual Information）詞頻與互信息的關(guān)系候選生詞的校正)()(),(log);(212121wpwpwwpwwI漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用基于N-gram信息的生詞獲取結(jié)果分析MI因素：準(zhǔn)確率隨著互信息值的升高而升高，但抽取出的元組的數(shù)量也隨之減少；WF因素：準(zhǔn)確率隨著詞頻值的升高而降低，抽取出的元組數(shù)量也隨之減少。影響結(jié)果的其他因素分詞錯誤：“不容易”、“和服務(wù)”量

7、詞：“個百分點”、“集電視連續(xù)劇”、“屆世乒賽”姓氏：“新華社記者劉”、“新華社記者王” 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用基于統(tǒng)計和規(guī)則方法的中文人名識別問題的提出主要方法規(guī)則方法：準(zhǔn)確；規(guī)則庫沖突、復(fù)雜、龐大統(tǒng)計方法：資源少、效率高；準(zhǔn)確率低混合方法：取長補短本文方法：先規(guī)則，后統(tǒng)計；充分利用各種資源；采用分詞預(yù)處理漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用基于統(tǒng)計和規(guī)則方法的中文人名識別中文姓名用字特點（82年人口普查結(jié)果）729個姓氏用字姓氏分布很不均勻，但相對集中有些姓氏可用作單字詞名字用字分布較姓氏要平緩、分散名字用字涉及范圍廣某些漢字既可用作姓氏，又可用作名字用字漢語語言

8、模型研究與其在音字轉(zhuǎn)換中應(yīng)用人名識別系統(tǒng)知識庫姓氏用字頻率庫和名字用字頻率庫：653個單姓氏，15個復(fù)姓，1894個名字用字的總出現(xiàn)次數(shù)用作姓氏的次數(shù)作為姓氏cccp)(的總出現(xiàn)次數(shù)用作名字用字的次數(shù)作為名字用字cccp)(漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用人名識別系統(tǒng)知識庫名字常用詞表朝陽勁松愛國建國立新黎明宏偉朝暉向陽海燕愛民鳳山雪松新民劍峰建軍紅旗光明漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用人名識別系統(tǒng)知識庫稱謂庫三種類型只能用于姓名之前，如：戰(zhàn)士、歌星、演員等；只能用于姓名之后，如：閣下、之流等；姓名前后皆可，如：先生、主席、市長等。稱謂前綴

9、表：“副”、“總”、“代”、“代理”、“助理”、“常務(wù)”、“名譽”、“榮譽”等漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用人名識別系統(tǒng)知識庫簡單上下文指界詞表：約110個詞動詞：說、是、指出、認(rèn)為、表示、參加等；介詞：在、之、的、被、以等；正在、今天、本人、先后等。標(biāo)點符號集人名出現(xiàn)在句首或句尾（包括分句）的機會比較大，標(biāo)點符號可用來幫助判斷人名的邊界。頓號一邊是人名時，另一邊的候選人名的可靠性高。漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用人名識別系統(tǒng)知識庫非名字用詞表：有些雙字詞，如：時間、獎勵、緯度等不作名字用詞，但因為組成它們的單字可作為名字用字，如果跟在姓氏后面，往往會將其與可作姓氏的

10、字一起誤判為姓名。例：“做這件事花了我們一段時間?！?漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用中文人名識別過程待處理文本潛在姓名表切分預(yù)處理校正識別結(jié)果系統(tǒng)資源表知識庫中文人名識別漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用人名識別的具體實現(xiàn) 姓氏判別名字識別概率判斷候選字符串為人名的概率為： P = 姓氏部分為姓氏的概率P1 * 余下部分的漢字作名字用字的概率P2*P3(單名時，為P2) 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用校正(對潛在人名的后處理)自動校正：如果兩個潛在人名相似，考察它們的權(quán)值。一高一低時，將低權(quán)的潛在人名清除；都為高權(quán)時，兩者都認(rèn)為是人名；都是低權(quán)時，則各自通過第三個

11、字作名字用字的概率大小來判斷。概率夠高，識別為人名。否則將第三個字去掉。人工校正漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用人名識別結(jié)果與分析實驗結(jié)果：8個測試樣本，共22000多字，共有中文人名270個。系統(tǒng)共識別出中文人名330個，其中267個為真正人名。召回率=267/270*100% =98.89% 準(zhǔn)確率=267/330*100% =80.91% 準(zhǔn)確率和召回率是互相制約的，可通過概率閾值的調(diào)整來調(diào)節(jié)二者的關(guān)系。漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用人名識別結(jié)果與分析產(chǎn)生錯誤的主要原因被未識別的地名干擾?！昂庇⑸娇h詹家河鄉(xiāng)陶家河村， ”受非中式人名的干擾?！八抉R義艾買提 ”分詞結(jié)果不

12、理想?！盀橛酉愀刍貧w送賀禮” 規(guī)則不準(zhǔn)確?！澳纤未笤娙藯钊f里“驚如漢殿三千女， ”其他?！叭澜缑磕暧捌a(chǎn)量高達兩三千部， ”漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用漢語N-gram模型參數(shù)訓(xùn)練的迭代算法語料庫分詞語料參數(shù) 估計語言模型新詞識別詞典優(yōu)化分詞初始詞典新詞表優(yōu)化詞典漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用漢語N-gram模型構(gòu)建的迭代算法算法描述1. 利用初始詞典0V對未分詞語料庫進行首次分詞處理，構(gòu)造初始語言模型0P。 2. 利用詞典iV和語言模型iP對語料庫重新分詞。 3. 在分詞語料基礎(chǔ)上進行新詞識別。 4. 對詞典進行優(yōu)化，生成優(yōu)化詞典1i

13、V。 5. 針對優(yōu)化詞典進行參數(shù)估計，獲得優(yōu)化語言模型1iP。 6. 反復(fù)執(zhí)行 2-5 的過程，直到分詞結(jié)果無明顯變化或執(zhí)行完某一限定的迭代次數(shù)。漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用實驗結(jié)果和分析本文針對 Bi-gram 模型進行了實驗，初始詞典規(guī)模為 24686，實驗文本為 2000 萬字的人民日報語料。實驗表明，大部分的新詞在第一次迭代過程中即已識別出來，后面的迭代過程只進行較小的調(diào)整并很快趨于收斂。經(jīng)過三次迭代過程，共接受新詞 911 個，其中中文人名 359 個。分別采用 FMM 方法、不帶新詞識別的優(yōu)化語言模型和帶新詞識別的優(yōu)化語言模型進行分詞實驗，通過對測試語料的抽樣檢

14、查，分詞準(zhǔn)確率分別達到 96.4%、97.3%和 97.9%。針對拼音漢字轉(zhuǎn)換問題對優(yōu)化模型進行了測試，音字轉(zhuǎn)換錯誤率降低了 3.4 個百分點。漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用3基于語言元素的漢語統(tǒng)計模型已有實驗結(jié)論：基于詞的語言模型性能要明顯優(yōu)于同階的基于字的模型，高階模型優(yōu)于低階模型提高語言模型描述能力的途徑：提高模型階數(shù)擴展語言單位目標(biāo)：在保持模型階數(shù)不變的條件下，有效提高模型的描述能力漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用當(dāng)前主要處理方法此方向的探索：基于短語和基于分詞模式的語言模型目前短語選取和概率計算方法存在缺陷：短語的選取標(biāo)準(zhǔn)只考慮了降低模型復(fù)雜度的因素，并沒有考慮短

15、語構(gòu)成的內(nèi)在語言規(guī)律短語集的規(guī)模通常十分巨大，導(dǎo)致模型空間增長，同時相對減少了訓(xùn)練數(shù)據(jù)量訓(xùn)練數(shù)據(jù)的重新分割使得短語成為不可分割的語言單位，將導(dǎo)致構(gòu)成短語的單個詞的概率估計不準(zhǔn)確漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用當(dāng)前主要處理方法規(guī)則統(tǒng)計相結(jié)合的模型將模型的單位延伸至語言分析的結(jié)果，統(tǒng)稱為語言元素，元素間概率計算利用已有詞模型的參數(shù)近似估計（本課題組前人工作）特點：避免概率模型的大幅度增加，提高語言單位獲取的靈活性；能夠處理長距離語言關(guān)系和遞歸問題漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用本文方法：基于語言元素的漢語N-gram語言模型引入元素數(shù)量約束根據(jù)語言規(guī)則層次特點對概率值進行加權(quán)利用規(guī)則

16、可信度、詞可信度加權(quán)特點：保持原有特點；進一步提高模型精度；多種語言約束為機器學(xué)習(xí)提供靈活機制漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用基于語言元素的漢語N-gram語言模型niiNiineeepeeepsp11121)|()()(niiieepepsp211)|()()()|()|()()|(1, 11 ,21,1 ,1iitiitjjijiiiiwwpwwpwpeep當(dāng)N=2時漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用權(quán)值向量定義ji ,為權(quán) 值向量： 0,0為度量元素數(shù) 量因素的權(quán) 值，當(dāng)n0,0時表示語言元素越少，漢字串的可信度越高

17、，當(dāng)n0,0時表示元素數(shù) 量因素不起作用； )1(0,ii為第i個元素的可信度權(quán) 值； )1,1(,jiji為第i個元素的第j個構(gòu) 成詞的可信度權(quán) 值，當(dāng) 概率模型初步建立時，1,ji。漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用基于語言元素的漢語N-gram語言模型基于元素的Bi-gram模型 niiiiiieeperepernsp210 ,1110 , 10 , 0)|()(/()()(/()/()()|()|()()|(1, 11 ,1 ,21,1 ,1 ,1iitiiitjjijijiiiiiwwpwwp

18、wpeep考慮到概率歸一化 niiiiiieeperepernsp210 ,1110 , 10 , 0)|()(/()()(/()/(1)(ssp)(漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用詞類及其組織方法詞類按語法體系劃分按語義分類混合方式詞類的組織：類似語義網(wǎng)知識表達結(jié)構(gòu)-用很小的時間代價節(jié)省大量的存儲空間漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用規(guī)則的表示產(chǎn)生式系統(tǒng)詞法規(guī)則 | | | 短語規(guī)則 | |句法規(guī)則 | S S漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用規(guī)則的組織統(tǒng)一表達形式按索引分類索引選擇標(biāo)準(zhǔn)：含詞數(shù)最少的詞類（概率最小的詞類）例： S S 以、作為分類索引更合理BAAAt21BAAAA

19、tm21:漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用低層推理優(yōu)先原則如果存在規(guī)則： “X + Y + Z Y” 和 “W ISA Y”, 則首先匹配規(guī)則“X + W + Z W” (“X”和“Z”可以為空) 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用元素的語言學(xué)分析基于最少元素的狀態(tài)空間化簡方法對狀態(tài) 空間的生成過程進行分解： 1. 詞元素篩選此步驟實際上是對音節(jié) 流進行分詞的過程，詞的產(chǎn) 生分兩個過程：首先根據(jù) 輸入音節(jié)串匹配詞典中所有可能的詞，再按構(gòu) 詞規(guī) 則生成

20、新詞。以上所有詞作為分詞算法的候選。針對所有可能的分詞結(jié) 果按最少詞元素啟發(fā) 式策略選出若干最優(yōu) 或同時包含次優(yōu) 的結(jié)果，構(gòu) 成最有可能通向最優(yōu) 解的狀態(tài) 空間予以保留，作為本處理步驟的輸出。 2. 短語級元素篩選對單詞處理的輸出狀態(tài) 按知識庫中短語規(guī) 則進行條件匹配生成短語。對所有的匹配結(jié)果再按最少元素啟發(fā) 式策略篩選一次。

21、選擇最有可能通向最佳解的狀態(tài) 作為本處理部分的輸出。 3. 語句級元素篩選對短語處理部分的輸出狀態(tài) 根據(jù) 句法規(guī) 則進行語句級的規(guī) 則匹配。匹配結(jié) 果仍然可能存在不完整的分析樹，此時仍可按最少元素啟發(fā) 式策略對元素進行篩選。若仍存在多義性，則將結(jié) 果送下一步概率處理模塊。漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用元素的語言學(xué)分析基于最少元素的狀態(tài)空間化簡算法1. BEGIN; 2

22、. 根據(jù)拼音輸入構(gòu)建詞網(wǎng)格； 3. 按最少分詞法啟發(fā)式策略化簡詞網(wǎng)格空間； 4. IF 最佳路徑已求出 THEN GOTO 11； 5. 按短語規(guī)則生成新元素； 6. 按最少元素啟發(fā)式策略化簡元素網(wǎng)格空間； 7. IF 最佳路徑已求出 THEN GOTO 11； 8. 按句法規(guī)則生成新元素； 9. 按最少元素啟發(fā)式策略化簡元素網(wǎng)格空間； 10.IF 最佳路徑未求出 THEN GOTO 最佳路徑搜索模塊； 11.END.(找到最佳路徑) 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用音字轉(zhuǎn)換系統(tǒng)結(jié)構(gòu)圖拼音流文字流詞網(wǎng)格生成元素網(wǎng)格生成系統(tǒng)詞典語言規(guī)則庫統(tǒng) 計庫量化規(guī)則庫最優(yōu)路徑搜索

23、漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用實驗結(jié)果詞典收錄26000個詞，采用二千萬漢字語料（選自95、96年人民日報電子版）作為實驗文本，其中80%作為訓(xùn)練語料，其它20%作為測試語料。系統(tǒng)搜集了1000條語法、語義規(guī)則單純統(tǒng)計語言模型正確率為90.5%,加入語言規(guī)則后正確率提高到91.8%，加入最少元素約束后提高到92.3%能有效處理長距離語言約束和遞歸語言現(xiàn)象漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用4 漢語語言模型的自適應(yīng)方法當(dāng)前主要自適應(yīng)語言模型有兩種：基于緩存(Cache)的自適應(yīng)模型主題自適應(yīng)模型缺點：仍然較粗糙)|()1 ()|()|(hwPhwPhwPcachestaticadapt

24、iveTiiikmkkTMIXhwPwwwP1021)|()(TiiNiikmkkTMIXwwwPwwwP111021)|()(漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用面向用戶語言模型的提出語言模型的應(yīng)用如漢字鍵盤輸入是面向特定用戶的，不同用戶使用的文本類型和風(fēng)格無法準(zhǔn)確預(yù)測，因而也無法建立準(zhǔn)確的模型特定用戶使用的文本具有時段特性，即在某一特定時段內(nèi)，文本類型或風(fēng)格不變，但超過這一時段則可能變化漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用面向用戶的語言模型框架拼音語句語言解碼轉(zhuǎn)換結(jié)果用戶修正正確結(jié)果機器學(xué)習(xí) 用戶模型通用模型人機交互漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用理論

25、依據(jù)音字轉(zhuǎn)換的目標(biāo)即為給定拼音輸入T的條件下，找到對應(yīng)的概率最大的漢字串)|(maxargTSpSS，根據(jù)貝葉斯定理， )()|()(maxargTpSTpSpSS 等價于： )|()(maxargSTpSpSS )(Sp為先驗概率，通過大規(guī)模語料訓(xùn)練而得，)|(STp為后驗概率，與實際應(yīng)用中文本的出現(xiàn)有關(guān)，反映了通過機器學(xué)習(xí)獲得的新知識。漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用面向用戶語言模型結(jié)構(gòu)面向用戶語言模型=通用模型+用戶模型模型結(jié)合方式：插值方式：優(yōu)先選擇方式其他方式（適應(yīng)非概率模型）)|()1 ()|()|(hwPhwPhwPuseruniversal漢語語言模型研究與其在音字轉(zhuǎn)

26、換中應(yīng)用面向用戶模型的優(yōu)點邏輯上，整個模型仍然是一個整體；通用和用戶模型采用不同數(shù)據(jù)結(jié)構(gòu)適應(yīng)不同的需要；保證通用模型的穩(wěn)定性，增加用戶模型參數(shù)修改的自由度，便于達到良好的學(xué)習(xí)效果；用戶模型按照LRU規(guī)則淘汰陳舊的數(shù)據(jù)，符合記憶規(guī)律：記憶的事物增多，會沖淡原有事物的記憶，在一系列事物中，最后出現(xiàn)的若干個事物具有較好的記憶效果有效限制了其規(guī)模的無限擴張，同時保證其參數(shù)的修改不致對整個模型產(chǎn)生更大偏差漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用基于元素N-gram模型的機器學(xué)習(xí)漢語復(fù)雜性更高，語言模型中可變因素更多，因而機器學(xué)習(xí)方式更多增加了機器學(xué)習(xí)的難度為機器學(xué)習(xí)提供了更大的靈活性本文綜合運用了

27、各種學(xué)習(xí)方式-適合于面向大規(guī)模訓(xùn)練語料的學(xué)習(xí)和在線自適應(yīng)學(xué)習(xí)漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用單詞的學(xué)習(xí)詞本身的特征基于構(gòu)詞規(guī)則的特征基于統(tǒng)計規(guī)律的特征詞頻和互信息統(tǒng)計構(gòu)詞能力)()()(cCountcCountcWFP的多字詞含wciWFPiwcWFPwcWFPwP)1(|C| ),()1(|C| ),(1)(是多字詞是單字詞漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用單詞的學(xué)習(xí)漢字構(gòu)詞模式字對的親合力 )()()| )(位于多字詞cCountcpttnCountccpttnPrliiirpttnccpttrPwP1)|)()()|)(11iiBiircctcctP)|)(11iiNiirc

28、ctcctP漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用單詞的學(xué)習(xí)對系統(tǒng)的影響估價函數(shù) 1. 按詞典分詞使得自然語言的理解過程越容易越好，即符合最少元素規(guī)則，即按詞典分詞得到的詞條n數(shù)越少越好。 2. 詞典的冗余度越小越好，冗余度大小的判斷可用詞典的總體積v來表示,即v值越小越好，這樣可以減小系統(tǒng)開銷。模型復(fù)雜度ncvcwf21漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用單詞的學(xué)習(xí)對應(yīng)用的影響基于錯誤修正的學(xué)習(xí) 同一語言模型應(yīng)用于不同領(lǐng)域，效果不同，其學(xué)習(xí)標(biāo)準(zhǔn)也不同。對某一特定應(yīng)用而言，生詞的正確識別通常能改善性能，如對音字轉(zhuǎn)換能提高轉(zhuǎn)換正確率，但生詞的識別并不總是必需的。單詞的學(xué)習(xí)可以是面向錯誤修正的。漢

29、語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用語言規(guī)則的學(xué)習(xí) 文法推導(dǎo)：按照一個文法的評價函數(shù)從搜索空間中找出所需的文法。評價函數(shù)：反映出一個文法對訓(xùn)練集數(shù)據(jù)的刻畫程度。極大似然性標(biāo)準(zhǔn)貝葉斯公式)|(GOPmaxargGG)|(OGPmaxargGG)()|()()()|(GPGOPargmaxOPGPGOPargmaxGGG漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用語言規(guī)則的學(xué)習(xí) 基于歸納推理的規(guī)則學(xué)習(xí) “我吃魚。 ” （魚，ISA，食物）（我，ISA，人稱代詞）我|你|他魚|蔬菜 S S 規(guī)則學(xué)習(xí) 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用參數(shù)修正學(xué)習(xí) 語言元素的數(shù)量。目標(biāo)漢字串所含的語言元素越少，其可信度

30、越高。語言元素的層次因素。語言元素所在的層次越低，其可信度越好。記憶因素。記憶牢靠的元素可信度好，記憶不準(zhǔn)的元素可信度差。漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用參數(shù)修正學(xué)習(xí)學(xué)習(xí)方法在基于語言元素的模型公式中，將權(quán)值ji,看成是變量，則調(diào)節(jié)ji,的值就可以達到參數(shù)修正的目的。如果ji,的值改變，目標(biāo)漢字串的可信度就隨之改變，找到正確的ji,的值，就可以增加目標(biāo)漢字串的可信度，從而提高音字轉(zhuǎn)換的正確率。漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用N元概率參數(shù)修正學(xué)習(xí) 學(xué)習(xí)算法1. 初始化：1, 1ji； 2. IF nj THEN GOTO 9; 3. 向前移動i，使得jiSubSub1，12jiSu

31、bSub； 4. IF jiww且11jiww THEN GOTO 8; 5. IF jiSubSub且22jiSubSubTHEN WHILE ),(),(),(),(),(),(1111iiiijjjjwwCwCwCVwwCwCwCV ;),(,)(,)(11jjjjwwCwCwCGOTO 8; 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用N元概率參數(shù)修正學(xué)習(xí)6. IF 21jiSubSub 且 )(),(1ijjwCwwC THEN 1),()(1jjiwwCwCvalue, valuewwCwwCjjjj),(),(11, valuewCwCjj)()(,valuewCwCjj)()(11;

32、GOTO 8; 7. IF ),(),(11iijjwwCwwC THEN 1),(),(11jjiiwwCwwCvalue, valuewwCwwCjjjj),(),(11, valuewCwCjj)()(,valuewCwCjj)()(11; 8. 1 jj, GOTO 1; 9. 結(jié)束。漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用實驗結(jié)果實驗一：選取了20篇不同領(lǐng)域的完整的文章（不包含在訓(xùn)練語料中）分別進行測試。實驗結(jié)果為：未采用機器學(xué)習(xí)時，音字轉(zhuǎn)換準(zhǔn)確率平均為90.5%，采用本文的機器學(xué)習(xí)時，準(zhǔn)確率平均為94.9%。實驗二：通過在線拼音鍵盤輸入實驗，對機器學(xué)習(xí)前后的音字轉(zhuǎn)換結(jié)果進行測試，經(jīng)過

33、短時記憶后，重新輸入的準(zhǔn)確率達到98%以上。漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用實驗結(jié)果實驗三：針對上百萬規(guī)模的混合類型文本進行測試。整體進行機器學(xué)習(xí)后，對學(xué)習(xí)前后的音字轉(zhuǎn)換準(zhǔn)確率進行對比。實驗結(jié)果表明，準(zhǔn)確率從91.3%提高到91.9%。這說明經(jīng)過長期的機器學(xué)習(xí)過程，學(xué)習(xí)結(jié)果對最初輸入的文本所起作用將減小或消失。漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用5 面向手機類設(shè)備的智能拼音漢字輸入方法面向信息設(shè)備的漢字輸入面臨的問題：面向小鍵盤的漢字編碼方案研究更困難信息設(shè)備的各方面性能較低，對應(yīng)用程序限制苛刻智能拼音漢字輸入解決方案面向數(shù)字鍵盤的三拼輸入法適于小內(nèi)存應(yīng)用的拼音漢字智能轉(zhuǎn)換系統(tǒng)漢語

34、語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用面向數(shù)字鍵盤的三拼輸入法逐級分類思想 C0 C11 C12 PY1 PY2 PY3 PY4 C1m PYn 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用面向數(shù)字鍵盤的三拼輸入法逐級分類思想假設(shè)數(shù)字鍵盤中的12個字符鍵都可用來輸入拼音，最后確定407個常用拼音，考慮通過3級分類來實現(xiàn)分類規(guī)則應(yīng)該盡量簡單、直觀、容易被用戶接受每級的分類數(shù)必須小于12 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用面向數(shù)字鍵盤的三拼輸入法數(shù)字鍵拼音首字母單字符韻母多字符韻母i起始韻母u起始韻母拼音數(shù) 2 A 5 5B475 16C48 416 3D486422E 4 4F36 9 4G39 71

35、9H39 719i(ch)48 618 5 J2 9314K38 718L688426 6M586 19N697325O 2 2 7P485 17Q2 9314R37 414S48 416 8T484420u(sh)48 719v(zh)49 720 9W36 9x2 9314y552315z49 417合計拼音數(shù)407漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用面向數(shù)字鍵盤的三拼輸入法分類方法第一級分類：按照手機鍵盤定義對拼音的第一個字母（聲母）進行分類，雙聲母ch、sh、zh分別用i、u、v表示，零聲母用首字符表示，使用了8個數(shù)字鍵(2-9) 。第二級分類：按首字母分類后的每一大類中，對每個首字

36、母相同的拼音，再按照單字符韻母、多字符韻母以及帶介母（i、u）的韻母分類，分別用？、*、和介母加*（i*、u*）表示，最多對應(yīng)12個子類。第三級分類：每一類對應(yīng)一個特定的拼音，對應(yīng)每一個二級子類，最多有9個小類即9個拼音。漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用面向數(shù)字鍵盤的三拼輸入法漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用面向數(shù)字鍵盤的三拼輸入法輸入方法第一鍵：根據(jù)手機鍵盤布局輸入一級分類號，即按對應(yīng)的數(shù)字鍵，此時二級分類被提示出來；第二鍵：根據(jù)提示從鍵盤輸入對應(yīng)二級分類的鍵，此時，最終的拼音被提示出來；輸入對應(yīng)某拼音的鍵，則完整的拼音被確認(rèn)，完成一個拼音的輸入過程。漢語語言模型研究與其在

37、音字轉(zhuǎn)換中應(yīng)用面向數(shù)字鍵盤的三拼輸入法例1：輸入漢字“龍”，其拼音為“l(fā)ong” jkl l* 龍 abcdef j?ji*ju* laiLanlangghijklmnok?k*ku*laoLeilengpqrstuvwxyzl?l*li*longLou lu* 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用面向數(shù)字鍵盤的三拼輸入法例2：輸入漢字“江”，對應(yīng)拼音“jiang”。 jkl ji* 將 abcdef j?ji*ju* jiajianjiangghijklmnok?k*ku*jiaojiejinpqrstuvwxyzl?l*li*jingjiongjiu lu* 漢語語言模型研究與其在音字轉(zhuǎn)換

38、中應(yīng)用面向數(shù)字鍵盤的三拼輸入法三拼輸入法的評價平均碼長：三個鍵輸入一個拼音，與標(biāo)準(zhǔn)拼音的平均碼長基本相當(dāng)（由于碼長相等，可進一步減少輸入信息）重碼字詞鍵選率：通過智能音字轉(zhuǎn)換彌補易學(xué)性：好完整性：完整與富士通公司“選音輸入法”比較：易學(xué)性好、但利用了更多字符鍵漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用適應(yīng)小內(nèi)存應(yīng)用的音字轉(zhuǎn)換系統(tǒng) 關(guān)鍵問題漢字編碼壓縮語言模型機器學(xué)習(xí)記憶機制漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用面向大字符集的漢字音聲碼方案漢字用二字節(jié)共16位二進制位表示。前9位（1-9）為音節(jié)編碼，稱為音節(jié)序列碼，最多表示512個音節(jié)序列碼；后7位為形碼位（10-16），對應(yīng)一個音節(jié)序列碼，最多可表示128個同音漢字。如果對應(yīng)某一個拼音的漢字超過128個，則用多個音節(jié)序列碼表示一個音。其

人人文庫> 全部分類> 教育資料 > 作文作品

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用

文檔簡介

溫馨提示

最新文檔

評論

漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔