




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用1 緒論本文研究的目的和意義計(jì)算語言學(xué)概述相關(guān)領(lǐng)域研究與發(fā)展綜述統(tǒng)計(jì)語言建模技術(shù)漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用基于統(tǒng)計(jì)的計(jì)算語言模型給定所有可能的句子,統(tǒng)計(jì)語言模型就是一個概率分布 :條件概率形式:N-gram模型:)( spniiindefhwpwwpsp11)|(),()(niiNiiwwwpsp111),|()(漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用統(tǒng)計(jì)語言模型的作用 信源信道模型 :I:語言文本;O:聲音信號、字符圖像信號、拼音輸入等。語言模型:)|()(maxarg)()|()(maxarg)|(maxarg
2、IOpIpOpIOpIpOIpIIII)(Ip漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用統(tǒng)計(jì)語言模型建模方法 極大似然方法語言建模貝葉斯方法)|(maxargMXPMM)|(maxargXMPMM)()()|(maxargXPMPMXPMM)()|(maxargMPMXPMM漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用統(tǒng)計(jì)語言模型的評價(jià)標(biāo)準(zhǔn) 熵(Entropy)交叉熵(Cross Entropy)復(fù)雜度(Perplexity) )(log1)(1limnnxpnLHxMTMTxPxPPPH)(log)();( );( 2)(MTPPHMTPP漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用參數(shù)學(xué)習(xí)和數(shù)據(jù)平滑參數(shù)學(xué)習(xí) 有
3、指導(dǎo)學(xué)習(xí)-基于完全數(shù)據(jù)的最大可能性估計(jì) 無指導(dǎo)學(xué)習(xí)(針對不完全數(shù)據(jù)的)具有隱含變量的參數(shù)訓(xùn)練過程EM算法數(shù)據(jù)平滑-Good-Turing估計(jì) 、回退平滑和線性插值技術(shù);變長N-gram模型、網(wǎng)格方法、壓縮模型 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用當(dāng)前主要語言模型N-gram模型決策樹模型指數(shù)模型(最大熵模型)整句模型文法模型概率上下文無關(guān)文法鏈文法概率依存文法自適應(yīng)模型漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用統(tǒng)計(jì)語言模型存在的不足之處 最成功的統(tǒng)計(jì)語言建模技術(shù)很少使用真實(shí)的語言知識 跨領(lǐng)域的適應(yīng)能力差 不能有效處理長距離語言約束:為保證可行性,所有現(xiàn)有的語言模型都在文本的不同部分之間作了獨(dú)立假設(shè)。
4、漢語語言模型的獨(dú)特問題 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用本文的目標(biāo) 針 對 漢 語統(tǒng) 計(jì) 模 型的 參 數(shù) 訓(xùn)練 問 題 進(jìn)行 研 究 應(yīng) 用 于 手 機(jī)類 信 息 設(shè) 備 的 智 能 拼 音 漢 字 輸 入 改 進(jìn) 音 字 轉(zhuǎn) 換 引 入 語 言知 識 , 提 高統(tǒng) 計(jì) 模 型的 描 述 能力 研 究 漢 語模 型 的 自適 應(yīng) 和 機(jī)器 學(xué) 習(xí) 方法 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用本文主要工作漢語統(tǒng)計(jì)語言模型參數(shù)訓(xùn)練的優(yōu)化 基于語言元素的漢語統(tǒng)計(jì)模型 漢語語言模型的自適應(yīng)方法 面向手機(jī)類設(shè)備的智能拼音漢字輸入方法 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用2 漢語統(tǒng)計(jì)語言模型參數(shù)訓(xùn)練的
5、優(yōu)化 iwiNiiNiiNiiwwcwwcwwwp)()()|(1111 語料 庫 分詞 語料 參數(shù) 估計(jì) 語言 模型 分詞 系統(tǒng) 詞表 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用問題的分析漢語統(tǒng)計(jì)模型的準(zhǔn)確構(gòu)建和優(yōu)化涉及到以下幾個問題 :詞表的確定(生詞識別)分詞 參數(shù)估計(jì) 三者存在因果關(guān)系詞表分詞 分詞參數(shù)估計(jì)(模型) 參數(shù)估計(jì)(模型)詞表優(yōu)化漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用分詞-生詞識別-參數(shù)估計(jì)迭代算法的提出非迭代過程的缺點(diǎn):幾個過程不能相互作用,相互促進(jìn)迭代過程的優(yōu)點(diǎn):對分詞的影響:更好地解決分詞歧義問題,提高分詞精度對生詞識別的影響:減少不合理的候選生詞 排除偽生詞,生詞自動消歧,減
6、少后處理過程對模型的影響:逐步優(yōu)化詞表、提高參數(shù)估計(jì)精度、提高音字轉(zhuǎn)換正確率漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用基于N-gram信息的生詞獲取 基本思想:N元對詞頻過濾互信息過濾校正生詞獲取詞頻互信息(Mutual Information)詞頻與互信息的關(guān)系候選生詞的校正)()(),(log);(212121wpwpwwpwwI漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用基于N-gram信息的生詞獲取結(jié)果分析MI因素:準(zhǔn)確率隨著互信息值的升高而升高,但抽取出的元組的數(shù)量也隨之減少 ;WF因素:準(zhǔn)確率隨著詞頻值的升高而降低,抽取出的元組數(shù)量也隨之減少。影響結(jié)果的其他因素分詞錯誤:“不容易”、“和服務(wù)”量
7、詞:“個百分點(diǎn)”、“集電視連續(xù)劇”、“屆世乒賽”姓氏:“新華社記者劉”、“新華社記者王” 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用基于統(tǒng)計(jì)和規(guī)則方法的中文人名識別 問題的提出主要方法規(guī)則方法:準(zhǔn)確;規(guī)則庫沖突、復(fù)雜、龐大統(tǒng)計(jì)方法:資源少、效率高;準(zhǔn)確率低 混合方法:取長補(bǔ)短本文方法:先規(guī)則,后統(tǒng)計(jì);充分利用各種資源;采用分詞預(yù)處理漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用基于統(tǒng)計(jì)和規(guī)則方法的中文人名識別中文姓名用字特點(diǎn)(82年人口普查結(jié)果)729個姓氏用字姓氏分布很不均勻,但相對集中 有些姓氏可用作單字詞 名字用字分布較姓氏要平緩、分散 名字用字涉及范圍廣 某些漢字既可用作姓氏,又可用作名字用字漢語語言
8、模型研究與其在音字轉(zhuǎn)換中應(yīng)用人名識別系統(tǒng)知識庫姓氏用字頻率庫和名字用字頻率庫:653個單姓氏,15個復(fù)姓,1894個名字用字 的總出現(xiàn)次數(shù)用作姓氏的次數(shù)作為姓氏cccp)(的總出現(xiàn)次數(shù)用作名字用字的次數(shù)作為名字用字cccp)(漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用人名識別系統(tǒng)知識庫名字常用詞表 朝陽 勁松 愛國 建國 立新 黎明 宏偉 朝暉 向陽 海燕 愛民 鳳山 雪松 新民 劍峰 建軍 紅旗 光明漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用人名識別系統(tǒng)知識庫稱謂庫三種類型 只能用于姓名之前,如:戰(zhàn)士、歌星、演員等; 只能用于姓名之后,如:閣下、之流等; 姓名前后皆可,如:先生、主席、市長等。 稱謂前綴
9、表:“副”、“總”、“代”、“代理”、“助理”、“常務(wù)”、“名譽(yù)”、“榮譽(yù)”等 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用人名識別系統(tǒng)知識庫簡單上下文指界詞表:約110個詞動詞:說、是、指出、認(rèn)為、表示、參加等; 介詞:在、之、的、被 、以等; 正在、今天、本人、先后等。 標(biāo)點(diǎn)符號集人名出現(xiàn)在句首或句尾(包括分句)的機(jī)會比較大,標(biāo)點(diǎn)符號可用來幫助判斷人名的邊界。 頓號一邊是人名時,另一邊的候選人名的可靠性高。 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用人名識別系統(tǒng)知識庫非名字用詞表:有些雙字詞,如:時間、獎勵、緯度等不作名字用詞,但因?yàn)榻M成它們的單字可作為名字用字,如果跟在姓氏后面,往往會將其與可作姓氏的
10、字一起誤判為姓名。例:“做這件事花了我們一段時間?!?漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用中文人名識別過程 待處理文本 潛在姓名表 切分預(yù)處理 校正 識別結(jié)果 系統(tǒng)資源表知識庫 中文人名識別 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用人名識別的具體實(shí)現(xiàn) 姓氏判別名字識別概率判斷候選字符串為人名的概率為: P = 姓氏部分為姓氏的概率P1 * 余下部分的漢字作名字用字的概率P2*P3(單名時,為P2) 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用校正(對潛在人名的后處理)自動校正:如果兩個潛在人名相似,考察它們的權(quán)值。一高一低時,將低權(quán)的潛在人名清除;都為高權(quán)時,兩者都認(rèn)為是人名;都是低權(quán)時,則各自通過第三個
11、字作名字用字的概率大小來判斷。概率夠高,識別為人名。否則將第三個字去掉。 人工校正漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用人名識別結(jié)果與分析 實(shí)驗(yàn)結(jié)果:8個測試樣本,共22000多字,共有中文人名270個。系統(tǒng)共識別出中文人名330個,其中267個為真正人名。 召回率=267/270*100% =98.89% 準(zhǔn)確率=267/330*100% =80.91% 準(zhǔn)確率和召回率是互相制約的,可通過概率閾值的調(diào)整來調(diào)節(jié)二者的關(guān)系。 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用人名識別結(jié)果與分析產(chǎn)生錯誤的主要原因被未識別的地名干擾?!昂庇⑸娇h詹家河鄉(xiāng)陶家河村, ”受非中式人名的干擾。“司馬義艾買提 ”分詞結(jié)果不
12、理想?!盀橛酉愀刍貧w送賀禮” 規(guī)則不準(zhǔn)確?!澳纤未笤娙藯钊f里“驚如漢殿三千女, ”其他?!叭澜缑磕暧捌a(chǎn)量高達(dá)兩三千部, ”漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用漢語N-gram模型參數(shù)訓(xùn)練的迭代算法 語料 庫 分詞 語料 參數(shù) 估計(jì) 語言 模型 新詞 識別 詞典 優(yōu)化 分詞 初始 詞典 新詞 表 優(yōu)化 詞典 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用漢語N-gram模型構(gòu)建的迭代算法 算法描述1. 利用初始詞典0V對未分詞語料庫進(jìn)行首次分詞處理,構(gòu)造初始語言模型0P。 2. 利用詞典iV和語言模型iP對語料庫重新分詞。 3. 在分詞語料基礎(chǔ)上進(jìn)行新詞識別。 4. 對詞典進(jìn)行優(yōu)化,生成優(yōu)化詞典1i
13、V。 5. 針對優(yōu)化詞典進(jìn)行參數(shù)估計(jì),獲得優(yōu)化語言模型1iP。 6. 反復(fù)執(zhí)行 2-5 的過程,直到分詞結(jié)果無明顯變化或執(zhí)行完某一限定的迭代次數(shù)。 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用實(shí)驗(yàn)結(jié)果和分析 本文針對 Bi-gram 模型進(jìn)行了實(shí)驗(yàn), 初始詞典規(guī)模為 24686, 實(shí)驗(yàn)文本為 2000 萬字的人民日報(bào)語料。 實(shí)驗(yàn)表明,大部分的新詞在第一次迭代過程中即已識別出來,后面的迭代過程只進(jìn)行較小的調(diào)整并很快趨于收斂。經(jīng)過三次迭代過程,共接受新詞 911 個,其中中文人名 359 個。 分別采用 FMM 方法、不帶新詞識別的優(yōu)化語言模型和帶新詞識別的優(yōu)化語言模型進(jìn)行分詞實(shí)驗(yàn),通過對測試語料的抽樣檢
14、查,分詞準(zhǔn)確率分別達(dá)到 96.4%、97.3%和 97.9%。 針對拼音漢字轉(zhuǎn)換問題對優(yōu)化模型進(jìn)行了測試,音字轉(zhuǎn)換錯誤率降低了 3.4 個百分點(diǎn)。 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用3基于語言元素的漢語統(tǒng)計(jì)模型 已有實(shí)驗(yàn)結(jié)論:基于詞的語言模型性能要明顯優(yōu)于同階的基于字的模型,高階模型優(yōu)于低階模型提高語言模型描述能力的途徑:提高模型階數(shù)擴(kuò)展語言單位目標(biāo):在保持模型階數(shù)不變的條件下,有效提高模型的描述能力漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用當(dāng)前主要處理方法此方向的探索:基于短語和基于分詞模式的語言模型 目前短語選取和概率計(jì)算方法存在缺陷: 短語的選取標(biāo)準(zhǔn)只考慮了降低模型復(fù)雜度的因素,并沒有考慮短
15、語構(gòu)成的內(nèi)在語言規(guī)律 短語集的規(guī)模通常十分巨大,導(dǎo)致模型空間增長,同時相對減少了訓(xùn)練數(shù)據(jù)量訓(xùn)練數(shù)據(jù)的重新分割使得短語成為不可分割的語言單位,將導(dǎo)致構(gòu)成短語的單個詞的概率估計(jì)不準(zhǔn)確漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用當(dāng)前主要處理方法規(guī)則統(tǒng)計(jì)相結(jié)合的模型 將模型的單位延伸至語言分析的結(jié)果,統(tǒng)稱為語言元素,元素間概率計(jì)算利用已有詞模型的參數(shù)近似估計(jì)(本課題組前人工作) 特點(diǎn):避免概率模型的大幅度增加,提高語言單位獲取的靈活性;能夠處理長距離語言關(guān)系和遞歸問題漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用本文方法:基于語言元素的漢語N-gram語言模型引入元素?cái)?shù)量約束根據(jù)語言規(guī)則層次特點(diǎn)對概率值進(jìn)行加權(quán)利用規(guī)則
16、可信度、詞可信度加權(quán)特點(diǎn):保持原有特點(diǎn);進(jìn)一步提高模型精度;多種語言約束為機(jī)器學(xué)習(xí)提供靈活機(jī)制漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用基于語言元素的漢語N-gram語言模型niiNiineeepeeepsp11121)|()()(niiieepepsp211)|()()()|()|()()|(1, 11 ,21,1 ,1iitiitjjijiiiiwwpwwpwpeep當(dāng)N=2時 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用權(quán)值向量定 義ji ,為 權(quán) 值 向 量 : 0,0為 度 量 元 素 數(shù) 量 因 素 的 權(quán) 值 ,當(dāng)n0,0時 表 示 語 言 元 素越 少 , 漢 字 串 的 可 信 度 越 高
17、 , 當(dāng)n0,0時 表 示 元 素 數(shù) 量 因 素 不 起作 用 ; )1(0,ii為 第i個 元 素 的 可 信 度 權(quán) 值 ; )1,1(,jiji為 第i個 元 素 的 第j個 構(gòu) 成 詞 的 可 信 度 權(quán) 值 ,當(dāng) 概 率 模 型 初 步 建 立 時 ,1,ji。 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用基于語言元素的漢語N-gram語言模型基于元素的Bi-gram模型 niiiiiieeperepernsp210 ,1110 , 10 , 0)|()(/()()(/()/()()|()|()()|(1, 11 ,1 ,21,1 ,1 ,1iitiiitjjijijiiiiiwwpwwp
18、wpeep考慮到概率歸一化 niiiiiieeperepernsp210 ,1110 , 10 , 0)|()(/()()(/()/(1)(ssp)(漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用詞類及其組織方法詞類按語法體系劃分按語義分類混合方式詞類的組織:類似語義網(wǎng)知識表達(dá)結(jié)構(gòu)-用很小的時間代價(jià)節(jié)省大量的存儲空間漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用規(guī)則的表示產(chǎn)生式系統(tǒng)詞法規(guī)則 | | | 短語規(guī)則 | |句法規(guī)則 | S S漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用規(guī)則的組織統(tǒng)一表達(dá)形式按索引分類 索引選擇標(biāo)準(zhǔn):含詞數(shù)最少的詞類(概率最小的詞類)例: S S 以、作為分類索引更合理BAAAt21BAAAA
19、tm21:漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用低層推理優(yōu)先原則 如果存在規(guī)則: “X + Y + Z Y” 和 “W ISA Y”, 則首先匹配規(guī)則“X + W + Z W” (“X”和“Z”可以為空) 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用元素的語言學(xué)分析基于最少元素的狀態(tài)空間化簡方法 對 狀 態(tài) 空 間 的 生 成 過 程 進(jìn) 行 分 解 : 1. 詞 元 素 篩 選 此 步 驟 實(shí) 際 上 是 對 音 節(jié) 流 進(jìn) 行 分 詞 的 過 程 , 詞 的 產(chǎn) 生 分 兩 個 過 程 : 首 先 根 據(jù) 輸 入 音 節(jié)串 匹 配 詞 典 中 所 有 可 能 的 詞 ,再 按 構(gòu) 詞 規(guī) 則 生 成
20、 新 詞 。以 上 所 有 詞 作 為 分 詞 算 法 的 候 選 。針 對 所 有 可 能 的 分 詞 結(jié) 果 按 最 少 詞 元 素 啟 發(fā) 式 策 略 選 出 若 干 最 優(yōu) 或 同 時 包 含 次 優(yōu) 的 結(jié)果 , 構(gòu) 成 最 有 可 能 通 向 最 優(yōu) 解 的 狀 態(tài) 空 間 予 以 保 留 , 作 為 本 處 理 步 驟 的 輸 出 。 2. 短 語 級 元 素 篩 選 對 單 詞 處 理 的 輸 出 狀 態(tài) 按 知 識 庫 中 短 語 規(guī) 則 進(jìn) 行 條 件 匹 配 生 成 短 語 。 對 所 有 的 匹 配 結(jié)果 再 按 最 少 元 素 啟 發(fā) 式 策 略 篩 選 一 次 。
21、選 擇 最 有 可 能 通 向 最 佳 解 的 狀 態(tài) 作 為 本 處 理 部 分的 輸 出 。 3. 語 句 級 元 素 篩 選 對 短 語 處 理 部 分 的 輸 出 狀 態(tài) 根 據(jù) 句 法 規(guī) 則 進(jìn) 行 語 句 級 的 規(guī) 則 匹 配 。 匹 配 結(jié) 果 仍 然 可 能存 在 不 完 整 的 分 析 樹 , 此 時 仍 可 按 最 少 元 素 啟 發(fā) 式 策 略 對 元 素 進(jìn) 行 篩 選 。 若 仍 存 在 多 義性 , 則 將 結(jié) 果 送 下 一 步 概 率 處 理 模 塊 。 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用元素的語言學(xué)分析基于最少元素的狀態(tài)空間化簡算法1. BEGIN; 2
22、. 根據(jù)拼音輸入構(gòu)建詞網(wǎng)格; 3. 按最少分詞法啟發(fā)式策略化簡詞網(wǎng)格空間; 4. IF 最佳路徑已求出 THEN GOTO 11; 5. 按短語規(guī)則生成新元素; 6. 按最少元素啟發(fā)式策略化簡元素網(wǎng)格空間; 7. IF 最佳路徑已求出 THEN GOTO 11; 8. 按句法規(guī)則生成新元素; 9. 按最少元素啟發(fā)式策略化簡元素網(wǎng)格空間; 10.IF 最佳路徑未求出 THEN GOTO 最佳路徑搜索模塊; 11.END.(找到最佳路徑) 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用音字轉(zhuǎn)換系統(tǒng)結(jié)構(gòu)圖 拼音流 文字流 詞網(wǎng)格生成 元素網(wǎng)格生成 系統(tǒng)詞典 語言 規(guī)則庫 統(tǒng) 計(jì) 庫 量化 規(guī)則庫 最優(yōu)路徑搜索
23、 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用實(shí)驗(yàn)結(jié)果詞典收錄26000個詞,采用二千萬漢字語料(選自95、96年人民日報(bào)電子版)作為實(shí)驗(yàn)文本,其中80%作為訓(xùn)練語料,其它20%作為測試語料。系統(tǒng)搜集了1000條語法、語義規(guī)則單純統(tǒng)計(jì)語言模型正確率為90.5%,加入語言規(guī)則后正確率提高到91.8%,加入最少元素約束后提高到92.3%能有效處理長距離語言約束和遞歸語言現(xiàn)象漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用4 漢語語言模型的自適應(yīng)方法 當(dāng)前主要自適應(yīng)語言模型有兩種:基于緩存(Cache)的自適應(yīng)模型主題自適應(yīng)模型缺點(diǎn):仍然較粗糙)|()1 ()|()|(hwPhwPhwPcachestaticadapt
24、iveTiiikmkkTMIXhwPwwwP1021)|()(TiiNiikmkkTMIXwwwPwwwP111021)|()(漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用面向用戶語言模型的提出語言模型的應(yīng)用如漢字鍵盤輸入是面向特定用戶的,不同用戶使用的文本類型和風(fēng)格無法準(zhǔn)確預(yù)測,因而也無法建立準(zhǔn)確的模型 特定用戶使用的文本具有時段特性,即在某一特定時段內(nèi),文本類型或風(fēng)格不變,但超過這一時段則可能變化漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用面向用戶的語言模型框架 拼音 語句 語言解碼 轉(zhuǎn)換 結(jié)果 用戶 修正 正確 結(jié)果 機(jī)器 學(xué)習(xí) 用戶 模型 通用 模型 人機(jī)交互 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用理論
25、依據(jù)音字轉(zhuǎn)換的目標(biāo)即為給定拼音輸入T的條件下,找到對應(yīng)的概率最大的漢字串)|(maxargTSpSS,根據(jù)貝葉斯定理, )()|()(maxargTpSTpSpSS 等價(jià)于: )|()(maxargSTpSpSS )(Sp為先驗(yàn)概率,通過大規(guī)模語料訓(xùn)練而得,)|(STp為后驗(yàn)概率, 與實(shí)際應(yīng)用中文本的出現(xiàn)有關(guān), 反映了通過機(jī)器學(xué)習(xí)獲得的新知識。 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用面向用戶語言模型結(jié)構(gòu)面向用戶語言模型=通用模型+用戶模型模型結(jié)合方式:插值方式:優(yōu)先選擇方式其他方式(適應(yīng)非概率模型))|()1 ()|()|(hwPhwPhwPuseruniversal漢語語言模型研究與其在音字轉(zhuǎn)
26、換中應(yīng)用面向用戶模型的優(yōu)點(diǎn) 邏輯上,整個模型仍然是一個整體; 通用和用戶模型采用不同數(shù)據(jù)結(jié)構(gòu)適應(yīng)不同的需要; 保證通用模型的穩(wěn)定性,增加用戶模型參數(shù)修改的自由度,便于達(dá)到良好的學(xué)習(xí)效果; 用戶模型按照LRU規(guī)則淘汰陳舊的數(shù)據(jù),符合記憶規(guī)律:記憶的事物增多,會沖淡原有事物的記憶,在一系列事物中,最后出現(xiàn)的若干個事物具有較好的記憶效果 有效限制了其規(guī)模的無限擴(kuò)張,同時保證其參數(shù)的修改不致對整個模型產(chǎn)生更大偏差漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用基于元素N-gram模型的機(jī)器學(xué)習(xí)漢語復(fù)雜性更高,語言模型中可變因素更多,因而機(jī)器學(xué)習(xí)方式更多增加了機(jī)器學(xué)習(xí)的難度為機(jī)器學(xué)習(xí)提供了更大的靈活性本文綜合運(yùn)用了
27、各種學(xué)習(xí)方式-適合于面向大規(guī)模訓(xùn)練語料的學(xué)習(xí)和在線自適應(yīng)學(xué)習(xí)漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用單詞的學(xué)習(xí)詞本身的特征基于構(gòu)詞規(guī)則的特征基于統(tǒng)計(jì)規(guī)律的特征 詞頻和互信息 統(tǒng)計(jì)構(gòu)詞能力)()()(cCountcCountcWFP的多字詞含wciWFPiwcWFPwcWFPwP)1(|C| ),()1(|C| ),(1)(是多字詞是單字詞漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用單詞的學(xué)習(xí)漢字構(gòu)詞模式 字對的親合力 )()()| )(位于多字詞cCountcpttnCountccpttnPrliiirpttnccpttrPwP1)|)()()|)(11iiBiircctcctP)|)(11iiNiirc
28、ctcctP漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用單詞的學(xué)習(xí)對系統(tǒng)的影響估價(jià)函數(shù) 1. 按詞典分詞使得自然語言的理解過程越容易越好,即符合最少元素規(guī)則,即按詞典分詞得到的詞條n數(shù)越少越好。 2. 詞典的冗余度越小越好,冗余度大小的判斷可用詞典的總體積v來表示,即v值越小越好,這樣可以減小系統(tǒng)開銷。 模型復(fù)雜度ncvcwf21漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用單詞的學(xué)習(xí)對應(yīng)用的影響基于錯誤修正的學(xué)習(xí) 同一語言模型應(yīng)用于不同領(lǐng)域,效果不同,其學(xué)習(xí)標(biāo)準(zhǔn)也不同。對某一特定應(yīng)用而言,生詞的正確識別通常能改善性能,如對音字轉(zhuǎn)換能提高轉(zhuǎn)換正確率,但生詞的識別并不總是必需的。單詞的學(xué)習(xí)可以是面向錯誤修正的。漢
29、語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用語言規(guī)則的學(xué)習(xí) 文法推導(dǎo):按照一個文法的評價(jià)函數(shù)從搜索空間中找出所需的文法。評價(jià)函數(shù):反映出一個文法對訓(xùn)練集數(shù)據(jù)的刻畫程度。極大似然性標(biāo)準(zhǔn)貝葉斯公式)|(GOPmaxargGG)|(OGPmaxargGG)()|()()()|(GPGOPargmaxOPGPGOPargmaxGGG漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用語言規(guī)則的學(xué)習(xí) 基于歸納推理的規(guī)則學(xué)習(xí) “我吃魚。 ” (魚,ISA,食物) (我,ISA,人稱代詞) 我|你|他 魚|蔬菜 S S 規(guī)則學(xué)習(xí) 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用參數(shù)修正學(xué)習(xí) 語言元素的數(shù)量。目標(biāo)漢字串所含的語言元素越少,其可信度
30、越高。語言元素的層次因素。語言元素所在的層次越低,其可信度越好。 記憶因素。記憶牢靠的元素可信度好,記憶不準(zhǔn)的元素可信度差。漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用參數(shù)修正學(xué)習(xí)學(xué)習(xí)方法在基于語言元素的模型公式中,將權(quán)值ji,看成是變量,則調(diào)節(jié)ji,的值就可以達(dá)到參數(shù)修正的目的。 如果ji,的值改變,目標(biāo)漢字串的可信度就隨之改變,找到正確的ji,的值,就可以增加目標(biāo)漢字串的可信度,從而提高音字轉(zhuǎn)換的正確率。 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用N元概率參數(shù)修正學(xué)習(xí) 學(xué)習(xí)算法1. 初始化:1, 1ji; 2. IF nj THEN GOTO 9; 3. 向前移動i,使得jiSubSub1,12jiSu
31、bSub; 4. IF jiww且11jiww THEN GOTO 8; 5. IF jiSubSub且22jiSubSubTHEN WHILE ),(),(),(),(),(),(1111iiiijjjjwwCwCwCVwwCwCwCV ;),(,)(,)(11jjjjwwCwCwCGOTO 8; 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用N元概率參數(shù)修正學(xué)習(xí)6. IF 21jiSubSub 且 )(),(1ijjwCwwC THEN 1),()(1jjiwwCwCvalue, valuewwCwwCjjjj),(),(11, valuewCwCjj)()(,valuewCwCjj)()(11;
32、GOTO 8; 7. IF ),(),(11iijjwwCwwC THEN 1),(),(11jjiiwwCwwCvalue, valuewwCwwCjjjj),(),(11, valuewCwCjj)()(,valuewCwCjj)()(11; 8. 1 jj, GOTO 1; 9. 結(jié)束。 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)一:選取了20篇不同領(lǐng)域的完整的文章(不包含在訓(xùn)練語料中)分別進(jìn)行測試。實(shí)驗(yàn)結(jié)果為:未采用機(jī)器學(xué)習(xí)時,音字轉(zhuǎn)換準(zhǔn)確率平均為90.5%,采用本文的機(jī)器學(xué)習(xí)時,準(zhǔn)確率平均為94.9%。實(shí)驗(yàn)二:通過在線拼音鍵盤輸入實(shí)驗(yàn),對機(jī)器學(xué)習(xí)前后的音字轉(zhuǎn)換結(jié)果進(jìn)行測試,經(jīng)過
33、短時記憶后,重新輸入的準(zhǔn)確率達(dá)到98%以上。 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)三:針對上百萬規(guī)模的混合類型文本進(jìn)行測試。整體進(jìn)行機(jī)器學(xué)習(xí)后,對學(xué)習(xí)前后的音字轉(zhuǎn)換準(zhǔn)確率進(jìn)行對比。實(shí)驗(yàn)結(jié)果表明,準(zhǔn)確率從91.3%提高到91.9%。這說明經(jīng)過長期的機(jī)器學(xué)習(xí)過程,學(xué)習(xí)結(jié)果對最初輸入的文本所起作用將減小或消失。 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用5 面向手機(jī)類設(shè)備的智能拼音漢字輸入方法 面向信息設(shè)備的漢字輸入面臨的問題: 面向小鍵盤的漢字編碼方案研究更困難信息設(shè)備的各方面性能較低,對應(yīng)用程序限制苛刻智能拼音漢字輸入解決方案面向數(shù)字鍵盤的三拼輸入法適于小內(nèi)存應(yīng)用的拼音漢字智能轉(zhuǎn)換系統(tǒng)漢語
34、語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用面向數(shù)字鍵盤的三拼輸入法逐級分類思想 C0 C11 C12 PY1 PY2 PY3 PY4 C1m PYn 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用面向數(shù)字鍵盤的三拼輸入法逐級分類思想 假設(shè)數(shù)字鍵盤中的12個字符鍵都可用來輸入拼音,最后確定407個常用拼音,考慮通過3級分類來實(shí)現(xiàn)分類規(guī)則應(yīng)該盡量簡單、直觀、容易被用戶接受 每級的分類數(shù)必須小于12 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用 面向數(shù)字鍵盤的三拼輸入法數(shù)字鍵拼音首字母單字符韻母多字符韻母i起始韻母u起始韻母拼音數(shù) 2 A 5 5B475 16C48 416 3D486422E 4 4F36 9 4G39 71
35、9H39 719i(ch)48 618 5 J2 9314K38 718L688426 6M586 19N697325O 2 2 7P485 17Q2 9314R37 414S48 416 8T484420u(sh)48 719v(zh)49 720 9W36 9x2 9314y552315z49 417合計(jì)拼音數(shù)407漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用面向數(shù)字鍵盤的三拼輸入法分類方法第一級分類:按照手機(jī)鍵盤定義對拼音的第一個字母(聲母)進(jìn)行分類,雙聲母ch、sh、zh分別用i、u、v表示,零聲母用首字符表示,使用了8個數(shù)字鍵(2-9) 。 第二級分類:按首字母分類后的每一大類中,對每個首字
36、母相同的拼音,再按照單字符韻母、多字符韻母以及帶介母(i、u)的韻母分類,分別用?、*、和介母加*(i*、u*)表示,最多對應(yīng)12個子類。 第三級分類:每一類對應(yīng)一個特定的拼音,對應(yīng)每一個二級子類,最多有9個小類即9個拼音。 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用面向數(shù)字鍵盤的三拼輸入法漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用面向數(shù)字鍵盤的三拼輸入法輸入方法第一鍵:根據(jù)手機(jī)鍵盤布局輸入一級分類號,即按對應(yīng)的數(shù)字鍵,此時二級分類被提示出來; 第二鍵:根據(jù)提示從鍵盤輸入對應(yīng)二級分類的鍵,此時,最終的拼音被提示出來; 輸入對應(yīng)某拼音的鍵,則完整的拼音被確認(rèn),完成一個拼音的輸入過程。 漢語語言模型研究與其在
37、音字轉(zhuǎn)換中應(yīng)用面向數(shù)字鍵盤的三拼輸入法例1:輸入漢字“龍”,其拼音為“l(fā)ong” jkl l* 龍 abcdef j?ji*ju* laiLanlangghijklmnok?k*ku*laoLeilengpqrstuvwxyzl?l*li*longLou lu* 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用面向數(shù)字鍵盤的三拼輸入法例2:輸入漢字“江”,對應(yīng)拼音“jiang”。 jkl ji* 將 abcdef j?ji*ju* jiajianjiangghijklmnok?k*ku*jiaojiejinpqrstuvwxyzl?l*li*jingjiongjiu lu* 漢語語言模型研究與其在音字轉(zhuǎn)換
38、中應(yīng)用面向數(shù)字鍵盤的三拼輸入法三拼輸入法的評價(jià) 平均碼長:三個鍵輸入一個拼音,與標(biāo)準(zhǔn)拼音的平均碼長基本相當(dāng)(由于碼長相等,可進(jìn)一步減少輸入信息)重碼字詞鍵選率:通過智能音字轉(zhuǎn)換彌補(bǔ)易學(xué)性:好完整性:完整與富士通公司“選音輸入法”比較:易學(xué)性好、但利用了更多字符鍵 漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用適應(yīng)小內(nèi)存應(yīng)用的音字轉(zhuǎn)換系統(tǒng) 關(guān)鍵問題漢字編碼壓縮語言模型機(jī)器學(xué)習(xí)記憶機(jī)制漢語語言模型研究與其在音字轉(zhuǎn)換中應(yīng)用面向大字符集的漢字音聲碼方案 漢字用二字節(jié)共16位二進(jìn)制位表示。前9位(1-9)為音節(jié)編碼,稱為音節(jié)序列碼,最多表示512個音節(jié)序列碼;后7位為形碼位(10-16),對應(yīng)一個音節(jié)序列碼,最多可表示128個同音漢字。如果對應(yīng)某一個拼音的漢字超過128個,則用多個音節(jié)序列碼表示一個音。其
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 入駐農(nóng)莊合同范例
- 農(nóng)田服務(wù)采購合同范本
- 第15課 隨光奏樂-光敏傳感器和自定義模塊的應(yīng)用 教學(xué)設(shè)計(jì)-2023--2024學(xué)年清華大學(xué)版(2012)初中信息技術(shù)九年級下冊
- 2025年汽車液力變矩器項(xiàng)目申請報(bào)告
- 2025年無機(jī)非金屬材料項(xiàng)目規(guī)劃申請報(bào)告模范
- 2025年高純低羥基石英玻璃項(xiàng)目提案報(bào)告模范
- 2025年酒店成套家具項(xiàng)目規(guī)劃申請報(bào)告
- 2025年高速內(nèi)圓磨床項(xiàng)目申請報(bào)告模范
- 回流焊設(shè)備調(diào)研報(bào)告范文
- 2025年智能卡制作發(fā)行機(jī)項(xiàng)目提案報(bào)告模范
- 成人手術(shù)后疼痛評估與護(hù)理團(tuán)體標(biāo)準(zhǔn)
- 2025年中考數(shù)學(xué)二輪專題復(fù)習(xí) 題型四-二次函數(shù)圖象與性質(zhì)綜合題
- 春節(jié)申遺成功的意義
- 上海市黃浦區(qū)2022-2023學(xué)年九年級上學(xué)期期末化學(xué)試卷(一模)
- 子女放棄繼承房產(chǎn)協(xié)議書
- 施工方案與技術(shù)措施合理性、科學(xué)性與可行性
- 小學(xué)體育課件《立定跳遠(yuǎn)課件》課件
- 《生物經(jīng)濟(jì)學(xué)》課程教學(xué)大綱
- 2018中國技能?賽全國選拔賽“3D數(shù)字游戲藝術(shù)”項(xiàng)?技能樣題
- 家庭清潔課件教學(xué)課件
- 2024-2025學(xué)年北師版八年級生物上學(xué)期 第18章 生物圈中的微生物(知識清單)
評論
0/150
提交評論