




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
戴新宇20172023/1/91語言模型LanguageModel計算一句話的概率2023/1/92LanguageModel機器翻譯小朋友們在公園里玩。Thekidsplayinthepark.√Thekidsparkplay.Onparkplaythekids.2023/1/93語言模型翻譯模型LanguageModel語音識別e.g.聽歌曲,識別歌詞2023/1/94語言模型聲學(xué)模型5StatisticalLanguageModel定義:語言模型是用來刻畫一個句子(詞串序列)存在可能性的概率模型P(W)=P(w1w2…wn)如何計算P(W),不同的語言模型有不同的算法例子:P(“我在打電話”)≈0.001P(“我在打蘋果”)≈0.000001P(“蘋果在我打”)≈0.000000001P(電話|我,在,打)≈0.056最簡單的統(tǒng)計語言模型-N-GramP(W)=P(w1w2…wn)=P(w1)*P(w2|w1)*P(w3|w1w2)…P(wn|w1w2…wn-1)History-basedModel:predictfollowingthingsfrompastthingsShannonGame:ImpracticaltoconditiononeverythingbeforeP(???|Turntopage134andlookatthepictureofthe)?7馬爾可夫假設(shè)(MarkovAssumption)有限視野假設(shè)(LimitedHorizon)當(dāng)前詞出現(xiàn)的概率只和它前面的k個詞相關(guān)上式我們稱之為k階馬爾可夫鏈e.g.1階馬爾可夫鏈
2階馬爾可夫鏈8N-GramN-1階馬爾可夫鏈我們稱之為N元語言模型(N-GramLanguageModel)2元模型3元模型Eachwordispredictedaccordingtoaconditionaldistributionbasedonalimitedcontext9N-Gram簡單的線性圖模型詞是隨機變量,箭頭表示詞之間的依存關(guān)系SimplemodelAmazingsuccess.10N-Gram模型參數(shù)參數(shù)數(shù)量:n越大,參數(shù)越多,假設(shè)詞匯量為200002元模型(1階Markov)參數(shù)數(shù)量:2000023元模型(2階Markov)參數(shù)數(shù)量:200003…N元模型(N-1階Markov)參數(shù)數(shù)量:20000n11N-Gram參數(shù)估計計算每一組的P(w|h)(2元為例)P(我想吃意大利空心粉)=P(我|<s>)*P(想|我)*P(吃|想)*P(意大利|吃)*P(空心粉|意大利)=0.25*0.32*0.26*0.002*0.6=0.000016參數(shù)來源(訓(xùn)練數(shù)據(jù)):大量電子文本(漢語需分詞)訓(xùn)練數(shù)據(jù):用于建立模型的給定語料參數(shù)估計:相對頻率(最大似然)估計12最大似然估計
-MaximumLikelihoodEstimationAsimplebutimportantidea:Choosethealternativethatmaximizetheprobabilityoftheobservedoutcome.(對訓(xùn)練數(shù)據(jù)的最佳估計)假設(shè):樣本空間越大,最大似然估計值越接近于真實分布統(tǒng)計學(xué)上稱之為似然函數(shù),之所以稱為最大似然估計,是因為它選擇的參數(shù)值對于訓(xùn)練數(shù)據(jù)給出了最高的概率。Pleasereferto問題:相對頻率≈最大似然估計?131415ZipfLawZipfLaw:如果以詞頻排序,詞頻和排位的乘積是一個常數(shù)。
f*r=k16Zipf’slawfortheBrowncorpus17ZipflawforChineseCorpus18ZipfLaw(續(xù))Zipf法則隱含的意義:大部分的詞都稀有語言中頻繁出現(xiàn)的事件是有限的,不可能搜集到足夠的數(shù)據(jù)來得到稀有事件的完整概率分布。詞(一元)如此,對于二元、三元模型更加嚴重Zeroprobability,零概率還會向下傳播一個2元或者3元文法的零概率,會導(dǎo)致整個句子的零概率However,統(tǒng)計方法的一個特點是:Nothingisimpossible.So,數(shù)據(jù)稀疏問題永遠存在19數(shù)據(jù)稀疏(零概率)數(shù)據(jù)稀疏問題:沒有足夠的訓(xùn)練數(shù)據(jù),對于未觀測到的數(shù)據(jù),出現(xiàn)零概率現(xiàn)象Balh等人的工作用150萬詞的訓(xùn)練語料訓(xùn)練trigram模型測試語料(同樣來源)中,23%的trigram沒有在訓(xùn)練庫中出現(xiàn)過對這23%未出現(xiàn)的trigram,利用MLE估計出的參數(shù)為0解決方案構(gòu)造等價類參數(shù)平滑20參數(shù)平滑-Smoothing平滑是指給沒觀察到的N元組合賦予一個概率值,以保證詞序列總能通過語言模型得到一個概率值。思想:稍微減少已觀察到的事件概率的大小,同時把少量概率分配到?jīng)]有看到過的事件上,折扣法,使整個事件空間的概率分布曲線更加平滑。改進模型的整體效果。高概率調(diào)低點,小概率或者零概率調(diào)高點?!敖俑粷殹奔s束:Anyway,ensure∑X∈?P(X)=1平滑算法的評估-通過語言模型評估Smoothing2122SmoothingAddcounts,簡單,效果不好Laplacesmoothing/DirichletPrior簡單線性插值平滑KatzSmoothing,Kneser-NeySmoothing……23Add-OneSmoothing24統(tǒng)計語言模型數(shù)據(jù)集分類訓(xùn)練集TrainingData用來建立模型,獲得模型參數(shù)測試集TestData從訓(xùn)練集以外獨立采樣反映系統(tǒng)面對真實世界的處理能力交叉確認集Cross-ValidationData從訓(xùn)練集和測試集以外獨立采樣主要用來幫助做設(shè)計決策和參數(shù)設(shè)定(hyperparameters)Cross-ValidationSet又稱為held-outdata、developmentdata幫助選擇參數(shù),優(yōu)化模型的泛化能力25TrainingDataTestDataTrainingDataTestDataHold-OutData26模型評價兩個語言模型S1和S2(或者是經(jīng)過兩種不同的平滑方法得到的兩個模型S1和S2),哪個更好?直接放入需要語言模型的任務(wù)中,如SMT,SR,看哪個效果更好?困惑度(Perplexity):對測試集存在的概率Perplexityistheprobabilityofthetestdata,normalizedbythenumberofwords:模型評價熵(entropy):loglikelihoodperwordintestdata。X是測試集,x是測試集中的每個句子熵與困惑度的關(guān)系2023/1/927Data>>MethodsHavingmoredataisbetter......butsoisusingabetterestimatorAnotherissue:N>3hashugecostsinspeechrecognizers2023/1/92829N-Grammodel在很多方面取得了成功(Chelba1998,Charniak2001)SpeechRecognitionOCRContext-sensitivespellingcorrection從語言具有的特性看,顯得過于簡單和幼稚LexicalNolongdistancedependenciesNostructureorsyntacticdependency其它的語言模型
(不同的計算P(W)的方法)2023/1/930LanguageModel31Theproblemtobesolved: Giveasentence,howlikelyisthesentence?Inmathematicalterms,andwecanfactorizethejointprobabilitybasedonconditionalprobability:Oneexample:FromN-gramtoNeuralLanguageModel32k-thorderMarkovassumption:Non-parametricEstimator,forexample,bigram:ParametricEstimator:Inotherwords:Advantagesanddisadvantages:1,Simpleandstrong2,Datasparsity3,Lackofgeneralizationuseafunctiontocalculatetheprobabilityofthei-thwordAdvantagesanddisadvantages:1,Highcomplexitybutisthestateofart2,AutofeatureextractionandgeneralizationpowerFirstPropose33Thisistheclassicneurallanguagemodel,proposedbyBengioetal(2003).EmbeddingLayer:generateswordem-beddings(by-product).IntermediateLayer:oneormorelayersthatproduceanintermediaterepresen-tationoftheinput(non-linearity).SoftmaxLayer:producesaprobabilitydistributionoverwordsin
vocabulary.Word2vec34Thisworkletwordembeddingbecomepopular,proposedbyMikolov(2013).Mathematicalterms(cbow&skip-gram):構(gòu)建語言模型SomeavailabletoolkitsCMUlanguagemodeltoolkitSRILanguagemodeltoolkitLemurlanguagemodeltoolkitNeuralNe
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 勞務(wù)合同范本林業(yè)
- 傳單派發(fā)合同范本
- 鄉(xiāng)鎮(zhèn)物業(yè)收費合同范本
- 勞務(wù)公司租車合同范本
- 公會主播合同范本
- 勞務(wù)購買合同范例
- 公司經(jīng)營模式合同范本
- 出售買賣合同范本
- 勞動合同轉(zhuǎn)簽合同范本
- 2025國合通測校園招聘筆試參考題庫附帶答案詳解
- 2024年湖南省公務(wù)員錄用考試《行測》真題及答案解析
- 人教版小學(xué)六年級下冊音樂教案全冊
- 12J201平屋面建筑構(gòu)造圖集(完整版)
- 2024年個人信用報告(個人簡版)樣本(帶水印-可編輯)
- 16J914-1 公用建筑衛(wèi)生間
- 20CS03-1一體化預(yù)制泵站選用與安裝一
- (完整版)四年級上冊數(shù)學(xué)豎式計算題100題直接打印版
- 計數(shù)的基本原理說課
- 機器視覺論文(英文)
- 初中花城版八年級下冊音樂6.軍港之夜(15張)ppt課件
- 《供應(yīng)鏈管理》讀書筆記
評論
0/150
提交評論