小象-機器學(xué)習(xí)-8.最大熵模型

上傳人：洞*** IP屬地：北京上傳時間：2023-02-02 格式：DOCX 頁數(shù)：88 大?。?.48MB 積分：14 舉報 版權(quán)申訴

已閱讀5頁，還剩83頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

法本課件包括演示文稿、示例、代碼、題庫、和在課程范圍外向任何第散播。任何其他人或機構(gòu)不得盜版、、仿造其中的創(chuàng)意及內(nèi)容，我們課咨

鄒本次目理解聯(lián)合熵H(X,Y)、相對熵D(X||Y)、條件熵H(X|Y)、I(X,Y)的定義和含義，并了解如下公 H(X|Y)=H(X,Y)-H(Y)=H(X)- H(Y|X)=H(X,Y)-H(X)=H(Y)– I(X,Y)=H(X)-H(X|Y)=H(X)+H(Y)-H(X,Y)掌握最大熵模型 umEntropy了解最大熵在自然語言處理NLP中的應(yīng) NaturalLanguage umLikelihood

預(yù)備定NlnN!NlnN lnN!lni

lnN1xlnxN1N1N

xdlnNlnN

x1dx1NlnNx1NlnNNNlnN

普通的一個的某一次投擲，出現(xiàn)點5的等概率：各點的概率都是對于“一無所知”的，假定所有點數(shù)等概對給定的某個，經(jīng)過N次投擲后發(fā)現(xiàn)，

帶約束的優(yōu)化問令6個面朝上的概率為(p1,p2…p6)，用向量p表示

pln約束條

ipiLp!,, plnp

i求解

令

11i2

15.932,2

預(yù)測結(jié)

從小學(xué)數(shù)學(xué)開左邊比右邊右邊比左邊兩邊同樣

答一種可能的稱量方法如右圖所答案：2追問：為什么2次

1+2?>=1?

3?5 51 2 3 41234

理論下令x表幣的序號：令yi表示第i次使用天平得到1表示“左輕”，2表示“平衡”，3用天平稱n次，獲得的結(jié)果是：y1y2…y1y2…yn的所有可能組合數(shù)目是根據(jù)題意，要求通過y1y2yn確定x。即影射map(y1y2…yn)=x；從而：y1y2…yn的變化數(shù)目大于等于x的變化數(shù)則：3n≥5——一般意義上Yn

進一步分YnXnlogYlogXnloglog用y1y2…yn表達x。即設(shè)計編碼x：y1y2…log

log的“表達能力”是HYlog

log至少要多少個Y才能準確表示HXlog5H(Y log

題目的變能夠找

解

解釋Huffman編12345

解釋Huffman編1?3?12312345

附定義信息某事件發(fā)生的概率小，則該事件的信思考：事件X的信息量的期望如何計算

熵注：經(jīng)典熵的定義，底數(shù)是2，單位是本例中，為分析方便使用底數(shù)若底數(shù)是e，單位是nat(奈特

研究函數(shù)當(dāng)f’(x)=0時，x=1/e由于limfx定義

離散采

繪

對熵的理解0HXlog熵是隨量不確定性的度量，不確定性越大，熵值越大；若隨量成定值，熵該不確定性度量的本質(zhì)即為信息量的均勻分布是“最不確定”的分熵其實定義了一個函數(shù)(概率分布函數(shù))到一(函數(shù)數(shù)值泛函：“變分推導(dǎo)”章

兩點分布的

繼續(xù)思考：三點分布呢HXpxlnpxp1lnp1p2lnp21p1p2ln1p1p2

組合數(shù)的關(guān)

n1!n2!n3!!nk n!n!n!!n記W n!n!n!!n 求Hn,n,! 1lnW

公式推NlnN!NlnNH1N

1lnN!

lnni

1nlnnN NlnN

nilnni

ninkN k 1

lnN

nilnniNiNi

Ni1 k k

nlnN

niN

niln

NNi1 N

nilnnik k

pilnpii1

自封閉系統(tǒng)的運動總是倒向均勻分

思考：根據(jù)函數(shù)形式判斷概率分

2ln

x該分布的對數(shù)是關(guān)于根據(jù)計算過程的可逆性，若某對數(shù)分布能夠?qū)懗呻S量二次形式，則該分布必然是正態(tài)分

舉 px;,

x常系數(shù)

0lnpx;,ln1lnxxlnAxBlnx若某對數(shù)分布能夠?qū)懗呻S

t1et

Gamma函數(shù) Gamma分布的期望為：EX

若成定值，熵最小：為若隨機分布為均勻分布，熵最最大熵模

思考過argmaxHX

pxln

VarXEX2E2XEX2E2XVarX2

建立Lagrange函數(shù)，求駐

xpx

x2px2

Llnpx1xx2 0lnpxx2x P(x)的對數(shù)是關(guān)于隨

聯(lián)合熵和條件聯(lián)合熵JointEntropy，用H(X,Y)表示(X,Y)發(fā)生所包含的熵，減去Y單獨發(fā)生包含的該式子定義為Y發(fā)生前提下，X的熵條件熵

推導(dǎo)條件熵的定義H(X,Y)H(Yp(x,y)logp(x,y)p(y)logp(x, p(x,y)logp(x,y)x,

p(x,y)p(p(x,y)logp(x,y)p(x,y)logp(x, x,p(x,y)logp(x,x,

p(p(x,y)logp(x|x,

相對設(shè)p(x)、q(x)是X中取值的兩個概率分布，則p對q相對熵Dp||q

x說明

相對熵可以度量兩個一般的，D(p||q)D(p||q)≥0D(q||p)0：凸函數(shù)中的Jensen

思假定已知隨方法：使用P和Q的K-L難點：K-L距離是非對稱的，兩個隨

兩個KL散度的區(qū)是使用近似p(z1,z2)=p(z1)p(z2)得到的等高左：KL(p||q)：zero右：KL(q||p)：zero

兩個KL散度的區(qū)左：KL(p||q)：q趨向于覆蓋中、右：KL(q||p)：q能夠鎖定某一個峰

互信 I(X,Y) p(x,y)logp(x,x, p(x)p(

計算條件熵的定義式：H(X)-H(X)I(X,Yp(x)logp(x)p(x,y)logp(x,

p(x)p(p(x,

p(x)p(x

p(x,y)logp(x)p(x,y)logp(x, p(x,y)logp(x,

p(x)p(

p(p(x,y)logp(x|H(X|Y

強大的Venn圖：幫

思考題：天平問至少需要多少次稱量才能找到這答：3如何稱量？如何證明

最大熵模型的原

例已知“學(xué)習(xí)”可以被標為主語、謂語、賓語、定語令y1y2表示被標為謂語，y3表示賓語，y4表示定語。得到下面的表示：4p(x1)p(x2)根據(jù)無偏原

p(yi)p(x1)p(x2)

p(y1)p(y2)p(y3)p(y4)引入新知 p(y4)0.05p(x1)p(x2)p(y)p(y)p(y)

再次引入新知p(y2|x1)

最大熵模 um概率平均分布等價熵最p(x1)p(x2)44p(yi)p(y4)p(y2|x1)

最大熵模型maxH(Y|X)

p(x,y)logp(y|xx1,x2p(x1)p(x2)p(y1)p(y2)p(y3)p(y4)p(y4)p(y2|x1)

Maxent的一般maxH(Y|X)p(x,y)logp(y| x,y|p是X上滿足條件的概率分布注意區(qū)分這里的p和P

特征(Feature)和樣本y:這個特征中需要確定的信x:這個特征中的上下文信(xi,yi)xi是yi的上下(x1,y1)(x2,y2)

特征函關(guān)于某個特征(x,y)的樣y:x:特征函數(shù)：對于一個特征(x0,y0)，定義fx,y

xx0且y對于一個特征(x0,y0)，在樣本中的期望值p(f)p(x,y)f(x,xi,yipxy是(x,y)

條件px)x出現(xiàn)的概率pxyxy出現(xiàn)的概率pf特征f

條件p(f

pxi,yifxi,yixi,yi pyi|xipxifxi,yixi,yi pyi|xipxifxi,yixi,yip(f)p(f

最大熵模型：最大條件p*argmaxH(Y|X)p(x,y)logp(y| x,yp(f)p(f

p(y|x)11 x,y

x,y

最大熵模型總定義條件 H(yx)p(y,x)logp(y(x,y模型目

p*(

x)argmaxH(yp(yx定義特征函 fi(x,y)

i1, ,約束條

p(E(fi)

x)(fi

i1, ,

(f) (x,y)f(x,y) f(x,

N (x,y (x,yE(fi) p(x,y)fi(x,y) p(x)p(yx)fi(x,(x,y (x,y

求解Maxent模該條件約束優(yōu)化問題的Lagrange (p,)H(yx)iE(fi)E(fi)m1p(yx)1

已知若干條件，要求若干變量的值使到目標函數(shù)(熵)最最優(yōu)化問題(Optimization非線性規(guī)劃(線性約束 non-linearprogrammingwithlinear

L p(y|x)p(x)logp(y| x,y

(x,y

p(x)(logp(y|x)1)p(x)f(x,y)v p(y|0令0

0i p(x)p*(y|x)f(x,y)

f(x,y)

λ0與ν0僅相差常系數(shù)，后面的推導(dǎo)將直接以λ0代替

“泛函求導(dǎo)通過條件熵最大，能夠得到關(guān)于未知概率分布p(y|x)的目標函數(shù)，而p(y|x)函數(shù)(隨量)，從而，目標函數(shù)的函——泛函。根據(jù)方程F求最優(yōu)的p(y|x)，是用的IIS算法

泛函求導(dǎo)——“類比根據(jù)積分的定義，很容易得知以下兩個式xFxx

fxdxF'xf

xFxx

(1)(2)式中的t是關(guān)于x將其中的積分號變成加和符號，即得到如下式FxfxF'xfx

FxftxF'xf

p*(y|x)

f(x,y) p*(y|x)

f(x,y) Z f(x,

y y

最大熵模型與Logistic/Softmax回 eT

eke k1,2,!,T TT

1e ex

jp*(y|x)

f(x,y) Z

最大似然估 umlikelihood10次拋硬幣的結(jié)果是：正正反正正正反反正 p71

極大似然估計思考：如何求解p ppx

0xn logfxi;1,2,!

取對p logpxpxpxlogp Lpppx,ylogpx,x,x,px,ylogpy|xpx,x, x,

MLE與條件Lpppx,ylogpy|x,演示推 x,y

(x,

求L的對偶函

p(y|x)

Z ikp(y|x)p(x)logp(y|x) k

f(x,

p(y|x)

p(x,

v0 x, x,

(y|x)p(x)log

(y|x)

f(x,

帶入MLEpy|x

f(x,y) Z Lpppx,ylogpy|x, fx,ylogZpx,

npx,yifix,ypx,ylogZn npx,yifix,ypxlogZn kp(x)p(y|x)logZxp(x,y)ifi(x,k

結(jié)可以看到，二者的右端具有完全相同的目標函根據(jù)MLE的正確性，可以斷定：最大熵的解(無偏做點思知識＝不確定度的

λ的求IIS：ImprovedIterativeScaling改進的迭代尺具體內(nèi)容在本PPT最后篇末的附錄但工業(yè)界使用最多的仍然是梯度下降算法

Softmax參數(shù)求

IIS假設(shè)最大熵模型當(dāng)前的參數(shù)向量是λ，希望

再次強不確定度越小，模型越準什么特征都不限定：熵最加一個特征：熵少一加的特征越多，熵越

總詞性標注也可以看作一種編碼的過程求極值的技：Lagrange對偶問最大熵模型，涉及了很多前序的數(shù)學(xué)知事實上，機器學(xué)習(xí)本身就是多

參考文ThomasM.Cover,JoyA.Thomas,ElementsofInformationTheory,AdamL.Berger,StephenA.DellaPietra,VincentJ.DellaPietra,Aumentropyapproachtonaturallanguageprocessing,1996AdamL.Berger,ABriefMaxEntTutorial,AdwaitRatnaparkhi,Learningtoparsenaturallanguagewithumentropymodels,1999AdwaitRatnaparkhi,AsimpleIntroductionto umEntropyModelsforNaturalLanguageProcessing,1997

我們在這煩請邀請visio或其他人回答問本課 (小象學(xué)院：機器學(xué)習(xí)群

附：IIS算法公

改進的迭代尺度法p*(y|x)

ifi(x,yeZ

eifi(

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

小象-機器學(xué)習(xí)-8.最大熵模型

文檔簡介

溫馨提示

最新文檔

評論

小象-機器學(xué)習(xí)-8.最大熵模型

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔