小象-機器學(xué)習(xí)-8.最大熵模型_第1頁
小象-機器學(xué)習(xí)-8.最大熵模型_第2頁
小象-機器學(xué)習(xí)-8.最大熵模型_第3頁
小象-機器學(xué)習(xí)-8.最大熵模型_第4頁
小象-機器學(xué)習(xí)-8.最大熵模型_第5頁
免費預(yù)覽已結(jié)束,剩余83頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

法本課件包括演示文稿、示例、代碼、題庫、和在課程范圍外向任何第散播。任何其他人或機構(gòu)不得盜版、、仿造其中的創(chuàng)意及內(nèi)容,我們 課 咨

鄒本次目 理解聯(lián)合熵H(X,Y)、相對熵D(X||Y)、條件熵H(X|Y)、I(X,Y)的定義和含義,并了解如下公 H(X|Y)=H(X,Y)-H(Y)=H(X)- H(Y|X)=H(X,Y)-H(X)=H(Y)– I(X,Y)=H(X)-H(X|Y)=H(X)+H(Y)-H(X,Y)掌握最大熵模型 umEntropy了解最大熵在自然語言處理NLP中的應(yīng) NaturalLanguage umLikelihood

預(yù)備定NlnN!NlnN lnN!lni

lnN1xlnxN1N1N

xdlnNlnN

x1dx1NlnNx1NlnNNNlnN

普通的一個的某一次投擲,出現(xiàn)點5的等概率:各點的概率都是對于“一無所知”的,假定所有點數(shù)等概對給定的某個,經(jīng)過N次投擲后發(fā)現(xiàn),

帶約束的優(yōu)化問令6個面朝上的概率為(p1,p2…p6),用向量p表示

pln約束條

pi

ipiLp!,, plnp

ip

i求解

L

ln

11i2

15.932,2

預(yù)測結(jié)

從小學(xué)數(shù)學(xué)開 左邊比右邊右邊比左邊兩邊同樣

答一種可能的稱量方法如右圖所答案:2追問:為什么2次

1+2?>=1?

3?5 51 2 3 41234

理論下令x表 幣的序號:令yi表示第i次使用天平得到1表示“左輕”,2表示“平衡”,3用天平稱n次,獲得的結(jié)果是:y1y2…y1y2…yn的所有可能組合數(shù)目是根據(jù)題意,要求通過y1y2yn確定x。即影射map(y1y2…yn)=x;從而:y1y2…yn的變化數(shù)目大于等于x的變化數(shù)則:3n≥5——一般意義上Yn

進一步分YnXnlogYlogXnloglog用y1y2…yn表達x。即設(shè)計編碼x:y1y2…log

log的“表達能力”是HYlog

log至少要多少個Y才能準(zhǔn)確表示HXlog5H(Y log

題目的變 能夠找

解釋Huffman編12345

解釋Huffman編1?3?12312345

附 定義信息某事件發(fā)生的概率小,則該事件的信思考:事件X的信息量的期望如何計算

熵注:經(jīng)典熵的定義,底數(shù)是2,單位是本例中,為分析方便使用底數(shù)若底數(shù)是e,單位是nat(奈特

研究函數(shù)當(dāng)f’(x)=0時,x=1/e由于limfx定義

離散采

對熵的理解0HXlog熵是隨量不確定性的度量,不確定性越大,熵值越大;若隨量成定值,熵該不確定性度量的本質(zhì)即為信息量的均勻分布是“最不確定”的分熵其實定義了一個函數(shù)(概率分布函數(shù))到一(函數(shù)數(shù)值泛函:“變分推導(dǎo)”章

兩點分布的

繼續(xù)思考:三點分布呢HXpxlnpxp1lnp1p2lnp21p1p2ln1p1p2

組合數(shù)的關(guān)

n1!n2!n3!!nk n!n!n!!n記W n!n!n!!n 求Hn,n,! 1lnW

公式推NlnN!NlnNH1N

kk

1lnN!

lnni

1nlnnN NlnN

1

nilnni

ninkN k 1

lnN

nilnniNiNi

Ni1 k k

nlnN

1

niN

niln

NNi1 N

nilnnik k

pilnpii1

自封閉系統(tǒng)的運動總是倒向均勻分

思考:根據(jù)函數(shù)形式判斷概率分

2ln

ln

x

x該分布的對數(shù)是關(guān)于 根據(jù)計算過程的可逆性,若某對數(shù)分布能夠?qū)懗呻S量二次形式,則該分布必然是正態(tài)分

舉 px;,

x常系數(shù)

0lnpx;,ln1lnxxlnAxBlnx若某對數(shù)分布能夠?qū)懗呻S

t1et

Gamma函數(shù) Gamma分布的期望為:EX

若 成定值,熵最?。簽槿綦S機分布為均勻分布,熵最最大熵模

思考過argmaxHX

pxln

px

VarXEX2E2XEX2E2XVarX2

建立Lagrange函數(shù),求駐

2x

xpx

x2px2

2

Llnpx1xx2 0lnpxx2x P(x)的對數(shù)是關(guān)于隨

聯(lián)合熵和條件 聯(lián)合熵JointEntropy,用H(X,Y)表示(X,Y)發(fā)生所包含的熵,減去Y單獨發(fā)生包含的該式子定義為Y發(fā)生前提下,X的熵條件熵

推導(dǎo)條件熵的定義H(X,Y)H(Yp(x,y)logp(x,y)p(y)logp(x, p(x,y)logp(x,y)x,

p(x,y)p(p(x,y)logp(x,y)p(x,y)logp(x, x,p(x,y)logp(x,x,

p(p(x,y)logp(x|x,

根據(jù)條件熵的定義式,可以得H(X,Y)H(X)p(x,y)logp(y|x,p(x,y)logp(y| p(x)p(y|x)logp(y| p(x)p(y|x)logp(y| p(x)HY|Xx

相對設(shè)p(x)、q(x)是X中取值的兩個概率分布,則p對q相對熵Dp||q

x說明

px

相對熵可以度量兩個 一般的,D(p||q)D(p||q)≥0D(q||p)0:凸函數(shù)中的Jensen

思假定已知隨 方法:使用P和Q的K-L難點:K-L距離是非對稱的,兩個隨

兩個KL散度的區(qū)是使用近似p(z1,z2)=p(z1)p(z2)得到的等高左:KL(p||q):zero右:KL(q||p):zero

兩個KL散度的區(qū)左:KL(p||q):q趨向于覆蓋中、右:KL(q||p):q能夠鎖定某一個峰

互信 I(X,Y) p(x,y)logp(x,x, p(x)p(

計算條件熵的定義式:H(X)-H(X)I(X,Yp(x)logp(x)p(x,y)logp(x,

p(x)p(p(x,

p(x)p(x

p(x,y)logp(x)p(x,y)logp(x, p(x,y)logp(x,

p(x)p(

p(p(x,y)logp(x|H(X|Y

根據(jù)條件熵的定義式,可以得H(X,Y)H(X)p(x,y)logp(y|x,p(x,y)logp(y| p(x)p(y|x)logp(y| p(x)p(y|x)logp(y| p(x)HY|Xx

整理得到的等H(X|Y)=H(X,Y)-條件熵定H(X|Y)=H(X)-根據(jù)互信息定義展開有些文獻將I(X,Y)=H(Y)H(Y|X)H(Y|X)=H(X,Y)-H(Y|X)=H(Y)-I(X,Y)=H(X)+H(Y)-試證明:H(X|YH(X),H(Y|X

強大的Venn圖:幫

思考題:天平 問至少需要多少次稱量才能找到這 答:3如何稱量?如何證明

最大熵模型的原

例已知“學(xué)習(xí)”可以被標(biāo)為主語、謂語、賓語、定語令y1y2表示被標(biāo)為謂語,y3表示賓語,y4表示定語。得到下面的表示:4p(x1)p(x2)根據(jù)無偏原

p(yi)p(x1)p(x2)

p(y1)p(y2)p(y3)p(y4)引入新知 p(y4)0.05p(x1)p(x2)p(y)p(y)p(y)

再次引入新知p(y2|x1)

最大熵模 um概率平均分布等價 熵最p(x1)p(x2)44p(yi)p(y4)p(y2|x1)

最大熵模型maxH(Y|X)

p(x,y)logp(y|xx1,x2p(x1)p(x2)p(y1)p(y2)p(y3)p(y4)p(y4)p(y2|x1)

Maxent的一般maxH(Y|X)p(x,y)logp(y| x,y|p是X上滿足條件的概率分布注意區(qū)分這里的p和P

特征(Feature)和樣本y:這個特征中需要確定的信x:這個特征中的上下文信(xi,yi)xi是yi的上下(x1,y1)(x2,y2)

特征函關(guān)于某個特征(x,y)的樣y:x:特征函數(shù):對于一個特征(x0,y0),定義fx,y

xx0且y對于一個特征(x0,y0),在樣本中的期望值p(f)p(x,y)f(x,xi,yipxy是(x,y)

條件px)x出現(xiàn)的概率pxyxy出現(xiàn)的概率pf特征f

條件p(f

pxi,yifxi,yixi,yi pyi|xipxifxi,yixi,yi pyi|xipxifxi,yixi,yip(f)p(f

最大熵模型:最大條件p*argmaxH(Y|X)p(x,y)logp(y| x,yp(f)p(f

最大熵模型在NLP中的完整提p*argmaxH(Y|Xp(x,y)logp(y|x,yp(y|x)pxlogp(y|x,yPpy|xfi:p(y|x)pxfix,yp(x,y)fix,y,x:

p(y|x)11 x,y

x,y

最大熵模型總定義條件 H(yx)p(y,x)logp(y(x,y模型目

p*(

x)argmaxH(yp(yx定義特征函 fi(x,y)

i1, ,約束條

p(E(fi)

x)(fi

i1, ,

(f) (x,y)f(x,y) f(x,

N (x,y (x,yE(fi) p(x,y)fi(x,y) p(x)p(yx)fi(x,(x,y (x,y

求解Maxent模該條件約束優(yōu)化問題的Lagrange (p,)H(yx)iE(fi)E(fi)m1p(yx)1

i

已知若干條件,要求若干變量的值使到目標(biāo)函數(shù)(熵)最最優(yōu)化問題(Optimization非線性規(guī)劃(線性約束 non-linearprogrammingwithlinear

L p(y|x)p(x)logp(y| x,y

(x,y

p(x)(logp(y|x)1)p(x)f(x,y)v p(y|0令0

0i p(x)p*(y|x)f(x,y)

f(x,y)

λ0與ν0僅相差常系數(shù),后面的推導(dǎo)將直接以λ0代替

“泛函求導(dǎo)通過條件熵最大,能夠得到關(guān)于未知概率分布p(y|x)的目標(biāo)函數(shù),而p(y|x)函數(shù)(隨 量),從而,目標(biāo)函數(shù)的函——泛函。根據(jù)方程F求最優(yōu)的p(y|x),是用的IIS算法

泛函求導(dǎo)——“類比根據(jù)積分的定義,很容易得知以下兩個式xFxx

fxdxF'xf

xFxx

(1)(2)式中的t是關(guān)于x將其中的積分號變成加和符號,即得到如下式FxfxF'xfx

FxftxF'xf

p*(y|x)

f(x,y) p*(y|x)

f(x,y) Z f(x,

yZ

y y

最大熵模型與Logistic/Softmax回 eT

T

1

T

ex

eke k1,2,!,T TT

eT

1

e

1e ex

jp*(y|x)

f(x,y) Z

最大似然估 umlikelihood10次拋硬幣的結(jié)果是:正正反正正正反反正 p71

極大似然估計思考:如何求解p ppx

0xn logfxi;1,2,!

取對p logpxpxpxlogp Lpppx,ylogpx,x,x,px,ylogpy|xpx,x, x,

MLE與條件Lpppx,ylogpy|x,演示推 x,y

(x,

求L的對偶函

p(y|x)

Z ikp(y|x)p(x)logp(y|x) k

f(x,

i

p(y|x)

p(x,

v0 x, x,

(y|x)p(x)log

(y|x)

f(x,

i

p(x,x, x, p(x)p(y|x)logp(y|x)p(x)p(y|x)ifi(x,y)p(x,y)ifi(x,x, x, x, p(x)p(y|x)logp(y|x)p(x)p(y|x)ifi(x,y)p(x,y)ifi(x,x, x, x,kp(x)p(y|x)logZxp(x,y)ifi(x,kx, x,

帶入MLEpy|x

f(x,y) Z Lpppx,ylogpy|x, fx,ylogZpx,

npx,yifix,ypx,ylogZn npx,yifix,ypxlogZn kp(x)p(y|x)logZxp(x,y)ifi(x,k

結(jié)可以看到,二者的右端具有完全相同的目標(biāo)函根據(jù)MLE的正確性,可以斷定:最大熵的解(無偏做點思知識=不確定度的

λ的求IIS:ImprovedIterativeScaling改進的迭代尺具體內(nèi)容在本PPT最后篇末的附錄但工業(yè)界使用最多的仍然是梯度下降算法

Softmax參數(shù)求

IIS假設(shè)最大熵模型當(dāng)前的參數(shù)向量是λ,希望

再次強不確定度越小,模型越準(zhǔn)什么特征都不限定:熵最加一個特征:熵少一加的特征越多,熵越

總詞性標(biāo)注也可以看作一種編碼的過程求極值的技 :Lagrange對偶問最大熵模型,涉及了很多前序的數(shù)學(xué)知事實上,機器學(xué)習(xí)本身就是多

參考文ThomasM.Cover,JoyA.Thomas,ElementsofInformationTheory,AdamL.Berger,StephenA.DellaPietra,VincentJ.DellaPietra,Aumentropyapproachtonaturallanguageprocessing,1996AdamL.Berger,ABriefMaxEntTutorial,AdwaitRatnaparkhi,Learningtoparsenaturallanguagewithumentropymodels,1999AdwaitRatnaparkhi,AsimpleIntroductionto umEntropyModelsforNaturalLanguageProcessing,1997

我們在這 煩請邀請visio或其他人回答問本課 (小象學(xué)院:機器學(xué)習(xí)群

附:IIS算法公

改進的迭代尺度法p*(y|x)

Z

ifi(x,yeZ

eifi(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論