信息論與編碼理論第2章 信息的統(tǒng)計度量_第1頁
信息論與編碼理論第2章 信息的統(tǒng)計度量_第2頁
信息論與編碼理論第2章 信息的統(tǒng)計度量_第3頁
信息論與編碼理論第2章 信息的統(tǒng)計度量_第4頁
信息論與編碼理論第2章 信息的統(tǒng)計度量_第5頁
已閱讀5頁,還剩48頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

信息論與編碼理論

第2章信息的統(tǒng)計度量主要內(nèi)容

從概率的角度研究問題自信息量互信息量平均自信息量平均互信息量信息的大小多個信息之間關(guān)聯(lián)的密切程度2.1自信息和條件自信息2.1.1自信息量事件發(fā)生的概率越大,它發(fā)生后提供的信息量越小。張三今天吃飯了事件發(fā)生的概率越小,一旦該事件發(fā)生,它提供的信息量就越大。某沿海地區(qū)發(fā)生海嘯2.1.1自信息定義2-1

任意隨機事件的自信息量定義為該事件發(fā)生概率的對數(shù)的負值。假設(shè)事件xi發(fā)生的概率為p(xi),則其自信息定義式為根據(jù)該公式可能提出的問題底數(shù)是多少?常用底數(shù):2真的成反比嗎?I(x)≥0規(guī)定:0log0=0自信息量的含義自信息量表示一個事件是否發(fā)生的不確定性的大小。自信息量表示一個事件的發(fā)生帶給我們的信息量的大小。自信息量表示為了確定一個事件是否發(fā)生,所需的信息量的大小。自信息量表示為了將事件的信息量表示出來,所需的二進制位的個數(shù)。這個個數(shù)就是該二進制碼的長度,簡稱碼長。自信息量的例子假設(shè)“張三今天吃飯了”這個事件發(fā)生的概率是99.99%,則該事件的自信息量為:這表明該事件的不確定性很小。假設(shè)“某沿海地區(qū)發(fā)生海嘯”這個事件發(fā)生的概率是0.01%,則該事件的自信息量為:這表明該事件的不確定性很大。聯(lián)合自信息量定義2-2

二維聯(lián)合集XY上的元素(xiyj)的聯(lián)合自信息量定義為聯(lián)合自信息量衡量的是多個事件同時出現(xiàn)的不確定性的大?。粌蓚€事件同時發(fā)生帶給我們的信息量的大??;為了確定兩個事件是否能同時發(fā)生,所需的信息量的大??;或者,將該信息量表示出來,所需的二進制位的個數(shù),即碼長。2.1.2條件自信息量定義2-3

事件xi在事件yj給定的條件下的條件自信息量定義為:含義:知道事件yj之后,仍然保留的關(guān)于事件xi的不確定性;或者,事件yj發(fā)生之后,事件xi再發(fā)生,能夠帶來的信息量。p(x):x出現(xiàn)的概率I(x):x的不確定性p(x|y):y出現(xiàn)之后

x出現(xiàn)的概率I(x|y):知道y之后仍然保留的關(guān)于

x的不確定性衡量的都是不確定性先驗概率后驗概率條件自信息量的例子事件:x=“某沿海地區(qū)發(fā)生海嘯”y=“海底發(fā)生了地震”概率:p(x)=0.01%p(x|y)=1%事件x的自信息量為:事件x在事件y發(fā)生的情況下的條件自信息量為:2.2互信息量舉例張三今天沒來上課張三有可能病了為什么沒來上課就會猜到生病了?因為二者有關(guān)系互信息衡量的就是這種關(guān)系的大小象形字,本意:絞繩用的工具,又象握手互相,兩者或者多者相互作用兩個或者多個事件之間關(guān)聯(lián)的密切程度2.2.1互信息量定義2-4

隨機事件yj的出現(xiàn)給出關(guān)于事件xi的信息量,定義為互信息量。定義式:單位:同自信息量互信息量的含義

還可表示為:含義:本身的不確定性,減去知道了事件y之后仍然保留的不確定性,即由y所提供的關(guān)于x的信息量,或者說由y所消除的x的不確定性?;バ畔⒘?原有的不確定性-仍然保留的不確定性對數(shù)的幾個性質(zhì):互信息量的例子事件:x=“某沿海地區(qū)發(fā)生海嘯”y=“海底發(fā)生了地震”概率:p(x)=0.01%p(x|y)=1%前面已求出自信息量和條件自信息量為:而x和y的互信息量為:2.2.2互信息量的性質(zhì)概率乘法公式全概率公式x1x2…xn和y1p(x1y1)p(x2y1)…p(xny1)p(y1)y2p(x1y2)p(x2y2)…p(xny2)p(y2)………………ymp(x1ym)p(x2ym)…p(xnym)p(ym)和p(x1)p(x2)…p(xn)1全概率公式互信息量的性質(zhì)1

互信息量的互易性I(x;y)=I(y;x)證明:含義:由y所提供的關(guān)于x的信息量等于由x

所提供的關(guān)于y的信息量概率乘法公式全概率公式互信息量的性質(zhì)2

互信息量可為0當事件x、y統(tǒng)計獨立時,互信息量為0證明:含義:當兩個事件相互獨立時,一個事件不能提供另一個事件的任何信息。即一個事件發(fā)生之后,對于確定另一個事件是否發(fā)生沒有任何幫助。p(x|y)=p(x)無論是否知道y,都對x出現(xiàn)的概率沒有影響說明x和y沒有什么關(guān)系概率乘法公式全概率公式互信息量的性質(zhì)3

互信息量可正可負正:y的出現(xiàn)有助于肯定x的出現(xiàn)

x:張三病了。

y:張三沒來上課。負:y的出現(xiàn)有助于否定x的出現(xiàn)

x:李四考了全班第一名。

y:李四沒有復習功課。無論正負,互信息量的絕對值越大,x和y的關(guān)系越密切?;叵胱孕畔⒘縄(x)I(x)≥0:x的出現(xiàn)或多或少總能帶來一些信息互信息量的性質(zhì)4

互信息量不大于其中任一事件的自信息量證明同理:I(x;y)=I(y;x)≤I(y)互信息量=原有的不確定性-仍然保留的不確定性2.3離散集的平均自信息量(熵)離散集X={x1,x2,…,xn}離散集的概率分布表示為離散集中的每一個事件都有自己的自信息量所有這些自信息量的均值,就是離散集的平均自信息量定義2-5

集X上,隨機變量I(xi)的數(shù)學期望定義為平均自信息量。又稱作集X的信息熵,簡稱熵。H(X)又可記作H(p1,p2,…,pn)平均自信息量含義集合中所有事件是否發(fā)生的平均不確定性的大小。集合中事件發(fā)生,帶給我們的平均信息量的大小。確定集合中到底哪個事件發(fā)生時,所需的平均信息量的大小。如果用二進制數(shù)據(jù)將集合中的各個元素表示出來,所需的二進制位的個數(shù)的平均值,即平均碼長。系統(tǒng)的凌亂程度。熵的單位同自信息量的單位熵的例子【例2-6】系統(tǒng)1系統(tǒng)2中2.3.2熵函數(shù)的數(shù)學特性對稱性非負性確定性擴展性可加性極值性上凸性熵函數(shù)的數(shù)學特性1

對稱性集合中各分量的次序任意變更時,熵值(平均自信息量)不變從熵(平均自信息量)的公式上來看,該結(jié)論是明顯的深層含義:熵是有局限性的。它僅與隨機變量的總體結(jié)構(gòu)有關(guān),抹煞了個體的特性。例2-7“加權(quán)熵”晴多云雨冰雹A地1/21/41/81/8B地1/21/81/81/4加權(quán)熵晴多云雨冰雹A地1/21/41/81/8B地1/21/81/81/4權(quán)重1112例2-8熵函數(shù)的數(shù)學特性2

非負性H(X)≥0源于自信息量的非負性。什么時候為0:有且僅有一個pi=1,其余的pi=0,即確定事件集。熵函數(shù)的數(shù)學特性3

確定性集合中只要有一個事件為必然事件,則其余事件為不可能事件,熵為0。H(1,0)=H(1,0,0)=…=H(1,0,…,0)=0熵函數(shù)的數(shù)學特性4

擴展性集合X有q個事件,集合Y比X僅僅是多了一個概率接近0的事件,則兩個集合的熵值一樣。證明:含義:集合中,一個事件發(fā)生的概率比其它事件發(fā)生的概率小得多時,該小概率事件可以忽略不計,不用考慮。抓主要矛盾【例2-9】

《中華字海》中收錄了多達85000個漢字,而據(jù)統(tǒng)計,常用漢字不過3000個。如果需要在短時間內(nèi)編寫一個計算機用的漢字字庫,我們就要利用熵的擴展性,先對這3000個常用漢字編碼,有時間再逐步完善補充。熵函數(shù)的數(shù)學特性5

可加性H(X,Y)=H(X)+H(Y|X)當X、Y相互獨立時,H(X,Y)=H(X)+H(Y)熵函數(shù)的數(shù)學特性6

極值性各事件等概率發(fā)生時,熵最大最大熵定理例子

最大熵定理【例2-11】自然界總是向著最大熵方向演化,而人們總想減少熵。但是熵減的過程通常讓人覺得痛苦??茖W家找規(guī)律,將未知變已知:減少熵。尋找規(guī)律的過程不輕松。在深度學習的分類問題中,提高分類準確率,意味著離等概分布越來越遠:減少熵。但是提高分類準確率并不容易。小A小B放的時候鞋放原裝鞋盒,鞋盒貼有信息的一面沖外,整齊碼放。隨便把鞋往一個鞋盒一放,胡亂地堆在床底下。用的時候只有一個鞋盒的概率為1,其余鞋盒的概率都為0,此時熵為0。等概分布,熵最大。結(jié)果為了減少熵,需要仔細收納自己的鞋,這個過程需要一定的自控力,持之以恒才能做到。不需要對抗自然界熵不斷增加的趨勢,但是在獲取需要的鞋的時候,卻很費勁。熵函數(shù)的數(shù)學特性7

上凸性H(p1,p2,…,pq)是概率分布(p1,p2,…,pq)的嚴格上凸函數(shù)如果f[

X1+(1-

)X2]

f(X1)+(1-

)f(X2),其中0<

<1,則稱f(X)為上凸函數(shù)。如果f[

X1+(1-

)X2]>

f(X1)+(1-

)f(X2),則稱f(X)為嚴格上凸函數(shù)。上凸函數(shù)的直觀意義除上凸函數(shù)之外,還有下凸函數(shù)對于凸函數(shù),有詹森(Jenson)不等式E[f(x)]

f(E[x])2.3.3條件熵定義2-7

條件自信息量的概率均值(數(shù)學期望)定義為條件熵。含義當?shù)玫郊蟈的條件下,集合Y中仍然保留的平均不確定性。當已知集合X中某事件發(fā)生的條件下,集合Y中的事件再發(fā)生,進一步帶給我們的平均信息量的大小。當已知集合X中某事件發(fā)生的條件下,確定集合Y中到底哪個事件發(fā)生時,所需的平均信息量的大小。當?shù)玫郊蟈的條件下,用二進制數(shù)據(jù)將集合Y中的各個元素表示出來,進一步所需的平均碼長。2.3.4聯(lián)合熵定義2-8聯(lián)合集XY上,每對元素xy的自信息量的概率平均值定義為聯(lián)合熵。聯(lián)合熵又稱為共熵。第2個關(guān)系第3個關(guān)系第1個關(guān)系2.3.5各種熵之間的關(guān)系“=”成立的條件是X和Y統(tǒng)計獨立H(X,Y)=H(X)+H(Y),H(Y|X)=H(Y)2.3.6交叉熵和相對熵對同一個集合,兩種不同分布之間的關(guān)系。定義2-9概率分布和之間的交叉熵定義為:通常P是事件集合真實的概率,Q是擬合的。含義:用擬合分布Q表示真實分布P時所需要的二進制位的個數(shù)的平均值。2.3.6交叉熵和相對熵定義2-10相對熵,又叫KL散度,定義為:相對熵和交叉熵有如下關(guān)系:含義:相對熵表示用擬合分布表示時,多出來的二進制位的個數(shù)。交叉熵與相對熵只相差H(P),認為兩者之間沒有本質(zhì)區(qū)別相對熵一定大于等于0;交叉熵一定大于等于H(P)Q和P越接近,交叉熵和相對熵越小,因此兩者可以用來衡量擬合分布Q與真實分布P的接近程度:越小擬合的越好。例2-14

通常將交叉熵H(P,Q)用作機器學習中分類問題的損失函數(shù)(損失函數(shù)是訓練出的概率與真實概率之間的差別)。算法1的交叉熵算法2的交叉熵算法1的交叉熵小于算法2的交叉熵,說明算法1的預測值更接近實際值,算法1好于算法2。

貓青蛙老鼠標簽010算法1的預測值0.30.60.1算法2的預測值0.30.40.32.4離散集的平均互信息量x1x2…xn和y1p(x1y1)p(x2y1)…p(xny1)p(y1)y2p(x1y2)p(x2y2)…p(xny2)p(y2)………………ymp(x1ym)p(x2ym)…p(xnym)p(ym)和p(x1)p(x2)…p(xn)1xip(y1|xi)=p(xiy1)/p(xi)p(y2|xi)=p(xiy2)/p(xi)…p(ym|xi)=p(xiym)/p(xi)p(xi)yjp(x1|yj)=p(x1yj)/p(yj)p(x2|yj)=p(x2yj)/p(yj)…p(xn|yj)=p(xnyj)/p(yj)p(yj)聯(lián)合概率和先驗概率后驗概率條件概率2.4.1平均互信息量定義2-11平均互信息量互信息量的均值含義:知道了集合Y之后,平均Y中的一個事件消除掉的關(guān)于集合X中一個事件的不確定性。由集合Y中一個事件平均能夠提供出來的關(guān)于集合X中一個事件的信息量。表示了兩個集合之間關(guān)系的密切程度。平均互信息量的性質(zhì)1

非負性I(X;Y)≥0互信息I(x;y)可正、可負、可為0平均互信息I(X;Y)可正、可為0何時為0?何時為0?x和y相互獨立時X和Y相互獨立時平均互信息量的性質(zhì)2

互易性(對稱性)I(X;Y)=I(Y;X)證明:對稱性表明:從集合Y中獲得的關(guān)于X的信息量(I(X;Y))等于從集合X中獲得的關(guān)于Y的信息量(I(Y;X))。平均互信息量的性質(zhì)3

極值性I(X;Y)

H(X)I(X;Y)

H(Y)證明:因為I(X;Y)=H(X)-H(X|Y),而且H(X|Y)0。平均互信息量的性質(zhì)4

凸函數(shù)性平均互信息量是先驗概率p(x)和后驗概率p(y|x)的凸函數(shù)2.4.3平均互信息量和各類熵的關(guān)系回憶互信息量和自信息量的關(guān)系I(x;y)=I(x)-I(x|y)因此,猜想平均互信息量和熵之間有如下關(guān)系I(X;Y)=H(X)-H(X|Y)證明:同理:I(X;Y)=H(Y)-H(Y|X)由H(X,Y)=H(X)+H(Y|X),得I(X;Y)

=H(X)+H(Y)-H(X,Y)這些關(guān)系可以用維拉圖表示I(X;Y)=H(X)-H(X|Y)的應(yīng)用例2-15

機器學習訓練數(shù)據(jù)中可能包含很多特征,如何選擇?

4個特征,以及標簽的概率分布特征和標簽之間的條件概率序號特征1外表特征2性格特征3身高特征4上進標簽1帥不好矮不上進不嫁2不帥好矮上進不嫁3帥好矮上進嫁4不帥非常好高上進嫁5帥不好矮上進不嫁6帥不好矮上進不嫁7帥好高不上進嫁8不帥好中上進嫁9帥非常

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論