信息的度量與應(yīng)用_第1頁(yè)
信息的度量與應(yīng)用_第2頁(yè)
信息的度量與應(yīng)用_第3頁(yè)
信息的度量與應(yīng)用_第4頁(yè)
信息的度量與應(yīng)用_第5頁(yè)
已閱讀5頁(yè),還剩22頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、信息的度量與應(yīng)用第1頁(yè),共27頁(yè),2022年,5月20日,0點(diǎn)58分,星期一幾個(gè)例子:例12 當(dāng)你要到大會(huì)堂去找某一個(gè)人時(shí),甲告訴你兩條消息:(1)此人不坐在前十排,(2)他也不坐在后十排;乙只告訴你一條消息:此人坐在第十五排。問誰(shuí)提供的信息量大? 乙雖然只提供了一條消息,但這一條消息對(duì)此人在什么位置上這一不確定性消除得更多,所以后者包含的信息量應(yīng)比前者提供的兩條消息所包含的總信息量更大例13 假如在盛夏季節(jié)氣象臺(tái)突然預(yù)報(bào)“明天無雪”的消息。在明天是否下雪的問題上,根本不存在不確定性,所以這條消息包含的信息量為零。 第2頁(yè),共27頁(yè),2022年,5月20日,0點(diǎn)58分,星期一是否存在信息量的度

2、量公式 基于前面的觀點(diǎn),美國(guó)貝爾實(shí)驗(yàn)室的學(xué)者香農(nóng)(Shannon)應(yīng)用概率論知識(shí)和邏輯方法推導(dǎo)出了信息量的計(jì)算公式 In his words I just wondered how things were put together.Claude Elwood Shannon (April 30, 1916 - February 24, 2001) has been called the father of information theory. 第3頁(yè),共27頁(yè),2022年,5月20日,0點(diǎn)58分,星期一Shannon提出的四條基本性質(zhì) (不妨稱它們?yōu)楣?)公理1信息量是該事件發(fā)生概率的連續(xù)

3、函數(shù) 公理2如果事件A發(fā)生必有事件B發(fā)生,則得知事件A發(fā)生的信息量大于或等于得知事件B發(fā)生的信息量。 公理3如果事件A和事件B的發(fā)生是相互獨(dú)立的,則獲知A、B事件將同時(shí)發(fā)生的信息量應(yīng)為單獨(dú)獲知兩事件發(fā)生的信息量之和。 公理4任何信息的信息量均是有限的。 將某事件發(fā)生的信息記為M,該事件發(fā)生的概率記為p,記M的信息量為I(M)。 上述公理怎樣推出信息量的計(jì)算公式呢第4頁(yè),共27頁(yè),2022年,5月20日,0點(diǎn)58分,星期一定理11.2 滿足公理1公理4的信息量計(jì)算公式為I(M)=Clogap,其中C是任意正常數(shù),對(duì)數(shù)之底a可取任意為不為1的正實(shí)數(shù)。 證明:由公理1 I(M)=f(p),函數(shù)f連續(xù)

4、。 由公理2 若A發(fā)生必有B發(fā)生,則pApB, 有f(pA)f(PB) ,故函數(shù)f是單調(diào)不增的。 由公理3 若A、B是兩個(gè)獨(dú)立事件,則A、B同時(shí)發(fā)生 的概率為pApB,有f(PAPB)=f(pA)+f(pB)。 先作變量替換 令p=a-q,即q=logaP 記 ,又 有: ,g亦為連續(xù)函數(shù)。 第5頁(yè),共27頁(yè),2022年,5月20日,0點(diǎn)58分,星期一 g(x+y)=g(x)+g(y)的連續(xù)函數(shù)有怎樣的性質(zhì) 首先,由g(0)=g(0+0)=2g(0)得出g(0)=0或g(0)=。 但由公理4,后式不能成立,故必有g(shù)(0)=0。 記g(1)=C,容易求得g(2)=2C,g(3)=3C,一般地,

5、有g(shù)(n)=nC。進(jìn)而 ,可得 。 于是對(duì)一切正有理數(shù) m/n,g(m/n) =(m/n)C。由連續(xù)性可知:對(duì)一切非負(fù)實(shí)數(shù)x,有g(shù)(x)=Cx 當(dāng)x取負(fù)實(shí)數(shù)時(shí),由g(x)+g(x)=g(0)=0,可得出g(x)=g(x)=cx也成立,從而對(duì)一切實(shí)數(shù)x,g(x)=Cx, 故g(q)=Cq。 現(xiàn)作逆變換q=logap, 得I(M)=f(P)=ClogaP (11.3) 證畢。 第6頁(yè),共27頁(yè),2022年,5月20日,0點(diǎn)58分,星期一各種信息量單位 若取a=2,C=1,此時(shí)信息量單位稱為比特若取a=10,C=1,此時(shí)信息量單位稱為迪吉特若取a=e,C=1,此時(shí)信息量單位稱為奈特第7頁(yè),共27頁(yè),

6、2022年,5月20日,0點(diǎn)58分,星期一例14 設(shè)劇院有1280個(gè)座位,分為32排,每排40座?,F(xiàn)欲從中找出某人,求以下信息的信息量。(i)某人在第十排;(ii)某人在第15座;(iii)某人在第十排第15座。 解: 在未知任何信息的情況下, 此人在各排的概率可以認(rèn)為是相等的,他坐在各座號(hào)上的概率也可以認(rèn)為是相等的,故 (i)“某人在第十排”包含的信息量為 (比特) (ii)“某人在第15座”包含的信息量為 (比特) (iii)“某人在第十排第15座”包含的信息量為 (比特) 5bit+5.32bit=10.32bit這一例子反映了對(duì)完全獨(dú)立的幾條信息,其總信息量等于各條信息的信息量之和。對(duì)

7、于相應(yīng)不獨(dú)立的信息,要計(jì)算在已獲得某信息后其余信息的信息量時(shí),需要用到條件概率公式,可以參閱信息論書籍。 第8頁(yè),共27頁(yè),2022年,5月20日,0點(diǎn)58分,星期一 至此,我們已經(jīng)引入了信息度量的定量公式。如前所述,它是信息對(duì)消除問題的不確定性的度量。這種講法似乎有點(diǎn)難以為人們所接受,其實(shí),這只是人們的習(xí)慣在起作用。這里,我們不妨來作一比較。在人們搞清熱的奧秘以前,溫度也是一個(gè)較為抽象的概念,因它實(shí)質(zhì)上是物體分子運(yùn)動(dòng)平均速度的一種映。人們天生就知道冷和熱,但如何來度量它卻曾經(jīng)是一個(gè)難題。只有在解決了這一問題以后,以定量分析為主的熱力學(xué)才能得到飛速的發(fā)展。信息問題也是這樣,人們對(duì)各種信息包含的

8、實(shí)質(zhì)“內(nèi)容”究竟有多少往往也有一個(gè)直觀的感覺,但用什么方法來度量它,卻比“今天15度”這樣的講法更不易理解,因?yàn)樗峭ㄟ^較為抽象的概率來計(jì)算的。 第9頁(yè),共27頁(yè),2022年,5月20日,0點(diǎn)58分,星期一平均信息量(熵)問題 設(shè)某一實(shí)驗(yàn)可能有N種結(jié)果,它們出現(xiàn)的概率分別為p1,pN,則事先告訴你將出現(xiàn)第i種結(jié)果的信息,其信息量為log2pi,而該實(shí)驗(yàn)的不確定性則可用這組信息的平均信息量(或熵) 來表示例15 投擲一枚骼子的結(jié)果有六種,即出現(xiàn)16點(diǎn)、出現(xiàn)每 種情況的概率均為1/6,故熵 H=log262.585(比特)。 投擲一枚硬幣的結(jié)果為正、反面兩種,出現(xiàn)的概率均為1/2,故熵 H=log

9、22=1(比特)。 向石塊上猛摔一只雞蛋,其結(jié)果必然是將雞蛋摔破,出現(xiàn)的概率為1,故熵H=log21=0 從例子可以看出,熵實(shí)質(zhì)上反映的是問題的“模糊度”,熵為零時(shí)問題是完全清楚的,熵越大則問題的模糊程度也越大 第10頁(yè),共27頁(yè),2022年,5月20日,0點(diǎn)58分,星期一離散型概率分布的隨機(jī)試驗(yàn),熵的定義為 : (11.5)連續(xù)型概率分布的隨機(jī)試驗(yàn),熵的定義為 : (11.6)熵具有哪些有趣的性質(zhì) 定理11.3 若實(shí)驗(yàn)僅有有限結(jié)果S1,Sn,其發(fā)生的概率分別為 P1,Pn,則當(dāng) 時(shí),此實(shí)驗(yàn)具有最大熵。 此定理既可化為條件極值問題證明之,也可以利用凸函數(shù)性質(zhì)來證明,請(qǐng)大家自己去完成 第11頁(yè),

10、共27頁(yè),2022年,5月20日,0點(diǎn)58分,星期一定理9.4 若實(shí)驗(yàn)是連續(xù)型隨機(jī)試驗(yàn),其概率分布P(x)在a,b區(qū)間以外均為零,則當(dāng) P(x)平均分布時(shí)具有最大熵。 定理9.5 對(duì)于一般連續(xù)型隨機(jī)試驗(yàn),在方差一定的前提下,正態(tài)分布具有最大的熵。 定理9.6 最大熵原理,即受到相互獨(dú)立且均勻而小的隨機(jī)因素影響的系統(tǒng),其狀態(tài)的概率分布將使系統(tǒng)的熵最大。 上述結(jié)果并非某種巧合。根據(jù)概率論里的中心極限定理,若試驗(yàn)結(jié)果受到大量相互獨(dú)立的隨機(jī)因素的影響,且每一因素的影響均不突出時(shí),試驗(yàn)結(jié)果服從正態(tài)分布。最大熵原理則說明,自然現(xiàn)象總是不均勻逐步趨于均勻的,在不加任何限止的情況下,系統(tǒng)將處于熵最大的均勻狀態(tài)

11、。 第12頁(yè),共27頁(yè),2022年,5月20日,0點(diǎn)58分,星期一例16 有12個(gè)外表相同的硬幣,已知其中有一個(gè)是假的,可能輕些也可能重些?,F(xiàn)要求用沒有砝碼的天平在最少次數(shù)中找出假幣,問應(yīng)當(dāng)怎樣稱法。 解 假幣可輕可重,每枚硬幣都可能是假幣。故此問題共有 24種情況,每種情況的概率為1/24。所以此問題的熵為log224。 確定最少次數(shù)的下界實(shí)驗(yàn)最多可能出現(xiàn)三種結(jié)果 ,根據(jù)定理11.3,這種實(shí)驗(yàn)在可能出現(xiàn)的各種事件具有相等的概率時(shí),所提供的平均信息量最大,故實(shí)驗(yàn)提供的平均信息量不超過log23。 設(shè)最少需稱k次,則這k次實(shí)驗(yàn)提供的總信息量 不超過klog23=log23k,又問題的模糊度(熵)

12、為log224 必要條件: log23klog224 ,得 k3。第13頁(yè),共27頁(yè),2022年,5月20日,0點(diǎn)58分,星期一稱三次足夠了嗎?實(shí)驗(yàn)方法:使每次實(shí)驗(yàn)提供盡可能大的平均信息量。 第一次:將12枚硬幣平分成三堆,取兩堆稱,出現(xiàn)兩中情況 情況1 兩堆重量相等假幣在未秤的4枚中。任取其中的3枚加上從已秤過的8枚中任取的1枚,平分成兩堆稱。出現(xiàn)兩種情況 情況1.1 兩堆重量相等最后剩下的一枚是假幣,再稱一次知其比真幣輕還是重。 情況1.2 兩堆重量不相等設(shè)右重左輕,并設(shè)真幣在左邊,若假幣在右邊,則比真幣重,若在左邊,則輕。取右邊兩個(gè)稱 。第14頁(yè),共27頁(yè),2022年,5月20日,0點(diǎn)5

13、8分,星期一情況2 兩堆重量不相等設(shè)右邊較重 。先從左邊取出兩枚,再將右邊的取兩枚放到左邊,將原來左邊的兩枚中取出一枚放于右邊 情況2.1 兩堆重量相等取出的兩枚中輕的為假幣,再稱一次即可找出假幣。情況2.2 兩堆重量不相等若右邊較重,則假幣在右邊原來的兩枚及左邊未動(dòng)過的一枚中(若為前者,則假幣偏重;若為后者,則假幣偏輕),于是再稱一次即可找出假幣。若第二次稱時(shí)左邊較重,則假幣必在交換位置的三枚中,可類似區(qū)分真?zhèn)?。三次是最少次數(shù)!第15頁(yè),共27頁(yè),2022年,5月20日,0點(diǎn)58分,星期一英文的熵是多少呢?例17 在人類活動(dòng)中,大量信息是通過文字或語(yǔ)言來表達(dá)的,而文學(xué)或語(yǔ)言則是一串符號(hào)的組

14、合。據(jù)此,我們可以計(jì)算出每一語(yǔ)種里每一符號(hào)的平均信息量。例如,表11-2、表11-3、表11-4分別是英語(yǔ)、德語(yǔ)和俄語(yǔ)中每一符號(hào)(字母與空格,標(biāo)點(diǎn)符號(hào)不計(jì))在文章中出現(xiàn)的概率的統(tǒng)計(jì)結(jié)果(漢語(yǔ)因符號(hào)繁多,難以統(tǒng)計(jì)) 第16頁(yè),共27頁(yè),2022年,5月20日,0點(diǎn)58分,星期一表11-2(英語(yǔ)) 符號(hào)iPi符號(hào)iPi符號(hào)Pi符號(hào)Pi空格ETOANI0.20.1050.0720.06540.0630.0590.065RSHDLCF0.0540.0520.0470.0350.0290.0230.0225UMPYWGV0.02250.0210.01750.0120.0120.0110.008BKXJQ

15、Z0.0050.0030.0020.0010.0010.001第17頁(yè),共27頁(yè),2022年,5月20日,0點(diǎn)58分,星期一表11-3(德語(yǔ)) 符號(hào)iPi符號(hào)iPi符號(hào)Pi符號(hào)Pi空格ENSIRA 0.1440.1440.08650.06460.06280.06220.0594 DTUHLCG 0.05460.05360.04220.03610.03450.02550.0236 OMBWZVF 0.02110.01720.01380.01130.00920.00790.0078 KPJJQY 0.00710.00670.00280.00080.00050.0000 第18頁(yè),共27頁(yè),2022

16、年,5月20日,0點(diǎn)58分,星期一表11-4(俄語(yǔ)) 符號(hào)iPi符號(hào)iPi符號(hào)Pi符號(hào)Pi空格OE ATHC 0.1750.0900.0720.0620.0620.0530.0530.045 PB 0.0400.0380.0350.0280.0260.0250.0230.021 0.0180.0160.0160.0140.0140.0130.0120.010 0.0090.0070.0060.0060.0040.0030.0030.002 第19頁(yè),共27頁(yè),2022年,5月20日,0點(diǎn)58分,星期一以英文為例,可計(jì)算得: (比特/每符號(hào)) 對(duì)于有27個(gè)符號(hào)的信息源,可能達(dá)到的最大平均信息量為

17、: (比特/每符號(hào))由此可計(jì)算出英語(yǔ)表達(dá)的多余度為: (即15%) 英文的多余度第20頁(yè),共27頁(yè),2022年,5月20日,0點(diǎn)58分,星期一 事實(shí)上,英語(yǔ)在表達(dá)意思上的確存在著富余。例如Q后出現(xiàn)U的概率幾乎是1,T后出現(xiàn)H的概率也很大,等等。這種多余是完全必要的,沒有多余度的語(yǔ)言是死板的,沒有文采的,它是存在語(yǔ)法的必要條件。但對(duì)于電報(bào)編碼、計(jì)算機(jī)文字處理來講,這種多余度的存在常常會(huì)造成浪費(fèi)。有人在上述討論的基礎(chǔ)上研究了符號(hào)編碼問題,使得每一符號(hào)的平均信息量達(dá)到十分接近Hmax的程度,但由于譯電過于復(fù)雜,這種方法尚未實(shí)際應(yīng)用。第21頁(yè),共27頁(yè),2022年,5月20日,0點(diǎn)58分,星期一信息通

18、道的容量問題 問題背景: 信息的傳遞是需要時(shí)間的。用n個(gè)符號(hào)S1、Sn來表達(dá)信息,各符號(hào)傳遞所需時(shí)間是各不相同的,設(shè)分別為t1、tn,并設(shè)各符號(hào)出現(xiàn)的概率分別為p1、pn。這樣,就出現(xiàn)了兩方面的問題。 一、pi是確定的,如何縮短傳遞確定信息所需的時(shí)間。二、ti是確定的,如何使單位時(shí)間傳遞的平均信息量最大。單位時(shí)間內(nèi)信息通道能夠傳遞的最大平均信息量稱為此信息通道的容量 第22頁(yè),共27頁(yè),2022年,5月20日,0點(diǎn)58分,星期一如何求信息通道的容量?每一符號(hào)的平均信息量為: 每一符號(hào)所需的平均時(shí)間為: 故單位時(shí)間內(nèi)傳遞的平均信息量應(yīng)為:第23頁(yè),共27頁(yè),2022年,5月20日,0點(diǎn)58分,星期一問題化為:(11.7)利用拉格朗日乘子法,(11.7)式可化為無約束極值問題: (11.8)記(11.8)式的目標(biāo)函數(shù)為f(p,),即求解方程組:(11.9)第24頁(yè),共27頁(yè),2022年,5月20日,0點(diǎn)58分,星期一方程組(11.9

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論