第二章 離散信源及其信息測度-01_第1頁
第二章 離散信源及其信息測度-01_第2頁
第二章 離散信源及其信息測度-01_第3頁
第二章 離散信源及其信息測度-01_第4頁
第二章 離散信源及其信息測度-01_第5頁
已閱讀5頁,還剩41頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第二章離散信源及其信息測度

第一節(jié)信源的數(shù)學(xué)模型及分類第二節(jié)離散信源的信息熵第三節(jié)信息熵的基本性質(zhì)第四節(jié)離散無記憶的擴(kuò)展信源第五節(jié)離散平穩(wěn)信源第六節(jié)馬爾可夫信源第七節(jié)信源剩余度與自然語言的熵2.1信源的數(shù)學(xué)模型及分類

什么是信源?信源是信息的來源。實(shí)際通信中常見的信源有:語音、文字、圖像、數(shù)據(jù)……在信息論中,信源是產(chǎn)生消息(符號(hào))、消息序列以及連續(xù)消息的來源。數(shù)學(xué)上,信源是產(chǎn)生隨機(jī)變量、隨機(jī)序列和隨機(jī)過程的源。2.1信源的數(shù)學(xué)模型及分類

隨機(jī)變量:離散型隨機(jī)變量:樣值離散連續(xù)型隨機(jī)變量:樣值連續(xù)

隨機(jī)矢量(隨機(jī)序列):一系列時(shí)間上離散的隨機(jī)變量離散型隨機(jī)序列:樣值離散連續(xù)型隨機(jī)序列:樣值連續(xù)

隨機(jī)過程:一連串時(shí)間上連續(xù)的隨機(jī)變量離散型隨機(jī)過程:樣值離散連續(xù)型隨機(jī)過程:樣值連續(xù)2.1信源的數(shù)學(xué)模型及分類

信源的最基本特性:

統(tǒng)計(jì)不確定性運(yùn)用概率論和隨機(jī)過程的理論來研究信息,這是香農(nóng)信息論的基本點(diǎn)。

本節(jié)要求:掌握信源的分類掌握各種信源的描述方法2.1信源的數(shù)學(xué)模型及分類

信源的分類:

按照消息在幅度上的分布情況:離散信源(離散平穩(wěn)信源、離散非平穩(wěn)信源)連續(xù)信源(連續(xù)平穩(wěn)信源、連續(xù)非平穩(wěn)信源)按照信源符號(hào)之間的關(guān)系:無記憶信源發(fā)出單個(gè)符號(hào)的無記憶信源發(fā)出符號(hào)序列的無記憶信源有記憶信源發(fā)出符號(hào)序列的有記憶信源發(fā)出符號(hào)序列的馬爾可夫信源2.1信源的數(shù)學(xué)模型及分類

——信源輸出的消息用隨機(jī)變量描述

有些信源可能輸出的消息數(shù)是有限的或可數(shù)的,而且每次只輸出其中一個(gè)消息。例如,扔一顆質(zhì)地均勻的,研究其下落后,朝上一面的點(diǎn)數(shù)。每次試驗(yàn)結(jié)果必然是1點(diǎn)、2點(diǎn)、3點(diǎn)、4點(diǎn)、5點(diǎn)、6點(diǎn)中的某一個(gè)面朝上。這種信源輸出消息是“朝上的面是1點(diǎn)”、“朝上的面是2點(diǎn)”、......、“朝上的面是6點(diǎn)”等六個(gè)不同的消息。每次試驗(yàn)只出現(xiàn)一種消息,出現(xiàn)哪一種消息是隨機(jī)的,但必定是出現(xiàn)這六個(gè)消息集中的某一個(gè)信息,不可能出現(xiàn)這個(gè)集合以外的什么消息。這六個(gè)不同的消息構(gòu)成兩兩互不相容的基本事件集合,用符號(hào)

來表示這些消息,得這信源的樣本空間為符號(hào)集

。。由大量試驗(yàn)結(jié)果證明,各消息都是等概率出現(xiàn)的,都等于

。2.1信源的數(shù)學(xué)模型及分類

——信源輸出的消息用隨機(jī)變量描述因此,可以用一個(gè)離散型隨機(jī)變量

來描述這個(gè)信源輸出的消息。這個(gè)隨機(jī)變量

的樣本空間就是符號(hào)集

,而

得概率分布就是各消息出現(xiàn)的先驗(yàn)概率,為

。抽象后得到這個(gè)信源的數(shù)學(xué)模型為并滿足1、離散信源數(shù)學(xué)模型如下:

集合X中,包含該信源包含的所有可能輸出的消息,集合P中包含對應(yīng)消息的概率密度,各個(gè)消息的輸出概率總和應(yīng)該為1。例:投硬幣、書信文字、計(jì)算機(jī)的代碼、電報(bào)符號(hào)、阿拉伯?dāng)?shù)字碼等。2.1信源的數(shù)學(xué)模型及分類

——信源輸出的消息用隨機(jī)變量描述2、連續(xù)信源數(shù)學(xué)模型如下:2.1信源的數(shù)學(xué)模型及分類

——信源輸出的消息用隨機(jī)變量描述

每次只輸出單個(gè)符號(hào)(代碼)的消息,但消息的可能數(shù)目是無窮多個(gè)。例:語音信號(hào)、熱噪聲信號(hào)某時(shí)間的連續(xù)取值數(shù)據(jù),遙控系統(tǒng)中有關(guān)電壓、溫度、壓力等測得的連續(xù)數(shù)據(jù)。

信源輸出的消息是時(shí)間上或空間上離散的一系列隨機(jī)變量,即為隨機(jī)矢量。此時(shí),信源的輸出可用N維隨機(jī)矢量X=(X1X2…XN)來描述(N為有限正整數(shù)或可數(shù)的無限值)。這N維隨機(jī)矢量也稱為隨機(jī)序列。例:中文自然語言文字,圖像。比較:隨機(jī)變量和隨機(jī)矢量描述的消息信源:骰子中文自然語言文字消息舉例:“1點(diǎn)”“今天天氣晴朗”隨機(jī)變量隨機(jī)矢量(時(shí)間上離散的符號(hào)序列)樣本空間:{1點(diǎn),2點(diǎn),…,6點(diǎn)}所有漢字與標(biāo)點(diǎn)符號(hào)的集合2.1信源的數(shù)學(xué)模型及分類

——信源輸出的消息用隨機(jī)矢量描述2.1信源的數(shù)學(xué)模型及分類

——信源輸出的消息用隨機(jī)矢量描述

平穩(wěn)信源:隨機(jī)矢量的各維概率分布都與時(shí)間起點(diǎn)無關(guān),也就是任意兩個(gè)不同時(shí)刻隨機(jī)矢量X的各維概率分布都相同。

離散平穩(wěn)信源:信源輸出的隨機(jī)序列X=(X1X2…XN)中,每個(gè)隨機(jī)變量Xi(i=1,2,…,N)都是取值離散的離散型隨機(jī)變量,即每個(gè)隨機(jī)變量Xi的可能取值是有限的或可數(shù)的,且隨機(jī)矢量X的各維概率分布都與時(shí)間起點(diǎn)無關(guān)。連續(xù)平穩(wěn)信源:信源輸出的消息可用N維隨機(jī)矢量X=(X1X2…XN)來描述,其中每個(gè)隨機(jī)變量Xi(i=1,2,…,N)都是取值連續(xù)的連續(xù)型隨機(jī)變量,即每個(gè)隨機(jī)變量Xi的可能取值是不可數(shù)的無限值,且隨機(jī)矢量X的各維概率分布都與時(shí)間起點(diǎn)無關(guān)。

非平穩(wěn)信源

2.1信源的數(shù)學(xué)模型及分類

——信源輸出的消息用隨機(jī)矢量描述

無記憶信源:信源先后發(fā)出的一個(gè)個(gè)符號(hào)彼此是統(tǒng)計(jì)獨(dú)立的。

發(fā)出單個(gè)符號(hào)的無記憶信源:符號(hào)ai

之間是無依賴的、統(tǒng)計(jì)獨(dú)立的。發(fā)出符號(hào)序列的無記憶信源:隨機(jī)變量Xi之間是無依賴的、統(tǒng)計(jì)獨(dú)立的。

由符號(hào)集

與概率測度

構(gòu)成一個(gè)概率空間我們稱由信源空間

描述的信源

為離散無記憶信源。這信源在不同時(shí)刻發(fā)出的符號(hào)之間是無依賴的,彼此統(tǒng)計(jì)獨(dú)立的。2.1信源的數(shù)學(xué)模型及分類

——信源輸出的消息用隨機(jī)矢量描述

有記憶信源:信源在不同時(shí)刻發(fā)出的符號(hào)之間是相互依賴的。發(fā)出符號(hào)序列的有記憶信源:隨機(jī)變量Xi之間是相互依賴的。例:漢字組成的中文序列,據(jù)語法、習(xí)慣、修辭和表達(dá)的制約所構(gòu)成的中文序列。

m階馬爾可夫信源:記憶長度為m+1的有記憶信源,即信源每次發(fā)出的符號(hào)只與前m個(gè)符號(hào)有關(guān),與更前面的符號(hào)無關(guān)??捎民R爾可夫鏈來描述此信源:

設(shè)各時(shí)刻隨機(jī)變量

的取值為則描述隨機(jī)序列中各隨機(jī)變量之間依賴關(guān)系的條件概率為如果上述條件概率與時(shí)間起點(diǎn)

無關(guān),即信源輸出的符號(hào)序列可看成為時(shí)齊馬爾可夫鏈,則此信源稱為時(shí)齊馬爾可夫信源。2.1信源的數(shù)學(xué)模型及分類總結(jié):無記憶:消息序列中任意時(shí)刻的消息間是相互獨(dú)立的,與它前面的消息無關(guān)。平穩(wěn):消息序列中任意時(shí)刻的消息都滿足同一概率分布。2.1信源的數(shù)學(xué)模型及分類

——信源輸出的消息用隨機(jī)過程描述

隨機(jī)波形信源(隨機(jī)模擬信源):實(shí)際信源輸出的消息常常是時(shí)間和取值都是連續(xù)的??傮w看來,信源輸出的消息是時(shí)間連續(xù)函數(shù),同時(shí)在某一固定時(shí)間,它們的可能取值又是連續(xù)的和隨機(jī)的。例:語音信號(hào)、熱噪聲信號(hào)、電視圖像信號(hào)??梢苑譃槠椒€(wěn)隨機(jī)過程和非平穩(wěn)隨機(jī)過程隨機(jī)過程的分析方法:隨機(jī)過程(采樣)->時(shí)間上的連續(xù)符號(hào)序列

內(nèi)容提要:根據(jù)香農(nóng)對于信息的定義,信息是一個(gè)系統(tǒng)不確定性的度量,尤其在通信系統(tǒng)中,我們要研究的是信息的處理、傳輸和存儲(chǔ),所以對于信息的定量計(jì)算是非常重要的。本節(jié)主要從通信系統(tǒng)模型入手,研究離散情況下信息的描述方法及定量計(jì)算。2.2離散信源的信息熵2.2離散信源的信息熵

——自信息問題:這樣的信源能輸出多少信息?每個(gè)消息的出現(xiàn)又?jǐn)y帶多少信息量呢?

對于一般實(shí)際輸出為單個(gè)符號(hào)的離散信源都可用一維隨機(jī)變量

來描述信源的輸出,信源的數(shù)學(xué)模型統(tǒng)一抽象為其中2.2離散信源的信息熵

——自信息例2.1假設(shè)一條電線上串聯(lián)了8個(gè)燈泡

如圖2.1所示。這8個(gè)燈泡損壞的可能性是等概率的,現(xiàn)假設(shè)這8個(gè)燈泡中有一個(gè)也只有一個(gè)燈泡已損壞,致使串聯(lián)燈泡都不能點(diǎn)亮。在未檢查之前,我們不知道哪個(gè)燈泡

已損壞,是不知的、不確定的。我們只有通過檢查,用萬用表去測量電路有否斷路,獲得足夠的信息量,才能獲知和確定哪個(gè)燈泡

已損壞。一般最簡單的方法是:

第一次用萬用表測量電路起始至中間端一段的阻值。若電路通表示損壞的燈泡在后端;若不通表示損壞的燈泡正處在前端。通過第一次測量就可消除一些不確定性,獲得一定的信息量。第一次測量獲得多少信息量呢?在未測量前,8個(gè)燈泡都有可能損壞,它們損壞的先驗(yàn)概是

,這時(shí)存在的不確定性是先驗(yàn)概率

的函數(shù),用

表示。第一次測量后,可知4個(gè)燈泡是好的,另外4個(gè)燈泡中有一個(gè)是壞的,變成猜測4個(gè)燈泡中哪一個(gè)損壞的情況了,這時(shí)后驗(yàn)概率變?yōu)?/p>

。2.2離散信源的信息熵

——自信息因此,尚存在的不確定性是

,

的函數(shù)。所獲得的信息量就是測量前后不確定性減少的量,即

第一次測量獲得的信息量:

第二次測量只需在4個(gè)燈泡中進(jìn)行,仍用萬用表測量電路起始至2個(gè)燈泡的中端(假設(shè)第一次測量已知左側(cè)不通,若右邊不通也只需在后面測量),根據(jù)通與不通就可得知是哪兩個(gè)燈泡中有可能壞的。第二次測量后變成猜測2個(gè)燈泡中哪一個(gè)是損壞的情況了,這時(shí)后驗(yàn)概率為

。因此,尚存在的不確定性是

,第二次測量所獲得的信息量:

第三次測量只需在2個(gè)燈泡中進(jìn)行。圖2.2中假設(shè)第二次測量的結(jié)果是不通,也就知損壞的燈泡在最左邊二個(gè)之一。這樣,第三次測量如圖2.2所示,通過第三次測量完全消除了不確定性,能獲知哪個(gè)燈泡是壞了的。第三次測量后已不存在不確定性了,因此,尚存在的不確定性等于零。

第三次測量獲得的信息量:2.2離散信源的信息熵

——自信息一個(gè)事件的自信息量就是對其不確定性的度量。

對于隨機(jī)事件集

中的隨機(jī)事件

,其出現(xiàn)概率記為

,將兩個(gè)事件

同時(shí)出現(xiàn)的概率記為

,則

應(yīng)滿足:

2.2離散信源的信息熵

——自信息信息量直觀的定義為:收到某消息獲得的信息量=不確定性減少量將某事件發(fā)生所得到的信息量記為

,

應(yīng)該是該事件發(fā)生的概率的函數(shù),即2.2離散信源的信息熵

——自信息

直觀地看,自信息量的定義應(yīng)滿足以下四點(diǎn):2.2離散信源的信息熵

——自信息

綜合上述條件,將自信息量定義為:有兩個(gè)含義:1、當(dāng)事件發(fā)生前,表示該事件發(fā)生的不確定性;2、當(dāng)事件發(fā)生后,表示該事件所提供的信息量。2.2離散信源的信息熵

——自信息函數(shù)

。若取對數(shù)以2為底,計(jì)算得第一次測量獲得的信息量第二次測量獲得的信息量第三次測量獲得的信息量因此,要從8個(gè)等可能損壞的串聯(lián)燈泡中確定哪個(gè)燈泡是壞的,至少要獲得3個(gè)bit的信息量。否則,是無法確切知道哪個(gè)燈泡已壞了。2.2離散信源的信息熵

——自信息例若盒中有6個(gè)電阻,阻值為

的分別為2個(gè)、1個(gè)、3個(gè),將從盒子中取出阻值為

的電阻記為事件

,則事件集

,其概率分布計(jì)算出各事件的自信息量列表如下:消息概率分布1/31/61/2自信息量例:設(shè)天氣預(yù)報(bào)有兩種消息,晴天和雨天,出現(xiàn)的概率分別為1/4和3/4,我們分別用來表示晴天,以來表示雨天,則我們的信源模型如下:

2.2離散信源的信息熵

——自信息2.2離散信源的信息熵

——聯(lián)合自信息和條件自信息二維聯(lián)合集

上元素

的聯(lián)合自信息量

定義為:在已知事件

條件下,隨機(jī)事件

發(fā)生的概率為條件概率

,條件自信息量

定義為:2.2離散信源的信息熵

——自信息例某住宅區(qū)共建有若干棟商品房,每棟有5個(gè)單元,每個(gè)單元住有12戶,甲要到該住宅區(qū)找他的朋友乙,若:1.甲只知道乙住在第5棟,他找到乙的概率有多大?他能得到多少信息?2.甲除知道乙住在第5棟外,還知道乙住在第3單元,他找到乙的概率又有多大?他能得到多少信息?用

代表單元數(shù),

代表戶號(hào):(1)甲找到乙這一事件是二維聯(lián)合集

上的等概分布

,這一事件提供給甲的信息量為

(比特)(2)在二維聯(lián)合集

上的條件分布概率為

,這一事件提供給甲的信息量為條件自信息量

(比特)2.2離散信源的信息熵

——習(xí)題【2.1】同時(shí)扔一對均勻的骰子,當(dāng)?shù)弥皟慎蛔用娉蠑?shù)之和為2”或“面朝上點(diǎn)數(shù)之和為8”或“兩骰子面朝上點(diǎn)數(shù)是3和4”時(shí),試問這三種情況分別獲得多少信息量?【2.2】如果你在不知道今天是星期幾的情況下問你的朋友“明天星期幾?”則答案中含有多少信息量?如果你在已知今天是星期四的情況下提出同樣的問題,則答案中你能獲得多少信息量(假設(shè)已知星期一至星期日的順序)?【2.3】居住某地區(qū)的女孩中有25%是大學(xué)生,在女大學(xué)生中有75%是身高1.6米以上的,而女孩中身高1.6米以上的占總數(shù)一半。假如我們得知“身高1.6米以上的某女孩是大學(xué)生”的消息,問獲得多少信息量?【2.4】中國國家標(biāo)準(zhǔn)局所規(guī)定的二級(jí)漢字共6763個(gè)。設(shè)每個(gè)漢字使用的頻度相等,求一個(gè)漢字所含的信息量。設(shè)每個(gè)漢字用一個(gè)16×16的二元點(diǎn)陣顯示,試計(jì)算顯示方陣所能表示的最大信息。顯示方陣的利用率是多少?自信息:某一信源發(fā)出某一消息所包含的信息量。所發(fā)出的消息不同,它們所含有的信息量也就不同。所以自信息是一個(gè)隨機(jī)值,不能用來作為整個(gè)信源的測度。2.2離散信源的信息熵

——信息熵?如何對信源進(jìn)行整體測度定義自信息的數(shù)學(xué)期望為信源的平均信息量。2.2離散信源的信息熵

——信息熵信息熵的單位取決于對數(shù)選取的底。(

進(jìn)制單位/符號(hào))

信息熵:從整個(gè)信源的統(tǒng)計(jì)特性來考慮,是從平均意義上來表征信源的總體信息測度的。對于某特定信源(概率空間給定),其信息熵是一個(gè)確定的數(shù)值。不同的信源因統(tǒng)計(jì)特性不同,其熵也不同。2.2離散信源的信息熵

——信息熵例.一個(gè)布袋內(nèi)放100個(gè)球,其中80個(gè)球?yàn)榧t色,20球?yàn)榘咨H綦S機(jī)摸取一個(gè)球,猜測其顏色,求平均摸取一次所獲得的(自)信息量。解:設(shè)x1表示摸出的是紅球,x2表示摸出的是白球。隨機(jī)事件的概率空間為2.2離散信源的信息熵

——信息熵2.2離散信源的信息熵

——信息熵信息熵具有以下三種物理含義:第一,表示信源輸出后,每個(gè)消息(或符號(hào))所提供的平均信息量。第二,表示信源輸出前,信源的平均不確定性。2.2離散信源的信息熵

——信息熵(比特/符號(hào))(比特/符號(hào))例如有兩個(gè)信源,其概率空間分別為:則信息熵分別為:可見,,即信源Y比信源X的平均不確定性大第三,表征變量的隨機(jī)性。變量Y:取值等概率,隨機(jī)性大變量X:取a1的概率大,隨機(jī)性小2.2離散信源的信息熵

——信息熵信息熵是描述隨機(jī)變量所需要的比特?cái)?shù)。信息熵是對信源平均不確定性的描述。一般不等于接收端獲得的信息量。只有在無噪情況下,接收者才能正確無誤地接收到信源發(fā)出的消息,所獲得的平均信息量才等于信源的信息熵。2.2離散信源的信息熵

——信息熵注意例:天氣預(yù)報(bào),有兩個(gè)信源則:說明第二個(gè)信源的平均不確定性更大一些。2.2離散信源的信息熵

——信息熵2.2離散信源的信息熵

——信息熵這個(gè)信息熵表示的就是在獲知哪個(gè)燈泡已損壞以前,關(guān)于哪個(gè)燈泡已損壞的平均不確定性。只有獲得3比特的信息量,才能完全消除平均不確定性。這種測量方法每次只能獲得1比特信息量,因此至少要測3次才能確定是哪個(gè)燈泡壞了。例2.3現(xiàn)進(jìn)一步分析例2.1。在例2.1中8個(gè)燈泡構(gòu)成一信源

,每個(gè)燈泡損壞的概率都相等。這個(gè)信源為

其中

表示第

個(gè)燈泡已損壞的事件,信源

共有8種等可能發(fā)生事件??捎?jì)算得此信源的信息熵

(比特/符號(hào))2.2離散信源的信息熵

——信息熵

與信息量相對應(yīng),熵分為無條件熵(我們平時(shí)簡稱“熵”)、條件熵、聯(lián)合熵,分別為:單符號(hào)離散信源熵H(X)

表示X發(fā)生的不確定度。離散信源的條件熵H(X/Y)

表示已知Y后,X的不確定度。離散信源的聯(lián)合熵H(XY)

表示XY同時(shí)發(fā)生的不確定度。2.2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論