第一章多元正態(tài)分布_第1頁
第一章多元正態(tài)分布_第2頁
第一章多元正態(tài)分布_第3頁
第一章多元正態(tài)分布_第4頁
第一章多元正態(tài)分布_第5頁
已閱讀5頁,還剩40頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

2023/2/41第一章多元正態(tài)分布目錄上頁下頁返回結束§1.1多元分布的基本概念§1.2統(tǒng)計距離和馬氏距離§1.3多元正態(tài)分布§1.4均值向量和協(xié)方差陣的估計§1.5常用分布及抽樣分布2023/2/42一元正態(tài)分布在統(tǒng)計學的理論和實際應用中都有著重要的地位。同樣,在多變量統(tǒng)計學中,多元正態(tài)分布也占有相當重要的位置。原因是:許多隨機向量確實遵從正態(tài)分布,或近似遵從正態(tài)分布;對于多元正態(tài)分布,已有一整套統(tǒng)計推斷方法,并且得到了許多完整的結果。目錄上頁下頁返回結束2023/2/43多元正態(tài)分布是最常用的一種多元概率分布。除此之外,還有多元對數正態(tài)分布,多項式分布,多元超幾何分布,多元分布、多元分布、多元指數分布等。本章從多維變量及多元分布的基本概念開始,著重介紹多元正態(tài)分布的定義及一些重要性質。目錄上頁下頁返回結束2023/2/44§1.1多元分布的基本概念目錄上頁下頁返回結束§1.1.1隨機向量§1.1.2分布函數與密度函數§1.1.3多元變量的獨立性§1.1.4隨機向量的數字特征2023/2/45§1.1.1隨機向量表示對同一個體觀測的個變量。若觀測了個個體,則可得到如下表1-1的數據,稱每一個個體的個變量為一個樣品,而全體個樣品形成一個樣本。目錄上頁下頁返回結束假定所討論的是多個變量的總體,所研究的數據是同時觀測個指標(即變量),又進行了次觀測得到的,把這個指標表示為常用向量2023/2/46

橫看表1-1,記,

它表示第個樣品的觀測值。豎看表1-1,第列的元素表示對第個變量的n次觀測數值。下面為表1-1…n

…2…1…變量序號目錄上頁下頁返回結束2023/2/47因此,樣本資料矩陣可用矩陣語言表示為:目錄上頁下頁返回結束注:若無特別說明,本書所稱向量均指列向量定義1.1

設為p個隨機變量,由它們組成的向量稱為隨機向量。2023/2/48

§1.1.2分布函數與密度函數描述一維隨機變量的最基本工具是分布函數,類似地描述隨機向量的最基本工具還是分布函數。目錄上頁下頁返回結束定義1.2

設是一隨機向量,它的多元分布函數是式中:2023/2/49目錄上頁下頁返回結束定義1.3:設=,若存在一個非負函數

,使得對一切成立,則稱

(或

)有分布密度

并稱

為連續(xù)型隨機向量。2023/2/410§1.1.3多元變量的獨立性目錄上頁下頁返回結束定義1.4:兩個隨機向量

稱為是相互獨立的,若注意:在上述定義中,和的維數一般是不同的。若有密度

,用分別表示

和的分布密度,則

獨立當且僅當

(1.5)2023/2/411§1.1.4隨機向量的數字特征是一個p維向量,稱為均值向量.目錄上頁下頁返回結束當為常數矩陣時,由定義可立即推出如下性質:)(????éPPm)()(1.6).)(

)((2121μX=úúúúùêêêêé=úúúúùêêêê=XEXEXEEmm1、隨機向量X的均值設有P個分量.若

存在,我們定義隨機向量X的均值為:2023/2/412目錄上頁下頁返回結束2、隨機向量

自協(xié)方差陣則稱Σ為X的自協(xié)方差陣2023/2/413目錄上頁下頁返回結束3、隨機向量X和Y的協(xié)差陣當A、B為常數矩陣時,由定義可推出協(xié)差陣有如下性質:設分別為n維和p維隨機向量,它們之間的協(xié)方差陣定義為一個n×p矩陣,其元素為

稱X和Y是不相關的。2023/2/414目錄上頁下頁返回結束(3)設X為維隨機向量,期望和協(xié)方差存在記則對于任何隨機向量

來說,其協(xié)差陣∑都是對稱陣,同時總是非負定(也稱半正定)的。大多數情形下是正定的。2023/2/415目錄上頁下頁返回結束4、隨機向量X的相關陣若隨機向量的協(xié)差陣存在,且每個分量的方差大于零,則X的相關陣定義為:

也稱為分量

之間的(線性)相關系數。2023/2/416在數據處理時,為了克服由于指標的量綱不同對統(tǒng)計分析結果帶來的影響,往往在使用某種統(tǒng)計分析方法之前,常需將每個指標“標準化”,即做如下變換目錄上頁下頁返回結束2023/2/417§1.2統(tǒng)計距離和馬氏距離目錄上頁下頁返回結束歐氏距離馬氏距離2023/2/418歐氏距離在多指標統(tǒng)計分析中,距離的概念十分重要,樣品間的不少特征都可用距離去描述。大部分多元方法是建立在簡單的距離概念基礎上的。即平時人們熟悉的歐氏距離,或稱直線距離.如幾何平面上的點p=(x1,x2)到原點O=(0,0)的歐氏距離,依勾股定理有目錄上頁下頁返回結束2023/2/419但就大部分統(tǒng)計問題而言,歐氏距離是不能令人滿意的。這里因為,每個坐標對歐氏距離的貢獻是同等的。當坐標軸表示測量值時,它們往往帶有大小不等的隨機波動,在這種情況下,合理的辦法是對坐標加權,使得變化較大的坐標比變化小的坐標有較小的權系數,這就產生了各種距離。歐氏距離還有一個缺點,這就是當各個分量為不同性質的量時,“距離”的大小竟然與指標的單位有關。

目錄上頁下頁返回結束2023/2/420目錄上頁下頁返回結束例如,橫軸代表重量(以kg為單位),縱軸

代表長度(以cm為單位)。有四個點A、B、C、D見圖1.1,它們的坐標如圖1.1所示圖1.12023/2/421目錄上頁下頁返回結束這時顯然AB比CD要長。結果CD反而比AB長!這顯然是不夠合理的?,F在,如果

用mm作單位,

單位保持不變,此時A坐標為(0,50),C坐標為(0,100),則2023/2/422目錄上頁下頁返回結束因此,有必要建立一種距離,這種距離要能夠體現各個變量在變差大小上的不同,以及有時存在著的相關性,還要求距離與各變量所用的單位無關。看來我們選擇的距離要依賴于樣本方差和協(xié)方差。因此,采用“統(tǒng)計距離”這個術語,以區(qū)別通常習慣用的歐氏距離。最常用的一種統(tǒng)計距離是印度統(tǒng)計學家馬哈拉諾比斯(Mahalanobis)于1936年引入的距離,稱為“馬氏距離”。

2023/2/423目錄上頁下頁返回結束下面先用一個一維的例子說明歐氏距離與馬氏距離在概率上的差異。設有兩個一維正態(tài)總體。若有一個樣品,其值在A處,A點距離哪個總體近些呢?由圖1-2圖1-22023/2/424目錄上頁下頁返回結束由圖1-2可看出,從絕對長度來看,A點距左面總體G1近些,即A點到比A點到

要“近一些”(這里用的是歐氏距離,比較的是A點坐標與到

值之差的絕對值),但從概率觀點來看,A點在

右側約4

處,A點在

的左側約3

處,若以標準差的觀點來衡量,A點離

比A點離

要“近一些”。顯然,后者是從概率角度上來考慮的,因而更為合理些,它是用坐標差平方除以方差(或說乘以方差的倒數),從而化為無量綱數。2023/2/425馬氏距離設X、Y從均值向量為μ,協(xié)方差陣為∑的總體G中抽取的兩個樣品,定義X、Y兩點之間的馬氏距離為(1.21)

)()(),(1/2YXΣY)XYX--=-dmXG(1.22)

)()(),(1/2μ)XΣμ)(XX--=-Gdm的馬氏距離為與總體定義目錄上頁下頁返回結束2023/2/426設表示一個點集,表示距離,它是到的函數,可以證明,馬氏距離符合如下距離的四條基本公理:;(1),(2)當且僅當;

(3)

(4)

目錄上頁下頁返回結束2023/2/427§1.3多元正態(tài)分布

多元正態(tài)分布是一元正態(tài)分布的推廣。迄今為止,多元分析的主要理論都是建立在多元正態(tài)總體基礎上的,多元正態(tài)分布是多元分析的基礎。另一方面,許多實際問題的分布常是多元正態(tài)分布或近似正態(tài)分布,或雖本身不是正態(tài)分布,但它的樣本均值近似于多元正態(tài)分布。本節(jié)將介紹多元正態(tài)分布的定義,并簡要給出它的基本性質。目錄上頁下頁返回結束2023/2/428§1.3多元正態(tài)分布目錄上頁下頁返回結束§1.3.1多元正態(tài)分布的定義§1.3.2多元正態(tài)分布的性質§1.3.3條件分布和獨立性2023/2/429§1.3.1多元正態(tài)分布的定義|∑|為協(xié)差陣∑的行列式。目錄上頁下頁返回結束

定義1.5

若p元隨機向量

的概率密度函數為:則稱遵從

元正態(tài)分布,也稱X為P元正態(tài)變量。記為2023/2/430定理1.1將正態(tài)分布的參數μ和∑賦于了明確的統(tǒng)計意義。有關這個定理的證明可參見文獻[3]。多元正態(tài)分布不止定義1.5一種形式,更廣泛地可采用特征函數來定義,也可用一切線性組合均為正態(tài)的性質來定義等,有關這些定義的方式參見文獻[3]。目錄上頁下頁返回結束定理1.1:設

2023/2/431§1.3.2多元正態(tài)分布的性質目錄上頁下頁返回結束1、如果正態(tài)隨機向量

的協(xié)方差陣∑是對角陣,則X的各分量是相互獨立的隨機變量。容易驗證,

,但顯然不是正態(tài)分布。2、多元正態(tài)分布隨機向量X的任何一個分量子集的分布(稱為X的邊緣分布)仍然遵從正態(tài)分布。而反之,若一個隨機向量的任何邊緣分布均為正態(tài),并不能導出它是多元正態(tài)分布。例如,設

有分布密度聯(lián)合正態(tài)邊緣正態(tài)2023/2/432目錄上頁下頁返回結束4、若,則若為定值,隨著的變化其軌跡為一橢球面,是的密度函數的等值面.若給定,則為到的馬氏距離。m

3、多元正態(tài)向量的任意線性變換仍然遵從多元正態(tài)分布。即設

,而m維隨機向量,其中

是m×p階的常數矩陣,b是m維的常向量。則m維隨機向量Z也是正態(tài)的,且

。即Z遵從m元態(tài)分布,其均值向量為

,協(xié)差陣為

。~~2023/2/433§1.3.3條件分布和獨立性目錄上頁下頁返回結束

我們希望求給定

的條件分布,即的分布。下一個定理指出:正態(tài)分布的條件分布仍為正態(tài)分布。設

p≥2,將X、μ和Σ剖分如下:2023/2/434證明參見文獻[3]。目錄上頁下頁返回結束定理1.2

,Σ>0,則2023/2/435例:制定服裝標準,測得五個指標,分別為X1身高,X2胸圍,

X3腰圍,X4上體上,X5臀圍,它們服從先取μ(1)μ(2)Σ11Σ12Σ21Σ22由定理1.22023/2/436往求2023/2/437結論:已知一個人的上臂和臀圍時,身高、胸圍和腰圍的條件方差大大縮小了,減少了誤差2023/2/438

(1.28)目錄上頁下頁返回結束定理1.3

,Σ>0,將X,μ,Σ剖分如下:則有如下的條件均值和條件協(xié)差陣的遞推公式:(1.29)

(1.30)

2023/2/439在定理1.2中,我們給出了對X、μ和Σ作形如(1.25)式剖分時條件協(xié)差陣的表達式及其與非條件協(xié)差陣的關系,令表示的元素,則可以定義偏相關系數的概念如下:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論