多元統(tǒng)計分析講義(第一章)_第1頁
多元統(tǒng)計分析講義(第一章)_第2頁
多元統(tǒng)計分析講義(第一章)_第3頁
多元統(tǒng)計分析講義(第一章)_第4頁
多元統(tǒng)計分析講義(第一章)_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、注意電子文檔使用范圍多 元 統(tǒng) 計 分 析Multivariate Statistical Analysis主講:統(tǒng)計學院 許啟發(fā)(xuqifa1975)統(tǒng)計學院應用統(tǒng)計學教研室School of Statistics2004年9月第一章 緒 論【教學目的】1 讓學生了解什么是多元統(tǒng)計分析?它的發(fā)展與現(xiàn)狀;2 讓學生了解多元統(tǒng)計分析的主要范疇、功能;3 回顧相關的矩陣理論和多元正態(tài)分布理論;4 闡述多元數(shù)據(jù)的表示方法?!窘虒W重點】1 從一元到多元的過度;2 多元正態(tài)理論及其相關命題。§1 引言一、 什么是多元統(tǒng)計分析在實踐中,常會碰到需要同時觀測若干指標的問題。例如衡量一個地區(qū)的經(jīng)濟

2、發(fā)展水平:總產(chǎn)值、利潤、效益、勞動生產(chǎn)率等;在醫(yī)學診斷中,有病還是無病,需做多項檢測:血壓、體溫、心跳、白血球等 實際上,每項指標都是隨機變量。提出問題:如何同時對多個隨機變量的觀測數(shù)據(jù)進行有效的分析和處理?有兩種做法:分開研究;同時研究。但前者會損失一定的信息量。多元統(tǒng)計分析就是研究多個隨機變量之間相互依賴關系以及內(nèi)在統(tǒng)計規(guī)律的一門學科,利用其中的不同方法可對研究對象進行分類和簡化。二、 多元統(tǒng)計分析的產(chǎn)生和發(fā)展11928年Wishert發(fā)表論文多元正態(tài)總體樣本協(xié)方差陣的精確分布,是多元統(tǒng)計分析的開端;220世紀30年代,F(xiàn)isher, Hotelling, 許寶碌等奠定了多元統(tǒng)計分析的理論

3、基礎;320世紀40年代,在心理學、教育學、生物學等方面有不少應用,但由于計算量大,發(fā)展受到限制;420世紀50年代中期,隨著計算機的出現(xiàn)和發(fā)展,使多元分析方法在地質(zhì)、氣象、醫(yī)學和社會學方面得到廣泛應用;520世紀60年代,通過應用和實踐又完善和發(fā)展了理論,使得它的應用范圍更廣;620世紀70年代初期,才在我國受到各個領域的極大關注,近30多年在理論上和應用上都取得了若干新進展。三、 多元統(tǒng)計分析的主要范疇(研究內(nèi)容)在對社會、經(jīng)濟、技術系統(tǒng)的認識過程中,都需要收集和分析大量表現(xiàn)系統(tǒng)特征和運行狀態(tài)的數(shù)據(jù)信息。這類原始數(shù)據(jù)集合往往由于樣本點數(shù)量巨大,用于刻畫系統(tǒng)特征的指標變量眾多,并且?guī)в袆討B(tài)特

4、性,而形成規(guī)模宏大、復雜難辨的數(shù)據(jù)海洋。如何分析和認識高維復雜數(shù)據(jù)集合中的內(nèi)在規(guī)律性,簡明扼要地把握系統(tǒng)的本質(zhì)特征;如何對高維數(shù)據(jù)集合進行最佳綜合,迅速將隱藏在其中的重要信息集中提取出來;如何充分發(fā)掘數(shù)據(jù)中的豐富內(nèi)涵,清晰地展示系統(tǒng)結(jié)構,準確地認識系統(tǒng)元素的內(nèi)在聯(lián)系,以及直觀地描繪系統(tǒng)的運動歷程。利用統(tǒng)計學和數(shù)學方法,對多維復雜數(shù)據(jù)集合進行科學分析的理論和方法,就是多元統(tǒng)計數(shù)據(jù)分析研究的基本內(nèi)容。其主要范疇包括:多元正態(tài)總體的參數(shù)估計和假設檢驗以及常用的統(tǒng)計方法。具體地有:多元數(shù)據(jù)圖表示法;多元回歸分析;聚類分析;判別分析;主成分分析;因子分析;對應分析;典型相關分析;路徑分析;多維標度分析等

5、。四、 多元統(tǒng)計分析的功能和應用領域主要用于對高維數(shù)據(jù)進行處理,包括:簡化數(shù)據(jù)和數(shù)據(jù)結(jié)構、能夠進行假設檢驗、進行分類和組合、進行相應的評價、預測、控制等。主要用于:經(jīng)濟學、醫(yī)學、教育學、心理學、體育科學、生態(tài)學、地質(zhì)學、社會學、考古學、軍事科學、環(huán)境科學、文學等。五、 如何學習多元統(tǒng)計分析可以說多元統(tǒng)計分析課程有兩種講授方法和學習方式:一是重理論推導型;二是重實證應用型。我們的講授以實證應用為主,輔以部分的理論介紹。同學們應該重點學習多元統(tǒng)計分析中各種常用的分析方法,領悟與掌握各種方法的實際背景、基本思想、理論依據(jù)、應用場合和可能結(jié)論,同時對每種方法會解決實際問題。每一部分都配有相應的案例 這

6、些案例都有相應的經(jīng)濟背景,以后學生可在論文寫作和畢業(yè)工作中套用這些模式。,請同學在上機的時候完成,也作為平時作業(yè)給予相應的成績。六、 先修課程1線性代數(shù)2概率論3數(shù)理統(tǒng)計4相應的統(tǒng)計軟件5經(jīng)濟學七、 統(tǒng)計和計算機和統(tǒng)計軟件現(xiàn)代生活越來越離不開計算機了。最早使用計算機的統(tǒng)計當然更離不開計算機了。事實上,最初的計算機僅僅是為科學計算而設計和建造的。大型計算機的最早一批用戶就包含統(tǒng)計。而現(xiàn)在統(tǒng)計仍然是進行數(shù)字計算最多的用戶。當然計算機現(xiàn)在早已脫離了僅有數(shù)字計算功能的單一模式,而成為百姓生活的一部分。計算機的使用,也從過去必須學會計算機語言到只需要“傻瓜式”地點擊鼠標。結(jié)果也從單純的數(shù)字輸出到包括漂亮

7、的表格和圖形在內(nèi)的各種形式。統(tǒng)計軟件的發(fā)展,也使得統(tǒng)計從統(tǒng)計學家的圈內(nèi)游戲變成了大眾的游戲。只要輸入你的數(shù)據(jù),點幾下鼠標,做一些選項,馬上就得到令人驚嘆的漂亮結(jié)果了。人們可能會問,是否傻瓜式統(tǒng)計軟件的使用可以代替統(tǒng)計課程了?當然不是。數(shù)據(jù)的整理和識別,方法的選用,計算機輸出結(jié)果的理解都不象使用傻瓜相機那樣簡單可靠。有些諸如法律和醫(yī)學方面的軟件都有不少警告,不時提醒你去咨詢專家。但統(tǒng)計軟件則不那么負責。只要數(shù)據(jù)格式無誤、選項不矛盾而且不用零作為除數(shù)就一定給你結(jié)果,而且?guī)缀鯖]有任何警告。另外,統(tǒng)計軟件輸出的結(jié)果太多;即使是同樣的方法,不同軟件輸出的內(nèi)容還不一樣;有時同樣的內(nèi)容名稱也不一樣。這就使得

8、使用者大傷腦筋。即使是統(tǒng)計學家也不一定能解釋所有的輸出。因此,就應該特別留神,明白自己是在干什么。不要在得到一堆毫無意義的垃圾之后還沾沾自喜。統(tǒng)計軟件的種類很多。有些功能齊全,有些價格便宜;有些容易操作,有些需要更多的實踐才能掌握。還有些是專門的軟件,只處理某一類統(tǒng)計問題。面對太多的選擇往往給決策帶來困難。這里介紹最常見的幾種。1 SPSS:這是一個很受歡迎的統(tǒng)計軟件;它容易操作,輸出漂亮,功能齊全,價格合理。它也有自己的程序語言,但基本上已經(jīng)“傻瓜化”。它對于非專業(yè)統(tǒng)計工作者是很好的選擇。2 SAS:這是功能非常齊全的軟件;盡管價格相當不菲,許多公司,特別是美國制藥公司,還是因為其功能眾多和

9、某些美國政府機構認可而使用。盡管現(xiàn)在已經(jīng)盡量“傻瓜化”,但仍然需要一定的訓練才可以進入。也可以對它編程;但對于基本統(tǒng)計課程則不那么方便。3 Statistica:也是功能強大而齊全的“傻瓜化”的軟件,在我國用的也不如SAS與SPSS那么普遍。4 Excel:它嚴格說來并不是統(tǒng)計軟件,但作為數(shù)據(jù)表格軟件,必然有一定統(tǒng)計計算功能。而且凡是有Microsoft Office的計算機,基本上都裝有Excel。但要注意,有時在裝Office時沒有裝數(shù)據(jù)分析的功能,那就必須裝了才行。當然,畫圖功能是已經(jīng)具備的了。對于簡單分析,Excel還算方便,但隨著問題的深入,Excel就不那么“傻瓜”,需要使用宏命令

10、來編程;這時就沒有相應的簡單選項了。多數(shù)專門一些的統(tǒng)計推斷問題還需要其他專門的統(tǒng)計軟件來處理。5 S-plus:這是統(tǒng)計學家喜愛的軟件。不僅由于其功能齊全,而且由于其強大而又方便的編程功能,使得研究人員可以編制自己的程序來實現(xiàn)自己的理論和方法。它也在進行“傻瓜化”以爭取顧客。但仍然以編程方便為顧客所青睞。6 R軟件:這是一個免費的,由志愿者管理的軟件。其編程語言與S-plus所基于的S語言一樣,很方便。還有不斷加入的從事各個方向研究的統(tǒng)計學家編寫的統(tǒng)計軟件包。同時從網(wǎng)上可以不斷更新和增加有關的軟件包和程序。這是發(fā)展最快的軟件,受到世界上統(tǒng)計師生的歡迎。是用戶量增加最快的統(tǒng)計軟件。它的語言結(jié)構和

11、C+、Fortran、Matlab、Pascal、Basic等很相似,容易舉一反三。對于一般非統(tǒng)計工作者來說,主要問題是它沒有“傻瓜化”。7 Minitab:這個軟件是很方便的功能強大而又齊全的軟件,也已經(jīng)“傻瓜化”,在我國用的不如SPSS與SAS那么普遍。8 MATLAB:這也是應用于各個領域的以編程為主的軟件,在工程上應用廣泛。編程類似于S和R。但是統(tǒng)計函數(shù)不多。9 Eviews:這是一個處理回歸和時間序列等問題很方便的軟件。10 GAUSS:這是一個很好用的統(tǒng)計軟件,許多搞經(jīng)濟的喜歡它。主要也是編程功能強大。目前在我國使用的人不多。11 FORTRAN:這是應用于各個領域的歷史很長的非常

12、優(yōu)秀的編程軟件,功能強大,也有許多數(shù)學軟件包和一些統(tǒng)計軟件包。由于可以編譯成機器語言,計算速度比這里介紹的其他軟件都快得多。但需要編程和編譯。當然,還有很多其他的軟件,沒有必要一一羅列。其實,聰明的讀者只要學會使用一種“傻瓜式”軟件,使用其他的軟件也不會困難;最多看看幫助和說明即可。如果只有英文幫助,那還可以順便提高你的英文閱讀能力。學習軟件的最好方式是需要時在使用中學。八、 幾點要求1 復習矩陣代數(shù)及數(shù)理統(tǒng)計的有關內(nèi)容;2 及時消化課堂內(nèi)容;3 按時完成作業(yè);4 其它事項。九、 參考書目1 孫慧鈞:多元統(tǒng)計分析方法與應用,內(nèi)蒙古大學出版社,1997年8月。2 于秀林、任雪松:多元統(tǒng)計分析,中

13、國統(tǒng)計出版社,1999年8月。3 羅積玉、邢英:經(jīng)濟統(tǒng)計分析方法及預測,清華大學出版社,1987年8月。4 何曉群:應用回歸分析,中國人民大學出版社,2001年6月。5 Ruchard A. Johnson & Dean W. Wichern著,陸璇譯:實用多元統(tǒng)計分析,清華大學出版社,2001年4月。6 張堯庭、方開泰:多元統(tǒng)計分析引論,科學出版社,1997年8月(第三次印刷)。7 方開泰:實用多元統(tǒng)計分析,華東師范大學出版社,1989年9月。8 胡國定,張潤楚:多元數(shù)據(jù)分析方法純代數(shù)處理,南開大學出版社,1990年。9 張潤楚:多元統(tǒng)計理論與數(shù)據(jù)分析方法(校內(nèi)講義),南開大學數(shù)學科

14、學學院,2003年2月。10 任若恩:多元統(tǒng)計數(shù)據(jù)分析理論、方法、實例,國防工業(yè)出版社,1997年6月。11 郭志剛:社會統(tǒng)計分析方法SPSS軟件應用,中國人民大學出版社,1999年12月。12 盧紋岱、朱一力、沙捷、朱紅兵:Spss for Wingdows從入門到精通,電子工業(yè)出版社,1997年6月。13 易丹輝:STATISTICA6.0,中國統(tǒng)計出版社,2002、10;14 Anderson,T.W.(1984), An Introduction to Multivariate Statistical Analysis, 2nd ed., New York: John Wiley &a

15、mp; Sons.15 Eaton,M.L.(1983), Multivariate Statistics:A Vector Space Approach, New York: John Wiley & Sons.16 Johnson,R.A. and Wichern,D.W.(1982), Applied Multivariate Statistical Analysis, New York: Prentice-Hall, Inc.§2 矩陣理論及隨機向量 這里討論的均值向量和協(xié)方差矩陣均為總體的,實際上還可以討論樣本均值向量和樣本協(xié)方差矩陣。一些概念和結(jié)論可以從一元隨機變

16、量那兒推廣過來。本節(jié)主要介紹多元統(tǒng)計分析中用到的矩陣和向量代數(shù)知識,以及將概率論及數(shù)理統(tǒng)計中的隨機變量理論推廣到隨機向量。一、 矩陣代數(shù) 可以參閱經(jīng)濟學家的數(shù)學手冊一書。1 單位矩陣:,;2 對稱矩陣:;3 轉(zhuǎn)置運算:;4 逆運算:;5 矩陣乘法:;6 矩陣的跡:主對角線元素之和 這里為矩陣的特征根。;7 正交矩陣 正交矩陣的各行和各列分別都是正交的。:或;8 冪等矩陣:;9 投影矩陣:對稱的冪等矩陣;10 平方根矩陣:因正定,必存在正交矩陣,使得二、 隨機向量和隨機矩陣隨機向量是元素為隨機變量的向量;隨機矩陣是元素為隨機變量的矩陣。定義1:設,若對于任意的,均為隨機變量,則稱為維隨機向量。定

17、義2:設中每一個元素均為隨機變量,則稱為維隨機矩陣。三、 隨機向量及其分布設為一維隨機向量,如果該向量在空間中存在概率分布,即對任何,概率存在。并稱元函數(shù)為的分布函數(shù),記,稱服從分布,也稱為的聯(lián)合分布函數(shù)。如果一個隨機向量,有空間中的非負函數(shù)使得其分布函數(shù)可表為積分,為連續(xù)型隨機向量,則稱為的概率分布密度函數(shù)(簡記為pdf)。四、 均值向量和協(xié)方差矩陣1均值向量和均值矩陣設,若,存在,則稱為隨機向量的均值向量。同理,稱為隨機矩陣的期望矩陣或均值矩陣。2協(xié)方差矩陣(方差-協(xié)方差矩陣)令,則稱為隨機向量的協(xié)方差矩陣。那么由的定義知NOTE:協(xié)方差陣的特點:,對于任意的,即為對稱矩陣;當時,為第個分

18、量的方差;對于任意的,表示的第個分量與第個分量的協(xié)方差。若,則稱與是互不相關的 在概率論中,我們已經(jīng)知道,若與相互獨立,則它們互不相關,但反之未必成立。3相關系數(shù)矩陣令(),則為變量與的相關系數(shù),它度量了隨機變量與之間的線性相關程度 的值越在,說明與之間的線性相關程度越大,反之越小。當時,與正相關;當時,與負相關。則稱階矩陣為隨機變量的相關系數(shù)矩陣。若記,則。若已知,則與之間相互確定。事實上, 左乘是行變換,右乘是列變換。作業(yè)五、 隨機向量線性變換的均值向量和協(xié)方差矩陣設是維隨機向量,為階常數(shù)矩陣,為維向量,令,則為維隨機向量。1;2作業(yè):設和分別為維和維隨機向量,定義 稱為互協(xié)方差矩陣,描述

19、隨機向量之間的線性相關關系。,且和分別為和維常數(shù)矩陣,則有下面結(jié)論:3六、 隨機向量的二次型設為維隨機向量,為階對稱矩陣,則稱隨機變量為的二次型。1設,則。其中表示矩陣的對角線上的元素和。特別地,(1)若,則;(2)若,則;(3)若,則。§3 多元正態(tài)分布及其推廣 除多元正態(tài)分布,還有其它許多重要的多元分布,如:橢球等高分布簇、多元指數(shù)型分布簇、其它一些多元分布(這些多元分布可以由一元分布推廣而得到,主要的推廣方法有:直接推廣法、共成分推廣法、隨機推廣法)。多元正態(tài)分布是多元統(tǒng)計分析的基礎,其地位如同一元統(tǒng)計分析中的一元正態(tài)分布一樣。把我們熟悉的一元正態(tài)分布向多元推廣,在多元分析中起

20、著十分重要的作用。多元統(tǒng)計中的大多數(shù)方法都是基于數(shù)據(jù)從一個多元正態(tài)分布生成的假設。雖然實際的數(shù)據(jù)從來不會恰好是多元正態(tài)的,然而正態(tài)分布常常是“真實的”總體分布的一種有效近似。正態(tài)分布的重要性在于它的雙重作用,既可作為某些自然現(xiàn)象總體模型,又可作為許多統(tǒng)計量近似的抽樣分布。一、 多元正態(tài)的概率密度及其性質(zhì)1多元正態(tài)概率密度多元正態(tài)分布是一元正態(tài)向維的推廣。定義:若隨機變量的概率密度函數(shù)為則稱具有均值為,方差為的正態(tài)隨機變量,記為。定義:若維隨機向量的密度函數(shù)為其中,是正定矩陣,則稱服從元正態(tài)分布,記作:。NOTE:當時,即為一元正態(tài)分布密度函數(shù);為的均值,為的協(xié)方差矩陣;當時,該定義有缺陷,采取

21、下面的定義方式。定義:獨立標準正態(tài)變量的有限組合稱為維正態(tài)隨機向量,記為,其中。NOTE:這種定義是用多個正態(tài)變量的任意線性組合給出多元正態(tài)隨機向量的定義,其優(yōu)點是多元正態(tài)的某些性質(zhì),可用一元正態(tài)性質(zhì)得到;除此之外,還有特征函數(shù)的定義。重要特例:二元正態(tài)分布重要的參數(shù)有:。當時,與不相關,此時有所以與相互獨立。即對于二元正態(tài)變量來說,與不相關與相互獨立。% 多元正態(tài)概率密度函數(shù)圖源代碼mu=1,-1;Sigma = 1 0; 0 1; X = mvnrnd(mu,Sigma,10000); p = mvnpdf(X,mu,Sigma);plot3(X(:,1),X(:,2),p);二、 多元正

22、態(tài)變量的基本性質(zhì)1 若,是對角矩陣,則相互獨立;2 若,則對于任意維向量,有;反之,若對于任意維向量,有,則;推論:若,則對于任意的,有且成立。即正態(tài)變量的任何一個分量仍是正態(tài)變量,任何兩個分量的和與差均為正態(tài)變量;3 若,為常數(shù)矩陣,為維常數(shù)向量,則,且,即正態(tài)隨機向量的線性函數(shù)還是正態(tài)的;推論1:若,則;推論2:若,則;4 若,將可以作如下分割,則,;例如:若,記,則,其中,;。5 設,則與相互獨立。6 設,且與相互獨立,則NOTE:多元正態(tài)分布的任何邊緣分布都是正態(tài)分布,但反之不真;由于,故表示與不相關;對于多元正態(tài)變量來說,與不相關與獨立是等價的;要判斷一批數(shù)據(jù)是否來自正態(tài)總體較困難,

23、但反過來卻有簡易的方法 如果服從多元正態(tài)分布,則它的每個分量必服從一元正態(tài)分布。一元正態(tài)分布的檢驗方法比較成熟,常用的有:直方圖,P-P圖,Q-Q圖,正態(tài)概率紙,K-S檢驗,卡方擬合優(yōu)度檢驗等。;對于非正態(tài)數(shù)據(jù)可以通過冪指數(shù)變換和Box-Cox變換成近似正態(tài)。三、 多元正態(tài)分布的參數(shù)估計設,其均值向量和協(xié)差陣未知。1多元樣本的概率及表示從多元總體中隨機抽取個個體:,若它們相互獨立且與總體同分布,則稱為該總體的一個多元隨機樣本,簡稱簡單樣本。將個樣品對個指標進行觀測,結(jié)果如下 行代表樣品,列代表指標。其中,。把每個樣品看作一個隨機向量,因此就是一個隨機矩陣,為觀測矩陣或樣本資料庫。NOTE:多元

24、樣本中的每個樣品,對個指標的觀測值往往有相關關系,但不同樣品之間的觀測值一定相互獨立;多元分析處理的多元數(shù)據(jù)一般都屬于橫截面數(shù)據(jù)(PANEL DATA),如果是時序數(shù)據(jù)則屬于多元時間序列分析的范疇。2多元樣本的數(shù)字特征 樣本均值向量和樣本協(xié)差陣也可用樣本資料陣直接表示,詳見教材P26。定義:設為來自元總體的樣本,其中()(1)樣本均值可定義為(2)樣本離差陣可定義為(3)樣本協(xié)差陣可定義為(4)樣本相關陣可定義為3多元正態(tài)分布參數(shù)的極大似然估計及其基本性質(zhì)(1)極大似然估計的定義、基本步驟定義步驟:STEP01:求樣本似然函數(shù);STEP02:求對數(shù)似然函數(shù);STEP03:求似然函數(shù)的極大化。(

25、2)一元正態(tài)分布參數(shù)的極大似然估計(3)多元正態(tài)分布參數(shù)的極大似然估計為了方便地求解參數(shù)地極大似然估計,先引入如下引理。引理:設為階對稱正定矩陣,常數(shù),則對任意正定矩陣,有僅當時,等號成立。定理:設,為來自的樣本,則,分別是和的極大似然估計量,其觀測值稱為和的極大似然估計值。(4)極大似然估計量的基本性質(zhì)無偏性:,即是的無偏估計;,即不是的無偏估計;而,即是的無偏估計;,分別是,的有效估計;,(或)分別是,的一致估計(相合估計)。樣本均值向量和樣本離差陣在多元統(tǒng)計推斷中具有十分重要的作用,并有如下結(jié)論:定理:設和分別是正態(tài)總體的樣本均值向量和離差陣,則(1);(2)離差陣可以寫為:,其中獨立同

26、分布于;(3)與相互獨立;(4)為正定矩陣的充要條件是。四、 多元正態(tài)分布的變形形式 在介紹這些分布之前,應該首先介紹二次型的分布。在一元統(tǒng)計分析中,我們有,和等一些基本統(tǒng)計量分布,以這些分布作為基礎對一元統(tǒng)計問題進行推斷。和一元情形一樣,多元統(tǒng)計分析也需要建立一些基本的多元統(tǒng)計量分布作為多元統(tǒng)計問題分析的基礎。Wishart分布,分布和分布等分布就是其中的最重要的幾種。Wishart于20世紀20年代導出Wishart分布,后來又由Hotelling, Wilks, 許寶祿等人建立了和等分布,這些為多元分析奠定了基礎。1Wishart分布及其性質(zhì)首先回顧分布定義。如果為獨立同分布于,則;如果

27、相互獨立,且各自的分布分別為,則,其中。(1)定義(兩種形式的定義)首先從形式上推廣,有矩陣形式的定義。定義:設且相互獨立,則由組成的隨機矩陣的分布稱為非中心Wishart分布,記為。其中,稱為分布的自由度;為非中心參數(shù)。當時,該分布稱為中心的Wishart分布,記為。NOTE:顯然Wishart分布是分布在維正態(tài)情況下的推廣,因為當時,就是,其中為非中心參數(shù)。其次給出它的密度形式定義,這是由Wishart(1928)導出的。這里只給出它的中心分布的密度形式,非中心分布的密度比它復雜。定義:設為階對稱隨機矩陣,并以概率1正定。如果其上對角塊元素有密度函數(shù)(2)基本性質(zhì)性質(zhì)1:若,且與相互獨立,

28、則。性質(zhì)2:若,則。2Hotelling 分布在一元統(tǒng)計中,若來自總體的樣本,則統(tǒng)計量:其中,。事實上,則顯然,其中,(1)定義定義:設,且與相互獨立,則稱統(tǒng)計量的分布為非中心Hotelling 分布,記為。NOTE:該分布首先由Harold Hotelling提出,我國統(tǒng)計學家許寶祿于1938年用不同的方法也導出了分布的密度函數(shù);由定義可知,該分布是一元分布的多元推廣。(2)性質(zhì)在一元統(tǒng)計中,若統(tǒng)計量分布,則分布,即把分布的統(tǒng)計量轉(zhuǎn)化統(tǒng)計量來處理,在多元統(tǒng)計分析中統(tǒng)計量也有類似性質(zhì)。若,且與相互獨立,令,則3Wilks 分布回顧一元時的Beta分布。設,且相互獨立,則。下面引入多元情形下的類

29、似分布。(1)定義定義:設,且與相互獨立,則稱為Wilks統(tǒng)計量,的分布為Wilks分布,簡記為。其中,為自由度。NOTE:當時,顯然正好是一元統(tǒng)計中的Beta分布,因此它是Beta分布在多元情形的推廣;分布還有一些非常特殊的形式;在實際應用中,經(jīng)常把統(tǒng)計量化為統(tǒng)計量進而轉(zhuǎn)化為統(tǒng)計量,利用統(tǒng)計量來解決多元統(tǒng)計分析中有關檢驗問題。事實上,當時,用代替,可以得到它們之間的關系如下:(2)性質(zhì)性質(zhì)1:,其中,相互獨立。性質(zhì)2:和具有相同的分布。五、 多元變量的正態(tài)性檢驗1和的抽樣分布定理:設,是來自總體的樣本,有,則:(1);(2);(3)與是相互獨立的。2和的大樣本特性在一元中,無論總體的分布類型

30、如何,由中心極限定理知,樣本均值近似服從正態(tài)分布,只要樣本容量充分大。這個結(jié)論對于多元也成立。定理(中心極限定理):設是來自任何有均值與有極限協(xié)方差矩陣的總體的獨立觀測結(jié)果,則對大樣本容量有又因為當充分大時,依概率收斂到,從而3多元正態(tài)分布的檢驗根據(jù)正態(tài)分布的性質(zhì),多元正態(tài)分布的邊緣分布是正態(tài)分布,且多元正態(tài)密度的輪廓線是橢球面,因此,可以提出下面幾個問題:(1)的每個分量的邊緣分布是否是正態(tài)?分量的幾個線性組合是否是正態(tài)?(2)根據(jù)各種特征的觀測結(jié)果所作出的散布圖,是否呈現(xiàn)出正態(tài)總體期望的橢圓形狀?(3)是否存在應該進行檢驗以確保精確度的“雜亂”觀測值?問題可以轉(zhuǎn)化為一元正態(tài)性的檢驗和二元正

31、態(tài)性的檢驗,現(xiàn)將其敘述如下:二元正態(tài)分布的檢驗方法:方法1:輪廓線如果觀測值是一個從多元正態(tài)分布生成的,則每個二元分布是正態(tài)變量,其常數(shù)密度輪廓線應是橢圓;散布圖顯示一個近乎橢圓的形狀,從而與這個結(jié)構一致。方法2:卡方圖在判斷一個數(shù)據(jù)集的聯(lián)合正態(tài)性時,一種更正式一些的方法是基于廣義平方距離:其中是樣本觀測值。當總體是多元正態(tài)的且與都很大時,構造卡方圖的方法:4多元正態(tài)數(shù)據(jù)的獲得如果數(shù)據(jù)不是來自正態(tài)總體,則許多統(tǒng)計方法就不能直接使用,為此,我們考慮通過數(shù)據(jù)變換,使非正態(tài)數(shù)據(jù)變成更接近正態(tài)的數(shù)據(jù)。在適當?shù)臄?shù)據(jù)變換后,就可以實現(xiàn)正態(tài)理論分析。而Box-Cox變換可以實現(xiàn)這一使命。§4 關于

32、均值向量和協(xié)差陣的推斷從本節(jié)開始,就轉(zhuǎn)入多元統(tǒng)計學的方法論,將集中討論關于總體均值向量及其分量的統(tǒng)計推斷問題。雖然將從假設檢驗開始統(tǒng)計推斷的討論,但最終目的還是要基于聯(lián)合置信域的形式給出均值向量諸分量的一個完整的統(tǒng)計分析。多元分析的精髓之一就是必須對個相關變量同時進行分析。一、 均值向量的檢驗1均值向量的檢驗2協(xié)差陣相等時,兩個正態(tài)總體均值向量的檢驗3協(xié)差陣不等時,兩個正態(tài)總體均值向量的檢驗4多個正態(tài)總體均值向量的檢驗(多元方差分析)二、 協(xié)差陣的檢驗1一個正態(tài)總體協(xié)差陣檢驗2多個協(xié)差陣相等檢驗§5 多元數(shù)據(jù)的圖形分析法一、 問題提出圖形有助于對數(shù)據(jù)的直觀了解,一般只能給出1維、2維和3維的圖形。但在許多實際問題中,多元數(shù)據(jù)的維數(shù)都大于3。自20世紀70年代以來,關于多元數(shù)據(jù)的圖表示法,人們設計了不少的辦法,大體上可以分為兩類:第一,使高維空間的點與平面上的某種圖形對應,這種圖形能反映高維數(shù)據(jù)的某些特點或數(shù)據(jù)間的某些關系;第二,在盡可能多地保留原數(shù)據(jù)信息的原則下降維,若能將數(shù)據(jù)維 降維的方法主要有:主成分分析、因子分析等。數(shù)降至3維或以下,則可以在空間、平面上進行作圖。二、 輪廓圖1作圖步驟2圖形樣式三、 雷達圖(蛛網(wǎng)圖)1作圖步驟2圖形樣式NOTE:只有正半軸,負的數(shù)據(jù)要作適當?shù)淖儞Q;可將數(shù)據(jù)進行標準化后作圖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論