




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
多元統(tǒng)計引論及描述統(tǒng)計實現(xiàn)詳解演示文稿1第一頁,共一百零四頁。優(yōu)選多元統(tǒng)計引論及描述統(tǒng)計實現(xiàn)2第二頁,共一百零四頁。第一章緒論第二章多元正態(tài)分布及參數(shù)的估計第三章多元正態(tài)總體參數(shù)的假設檢驗第四章回歸分析--第五章判別分析第六章聚類分析第七章主成分分析第八章因子分析第九章對應分析方法第十章典型相關分析第十一章偏最小二乘回歸分析本課程的內(nèi)容多變量分析(數(shù)據(jù)結構簡化)分類方法兩組變量的相關分析基礎理論兩組變量的相依分析3第三頁,共一百零四頁。
第0章緒論
§0.1引言
在實際問題中,很多隨機現(xiàn)象涉及到的變量不止一個,而經(jīng)常是多個變量,而且這些變量間又存在一定的聯(lián)系。我們常常需要處理多個變量的觀測數(shù)據(jù)。例如考察學生的學習情況時,就需了解學生在幾個主要科目的考試成績。
下表給出從中學某年級隨機抽取的12名學生中5門主要課程期末考試成績。4第四頁,共一百零四頁。第0章緒論
§0.1引言序號政治語文外語數(shù)學物理
199949310010029988969997310098819610049388889996510091729678690788275977757388978989384836888987736076841095829062391176724367781285755034375第五頁,共一百零四頁。第0章緒論
§0.1引言--多元分析的研究對象和內(nèi)容
上表提供的數(shù)據(jù),如果用一元統(tǒng)計方法,勢必要把多門課程分開分析,每次分析處理一門課的成績。這樣處理,由于忽視了課程之間可能存在的相關性,因此,一般說來,丟失信息太多。分析的結果不能客觀全面地反映某年級學生的學習情況。本課程要討論的多元分析方法,它同時對多門課程成績進行分析。這樣的分析對這些課程之間的相互關系、相互依賴性等都能提供有用的信息。6第六頁,共一百零四頁。第0章緒論
§0.1引言--多元分析的研究對象和內(nèi)容
由于大量實際問題都涉及到多個變量,這些變量又是隨機變化,如學生的學習成績隨著被抽取學生的不同成績也有變化(我們往往需要依據(jù)它們來推斷全年級的學習情況)。所以要討論多維隨機向量的統(tǒng)計規(guī)律性。
多元統(tǒng)計分析就是討論多維隨機向量的理論和統(tǒng)計方法的總稱。
多元統(tǒng)計分析研究
的對象就是多維隨機向量.7第七頁,共一百零四頁。第0章緒論
§0.1引言--多元分析的研究對象和內(nèi)容就以學生成績?yōu)槔?,我們可以研究很多問題:用各科成績的總和作為綜合指標來比較學生學習成績的好壞(如成績好的與成績差的,又如文科成績好的與理科成績好的);研究各科成績之間的關系(如物理與數(shù)學成績的關系,文科成績與理科成績的關系);……等等。所有這些都屬于多元統(tǒng)計分析的研究內(nèi)容。
8第八頁,共一百零四頁。第0章緒論
§0.1引言--多元分析的研究對象和內(nèi)容
綜上所述,多元分析以p個變量的n次觀測數(shù)據(jù)組成的數(shù)據(jù)矩陣
x11
x12…x1p
x21
x22…x2p….….….….xn1
xn2…xnpX=為依據(jù)。根據(jù)實際問題的需要,給出種種方法。英國著名統(tǒng)計學家M.肯德爾(M.G.Kendall)在《多元分析》一書中把多元分析所研究的內(nèi)容和方法概括為以下幾個方面:9第九頁,共一百零四頁。第0章緒論
§0.1引言--多元分析的研究對象和內(nèi)容
1.簡化數(shù)據(jù)結構(降維問題)
例如通過變量變換等方法使相互依賴的變量變成互不相關的;或把高維空間的數(shù)據(jù)投影到低維空間,使問題得到簡化而損失的信息又不太多.主成分分析,因子分析,對應分析等多元統(tǒng)計方法就是這樣的一類方法。2.分類與判別(歸類問題)
對所考查的對象(樣品點或變量)按相似程度進行分類(或歸類)。聚類分析和判別分析等方法是解決這類問題的統(tǒng)計方法。10第十頁,共一百零四頁。第0章緒論
§0.1引言--多元分析的研究對象和內(nèi)容
3.變量間的相互聯(lián)系(1)相互依賴關系:分析一個或幾個變量的變化是否依賴于另一些變量的變化?如果是,建立變量間的定量關系式,并用于預測或控制---回歸分析.(2)變量間的相互關系:分析兩組變量間的相互關系---典型相關分析等.(3)兩組變量間的相互依賴關系---偏最小二乘回歸分析.11第十一頁,共一百零四頁。
第0章緒論
§0.1引言--多元分析的研究對象和內(nèi)容
5.多元統(tǒng)計分析的理論基礎
包括多維隨機向量及多維正態(tài)隨機向量,及由此定義的各種多元統(tǒng)計量,推導它們的分布并研究其性質,研究它們的抽樣分布理論。這些不僅是統(tǒng)計估計和假設檢驗的基礎,也是多元統(tǒng)計分析的理論基礎。
4.多元數(shù)據(jù)的統(tǒng)計推斷
參數(shù)估計和假設檢驗問題.特別是多元正態(tài)分布的均值向量和協(xié)差陣的估計和假設檢驗等問題。12第十二頁,共一百零四頁。第0章
緒論
§0.2
多元統(tǒng)計分析的應用領域--教育學
多元統(tǒng)計分析是解決實際問題有效的數(shù)據(jù)處理方法。隨著電子計算機使用的日益普及,多元統(tǒng)計方法已廣泛地應用于自然科學,社會科學的各個方面。以下我們列舉多元分析的一些應用領域。從中可看到多元分析應用的廣度和深度。1.教育學
n個考生報考北大概率統(tǒng)計系.每個考生參加7門課(語文、數(shù)學、政治、外語、物理、化學、生物)的考試,各門課成績記為Yj1,Yj2,…,Yj7。又每個考生在高中學習期間,p門主要課程成績?yōu)閄j1,Xj2,…,Xjp(j=1,2,…,n
)。經(jīng)對這大量的資料作統(tǒng)計分析,我們能夠得出:
13第十三頁,共一百零四頁。第0章緒論
§0.2多元統(tǒng)計分析的應用領域--教育學
(1)高考成績和高中學習期間成績的關系,即給出兩組變量線性組合間的關系,從而可由考生在高中期間的學習成績來預報高考的綜合成績或某科目的成績.
(2)給出考生成績次序排隊的最佳方案(最佳組合).總分可以體現(xiàn)一個考生成績好壞,但對報考概率統(tǒng)計系的學生,按總分從高到低的順序錄取并不是最合適的.應按適當?shù)臋鄶?shù)加權求和.如數(shù)學、物理、外語的權數(shù)相對高些.
14第十四頁,共一百零四頁。第0章緒論
§0.2多元統(tǒng)計分析的應用領域--教育學
(3)利用n個學生在高中學習期間p門主科的考試成績,可對學生進行分類,如按文、理科成績分類,按總成績分類等。若準備給優(yōu)秀學生發(fā)獎,那么一等獎、二等獎的比例應該是多少?應用多元統(tǒng)計分析的方法可以給出公平合理地確定。15第十五頁,共一百零四頁。教育學--
主成分分析在學生學習成績排序中的應用
我在擔任學生班主任期間,經(jīng)常會遇到學校下達的評選三好生,評選學習獎等任務.另還有評選各種獎學金的工作;推薦研究生的工作都要求班主任提出意見.
如何利用全班學生在校幾年中主要課程的學習成績及各方面的表現(xiàn)更科學,更合理地進行評選?應用多元統(tǒng)計分析中的主成分方法可以給出公平合理地確定.16第十六頁,共一百零四頁。教育學--
主成分分析在學生學習成績排序中的應用
比如全班有40名學生,本科生四年中主要課程包括基礎課,專業(yè)基礎課,本專業(yè)的限選課,設共有12門課.從教務可以得到全班40名學生這12門課的成績,組成的40行12列的數(shù)據(jù)陣X就是我們的原始數(shù)據(jù).
(1)全班學生綜合成績的排序
評選三好生,評選學習獎,推薦研究生的工作首先都要了解全班學生的學習情況.17第十七頁,共一百零四頁。教育學--
主成分分析在學生學習成績排序中的應用
12門課的成績可看成12個變量,這是多指標(變量)系統(tǒng)的排序評估問題。這類問題在實際工作中經(jīng)常會迂到,比如對某類企業(yè)的經(jīng)濟效益進行評估比較,影響企業(yè)經(jīng)濟效益的指標有很多,如何更科學、更客觀地將一個多指標問題綜合為單個綜合變量的形式.
主成分分析方法為樣品排序或多指標系統(tǒng)評估提供可行的方法.
18第十八頁,共一百零四頁。教育學--
主成分分析在學生學習成績排序中的應用
這里把12門課的成績看成12個變量,這些變量是相關的,有的相關性強些,有的相關性一般些。用主成分分析方法從12個相關的變量中可以綜合得出幾個互不相關的主成分--它們是原始變量的線性組合。其中第一主成分綜合原始變量的信息最多(一般在70%以上),我們就用第一主成分(即單個綜合指標)替代原來的12個變量;然后計算第一主成分的得分并進行排序。19第十九頁,共一百零四頁。教育學--
主成分分析在學生學習成績排序中的應用最簡單最直觀地綜合變量就是12門課的成績總和。但這個最簡單的綜合變量并不是最科學地代表12門課綜合成績的指標,而用主成分分析得出的第一主成分(原始變量的線性組合)Z1是最科學地代表12門課綜合成績的指標。比如Z1是12個變量的線性組合,且系數(shù)都是正數(shù),數(shù)值有大有小。顯然數(shù)值大的變量對綜合指標(主成分)的貢獻大;數(shù)值小的變量對綜合指標(主成分)的貢獻小。20第二十頁,共一百零四頁。教育學--
主成分分析在學生學習成績排序中的應用
12個原始變量(課程)提供的信息各為多少?用什么量來表達?最經(jīng)典的方法是用變量的方差Var(Xi)為多少來表達。
如果某課程全班學生的成績都差不多,比如都是80分左右,則這門課程在學生成績的排序中不起什么作用。這反映在原始變量的線性組合Z1(第一主成分)上該變量對應的系數(shù)會很?。ㄈ?.1025).
如果另一門課程全班學生的成績相差很大,有的100分,有的只有30多分,則這門課程在學生成績的排序中起的作用很大。這反映在原始變量的線性組合Z1(第一主成分)上該變量對應的系數(shù)會很大(比如0.4525).21第二十一頁,共一百零四頁。教育學--
主成分分析在學生學習成績排序中的應用
接著把每個學生12門課程的成績代入第一主成分Z1中,計算出每個學生第一主成分Z1的得分值,然后按從大到小的次序對全班學生的第一主成分Z1的得分值進行排序。這個次序作為全班學生在大學本科4年中綜合學習成績的順序是更合理更科學的。
推薦研究生時可以根據(jù)這個次序來依次推薦;評選綜合學習獎時也可以根據(jù)這個次序來評選;評選三好生時這個次序也是很有力的依據(jù)。22第二十二頁,共一百零四頁。教育學--
主成分分析在學生學習成績排序中的應用
(2)全班學生加權綜合成績的排序
因12門課程(變量)所得的學分不同,學分的多少反映該課程的重要性,在(1)中進行排序時沒有考慮課程的重要性。由學分的多少對變量的重要程度分別賦于不同的權數(shù).學分多權數(shù)大些,學分少權數(shù)小些。即設Xj為第j個變量(課程)的40名學生的成績(觀測向量),令
23第二十三頁,共一百零四頁。教育學--
主成分分析在學生學習成績排序中的應用其中Xj*表示第j門課程的40名學生的加權成績(觀測向量),可取其中N表示12門課程的總學分數(shù)(如N=50),nj表示第j門課程的學分數(shù)(如n1=6).
某課程若所得的學分多(即該課程重要),因乘上的權數(shù)大,則該門課程的加權成績變大.由此得出的新綜合指標(第一主成分)Z1*在該變量上的系數(shù)也會加大,該變量對第一主成分Z1*的得分貢獻加大.24第二十四頁,共一百零四頁。教育學--
主成分分析在學生學習成績排序中的應用把12門課程的成績代入第一主成分Z1*中,計算出每個學生第一主成分Z1
*的得分值,然后按從大到小的次序對全班學生的第一主成分Z1*的得分值進行排序。這個次序可作為全班學生在大學本科4年中加權綜合學習成績的順序。
加權綜合學習成績的順序與(1)中沒有加權的綜合學習成績的順序可能會稍有些差別.加權綜合學習成績的順序也許比沒加權得出的順序還更合理更科學的。25第二十五頁,共一百零四頁。教育學--
主成分分析在學生學習成績排序中的應用
同樣地,推薦研究生時可以根據(jù)這個更科學的次序來依次推薦;評選綜合學習獎時也可以根據(jù)這個更科學的次序來評選;評選三好生時這個更科學的次序也是很有力的依據(jù)。
26第二十六頁,共一百零四頁。
第0章緒論
§0.2多元統(tǒng)計分析的應用領域--環(huán)境科學
2.環(huán)境科學
(1)大氣環(huán)境污染的評估及與職工健康的關系
湖南岳陽化工總廠建廠前沒有進行環(huán)境評估(因建在文化大革命期間).工廠投產(chǎn)幾年后,發(fā)現(xiàn)污染嚴重,如很多職工有明顯肝大的癥狀,到底“肝大”是大氣污染造成的,還是其它(如水污染)?故決定進行環(huán)境評估。具體工作有:
①定時定點測量大氣中多種污染氣體的濃度,同時測量氣象條件;27第二十七頁,共一百零四頁。環(huán)境科學-
大氣環(huán)境污染的評估及與職工健康的關系
②現(xiàn)場試驗,如施放大量的海軍煙霧彈作為示蹤物,了解其擴散情況,記錄其軌跡。③調查并統(tǒng)計了大量的職工體檢資料;④風洞模擬試驗。
現(xiàn)場觀測試驗共用了二個多月的時間,調用了很多的人力和物力,收集了大量的資料。我們(多元分析組)參加其中的數(shù)據(jù)處理工作,使用了多元統(tǒng)計分析的多種方法進行數(shù)據(jù)分析處理。
以下是其中的部分工作:28第二十八頁,共一百零四頁。環(huán)境科學-
大氣環(huán)境污染的評估及與職工健康的關系
(一)大氣污染的地區(qū)分類
為了了解某大型化工廠對環(huán)境的污染程度,在廠區(qū)及鄰近地區(qū)有代表性的選25個監(jiān)測點(如廠區(qū),生活區(qū),醫(yī)院,學校…),每天定時(2點,8點,14點,20點)同時抽取大氣樣品,測定其中6種污染氣體(二氧化硫,硫化氫,碳4,…)的濃度,前后4天共16次數(shù)據(jù),對每個監(jiān)測點,計算每種污染氣體16次實測值的平均值,得25行6列的數(shù)據(jù)陣X,以下由數(shù)據(jù)陣X出發(fā),進行分析處理.29第二十九頁,共一百零四頁。環(huán)境科學-
大氣環(huán)境污染的評估及與職工健康的關系
用統(tǒng)計分析方法分析處理這些資料.具體地說,使用了系統(tǒng)聚類分析方法,主成分分析方法,因子分析方法等等.不同的統(tǒng)計方法分類的結果不完全一致,經(jīng)綜合匯總后,把25個取樣點按污染情況分為5類,如分為極嚴重污染,很嚴重污染,嚴重污染,一般污染和較輕污染五大類.
30第三十頁,共一百零四頁。環(huán)境科學-
大氣環(huán)境污染的評估及與職工健康的關系
若使用對應分析方法,不僅可得出分類結果,還可給出有污染的每一類主要的污染氣體(元素).這些分類結果將為今后監(jiān)測點的布局提供既合理又經(jīng)濟的方案.如果在25個監(jiān)測點以外的其它地方也同時定點測量了6種污染氣體的濃度,則由以上的分類結果用判別歸類的方法還可給出該地區(qū)的污染分類.31第三十一頁,共一百零四頁。環(huán)境科學-
大氣環(huán)境污染的評估及與職工健康的關系
(二)職工體檢資料的統(tǒng)計分析
在23個監(jiān)測點附近各隨機地抽取40人的體驗資料,共920人.考查的指標(因變量)有:
Y1-78年肝大數(shù)量;Y2-78年的白血球;
Y3-78年血收縮壓;Y4-78年血舒張壓;
Y5至Y8為79年同Y1至Y4的指標;
Y-78年到79年的肝增大數(shù)量;
32第三十二頁,共一百零四頁。環(huán)境科學-
大氣環(huán)境污染的評估及與職工健康的關系
影響這些指標的因素(自變量)有:
X1-年齡;X2-工齡;
X3-性別;X4-所在地區(qū)的污染類別.我們的目的是找出職工肝大與所在地區(qū)的污染程度是否關系很顯著.1)用方差分析檢驗不同類別的污染地區(qū)一年之間肝增大量(Y)是否有顯著性差異?這是個單因素的方差分析模型,因變量(指標)為Y,因素為定性(屬性)變量X4.33第三十三頁,共一百零四頁。環(huán)境科學-
大氣環(huán)境污染的評估及與職工健康的關系
問題可化為假設檢驗問題:假設即假設5類地區(qū)職工中肝的平均增大數(shù)量相等.用920人的觀測數(shù)據(jù)來檢驗這個假設是否成立.
分析計算的結果在=0.01的水平上否定這個假設.這表明五類不同地區(qū)的平均肝增大數(shù)量有顯著性差異.
類似地可以把性別(X1)作為因素,檢驗男女職工平均肝增大數(shù)量是否有顯著差異.結果是沒有明顯差異.34第三十四頁,共一百零四頁。環(huán)境科學-
大氣環(huán)境污染的評估及與職工健康的關系
這說明職工肝大主要是由大氣污染引起的.與性別(或年齡,工齡)無關,也不是由有些人所說是由于水質不好引起的.
2)用回歸分析方法建立Y(肝增大數(shù)量)與X1,X2,X3,X4的相關關系式.因為X3和X4為定性(屬性)變量,建立模型之前先把這兩個變量數(shù)量化.
X3=0表示女性,X3=1表示男性.35第三十五頁,共一百零四頁。環(huán)境科學-
大氣環(huán)境污染的評估及與職工健康的關系
由以上討論的大氣污染地區(qū)的分類結果知該地區(qū)的污染情況可分為五類.引入極嚴重很嚴重嚴重一般較輕36第三十六頁,共一百零四頁。環(huán)境科學-
大氣環(huán)境污染的評估及與職工健康的關系
用逐步回歸分析方法計算得:第1,2,3類是污染嚴重的地區(qū),在這三類地區(qū)內(nèi),故
Y=0.4611說明住在污染嚴重地區(qū)的職工于78年至79年間肝平均增大0.4611(厘米);37第三十七頁,共一百零四頁。環(huán)境科學-
大氣環(huán)境污染的評估及與職工健康的關系住在第4類地區(qū)()的職工,這一年間肝平均增大數(shù)量為
0.4611-0.3486=0.1125;而住在第5類地區(qū)()的職工,在這一年間肝平均增大數(shù)量為
0.4611-0.2969=0.1642.總之,以上分析結果表明,肝大是由大氣污染引起的,與年齡,工齡,性別無顯著關系.
其它指標的分析結果這里省略了.
38第三十八頁,共一百零四頁。
第0章緒論
§0.2多元統(tǒng)計分析的應用領域--環(huán)境科學
2.環(huán)境科學
(2)許多學者研究了洛杉磯地區(qū)大氣中污染物質的濃度。在較長的一段時間內(nèi),每天定時測定與污染有關的幾個指標值。用多元統(tǒng)計檢驗的方法首先判斷洛杉磯地區(qū)空氣污染程度在一周內(nèi)是固定不變或周末與平時有顯著差異。其次對這龐雜的觀測數(shù)據(jù)用一種易解釋的方法加以歸納化簡。(3)研究多種污染氣體(CO,CO2,SO2)的濃度與污染源的排放量和氣象因子(風向,風速,溫度,濕度等)之間的相互關系.39第三十九頁,共一百零四頁。RandomVectorsandRandomMatrices:RandomvectorVectorwhoseelementsarerandomvariablesRandommatrixMatrixwhoseelementsarerandomvariables§0.3隨機向量分布基礎40第四十頁,共一百零四頁。ExpectedValueofaRandomMatrix:41第四十一頁,共一百零四頁。MeanVectors:42第四十二頁,共一百零四頁。Covariance:43第四十三頁,共一百零四頁。PopulationVariance-CovarianceMatrices:44第四十四頁,共一百零四頁。X的協(xié)差陣,記作D(X),或COV(X),
D(X)亦記作Σ=(σij),其中σij=Cov(Xi,Xj)。
45第四十五頁,共一百零四頁。PopulationCorrelationCoefficients:46第四十六頁,共一百零四頁。StandardDeviationMatrix:47第四十七頁,共一百零四頁。CorrelationMatrixfromCovarianceMatrix:48第四十八頁,共一百零四頁。
(1)樣本均值向量X:
49第四十九頁,共一百零四頁。
(2)樣本離差陣A(交叉乘積陣):其中50第五十頁,共一百零四頁。(3)樣本協(xié)方差S:(4)樣本相關陣R:51第五十一頁,共一百零四頁。SampleMeanVectorandCovarianceMatrix:52第五十二頁,共一百零四頁。
例:設從某書店隨機抽取4張收據(jù)了解圖書的銷售情況.每張收據(jù)記錄售書數(shù)量X2及總金額X1,具體數(shù)值如下:試計算樣本均值,樣本離差陣,樣本協(xié)差陣和相關陣.
解:53第五十三頁,共一百零四頁。樣本離差陣A的計算公式為:54第五十四頁,共一百零四頁。55第五十五頁,共一百零四頁。設X(i)(i=1,…,n)
是p元總體(μ,Σ)的隨機樣本,n>p,則μ,Σ的常用估計為(5)參數(shù)的估計:56第五十六頁,共一百零四頁。相關系數(shù)ρij的估計為:其中
。稱S為樣本協(xié)方差矩陣、rij為樣本相關系數(shù)、
為樣本相關矩陣。57第五十七頁,共一百零四頁。在MATLAB中計算向量均值、方差、協(xié)方差以及相關系數(shù)的命令分別為:mean(data),var(data),cov(data),corrcoef(data)如果要將矩陣X的數(shù)據(jù)標準化,如何實現(xiàn)?Y=zscore(X)58第五十八頁,共一百零四頁。0.4描述統(tǒng)計
及MATLAB實現(xiàn)4.1一維數(shù)據(jù)的數(shù)字特征4.1.1表示位置的數(shù)字特征1.均值數(shù)據(jù)的平均值稱為該數(shù)據(jù)的均值,記為在MATLAB中命令為:mean(data)如果data是一個m╳n的矩陣,mean(data)輸出的結果是什么?如何用數(shù)學公式表示?59第五十九頁,共一百零四頁。設矩陣mean(X)=是行向量其中,如果要將矩陣X的數(shù)據(jù)標準化,如何實現(xiàn)?Y=[X-ones(n,1)*mean(X)]./[ones(n,1)*std(X)]或者直接利用命令:Y=zscore(X)60第六十頁,共一百零四頁。2.次序統(tǒng)計量將數(shù)據(jù)x1,x2,…,xn
按從小到大的次序排列,所得的結果記為:稱為原數(shù)據(jù)的次序統(tǒng)計量。在MATLAB中,利用sort(data)就可得到次序統(tǒng)計量。3.中位數(shù)中位數(shù)的計算公式為:中位數(shù)是整個數(shù)據(jù)位置居中的數(shù)據(jù),因此受異常值的影響較小,具有較好的穩(wěn)健性。MATLAB中計算中位數(shù)的命令為:median(data)61第六十一頁,共一百零四頁。4.分位數(shù)對0p<1,數(shù)據(jù)x1,x2,…,xn的p分位數(shù)是其中[np]表示np的整數(shù)部分,當p=1時,定義M1=x(n)。計算P分位數(shù)的命令:prctile(data,P),其中P=100*p在實際應用中,0.75分位數(shù)與0.25分位數(shù)比較重要,他們分別稱為上、下四分位數(shù),簡記為Q3=M0.75,Q1=M0.2562第六十二頁,共一百零四頁。5.三均值眾所周知,均值與中位數(shù)M都是描述數(shù)據(jù)集中位置的數(shù)字特征,均值用了數(shù)據(jù)的全部信息,M只用了部分信息,通常情況下,均值比中位數(shù)有效。但是當數(shù)據(jù)有異常值時,中位數(shù)比較穩(wěn)健,為了兼顧兩方面的優(yōu)勢,我們可以計算三均值,其公式如下:例如數(shù)據(jù):5,3,11,3,1,7,8其次序統(tǒng)計量為:1,3,3,5,7,8,11中位數(shù)=5,25%,與75%的分位數(shù)為:prctile(data,[25,75]):3和7.563第六十三頁,共一百零四頁。實際上,三均值就是中位數(shù)與上、下四分位數(shù)的加權平均,權向量為w=(0.25,0.5,0.25),另一個向量為,這兩個向量的數(shù)量積就是三均值。年份國民生產(chǎn)總值第一產(chǎn)業(yè)第二產(chǎn)業(yè)工
業(yè)第三產(chǎn)業(yè)人均GDP198010713232745514884681222899450198113780151187589455377227669566198215893058096678736196232961642198317862663713772337121737680712198421203973536945798698043924834198524305884053109463100434495429421986288432981191255131126506480011031987334507105723142664128772861201261198837995812154415859114621399823140819894153421477141577401442531098881506例1.根據(jù)蚌埠市80年代數(shù)據(jù),計算各指標均值、0.99,0.9,0.75,0.5,0.25,0.1,0.05,0.01分位數(shù)以及三均值64第六十四頁,共一百零四頁。解:%輸入原始數(shù)據(jù)A=[107132 32745 51488 46812 22899 450137801 51187 58945 53772 27669 566158930 58096 67873 61962 32961 642178626 63713 77233 71217 37680 712212039 73536 94579 86980 43924 834243058 84053 109463 100434 49542 942288432 98119 125513 112650 64800 1103334507 105723 142664 128772 86120 1261379958 121544 158591 146213 99823 1408415342 147714 157740 144253 109888 1506];%計算各指標均值、分位數(shù)、三均值[mean(A);%各指標均值ans=1.0e+005*2.45580.83641.04410.95310.57530.0094如何理解數(shù)據(jù)輸出的格式?(科學計數(shù)法)即:24558083640104410953105753094065第六十五頁,共一百零四頁。%計算分位數(shù)prctile(A,100*[0.99,0.9,0.75,0.5,0.25,0.1,0.05,0.01])
4153401477101585901462101098901510397650134630158170145230104860146033451010572014266012877086120126022755078790102020937104673089015893058100678706196032960640122470419705522050290252805101071303275051490468102290045010713032750514904681022900450輸出結果為86的矩陣:每一列是每項指標的各種分位數(shù),其中第四行即中位數(shù).median(A)%計算各指標中位數(shù),=上面的第4行[0.25,0.5,0.25]*prctile(A,[25,50,75])%各指標三均值
23713080350103640945405314092066第六十六頁,共一百零四頁。4.1.2表示分散性的數(shù)字特征1.方差、標準差與變異系數(shù)數(shù)據(jù)x=(x1,x2,…,xn),的方差為:其算術平方根稱為數(shù)據(jù)的標準差或根方差,在MATLAB中命令分別為:var(data),std(data)例2.已知x=(x1,x2,…,xn),則xxT=?則(x-mean(x))*(x-mean(x))T/(n-1)=?67第六十七頁,共一百零四頁。變異系數(shù):刻畫數(shù)據(jù)相對分散性的一種度量方法計算公式為:有些書中用
在MATLAB中命令分別為:std(data)./mean(data),std(data)./abs(mean(data))2.極差與四分位極差上、下四分位數(shù)之差稱為四分位極差,記為極差的計算公式:R=x(n)-x(1)在MATLAB中命令分別為:range(data),iqr(data)68第六十八頁,共一百零四頁。如果A是一個n行,p列的矩陣,則range(A)計算A中每一列數(shù)據(jù)的極差,如果計算A的每行數(shù)據(jù)極差,只需將A轉置既可.即:range(A’)由于正態(tài)總體N(,2)的上、下四分位數(shù)分別為0.75=+0.6745,0.25=-0.6745故正態(tài)總體四分位極差為:0.75-0.25=1.349對于標準差為的一般總體分布,的穩(wěn)健估計為:3.異常點判別數(shù)據(jù)的下、上截斷點為:Q1-1.5R1,Q3+1.5R1位于下、上截斷點之外的點稱為異常點.69第六十九頁,共一百零四頁。年份國民生產(chǎn)總值第一產(chǎn)業(yè)第二產(chǎn)業(yè)工
業(yè)第三產(chǎn)業(yè)人均(元)GDP19904257391413901648841512581194651480199136868181940164548139623122193123119925157761375952190721951271591091696199363067619214325482722634718370620491994792357239521328715291616224121254819959428582904003770163144672754423003199611503223335934648753810313518543622199713631623932665567334649424131634241199815003334073136047104682244883104618199915542314285695870454713705386174734例4.計算經(jīng)濟數(shù)據(jù)的方差、標準差、變異系數(shù)解:原始數(shù)據(jù)記為A,粘貼到MATLAB,于是[var(A);std(A);std(A)./mean(A)]%方差、標準差、變異系數(shù)70第七十頁,共一百零四頁。1.偏度k階中心矩
447269.32124627.47172594.05131193.17152861.171322.46
0.480.470.460.420.530.454.1.3表示分布形狀的數(shù)字特征偏度計算公式:其中u3,s分別表示數(shù)據(jù)的3階中心矩與標準差MATLAB中的命令:y=skewness(data,0)如果data是一個矩陣,則計算各列的偏度.71第七十一頁,共一百零四頁。如果記不住命令,如何利用已經(jīng)學過的內(nèi)容進行計算是我們必須學會的方法,請看下面的解法x=[data];%輸入數(shù)據(jù)n=length(x);%數(shù)據(jù)的長度u3=moment(x,3);%計算3階中心矩s=std(x);%計算標準差g1=n.^2*u3/((n-1)*(n-2)*s.^3)如果不知道計算中心矩的命令moment,你如何實現(xiàn)偏度的計算?u3=sum((x-mean(x)).^3)/n72第七十二頁,共一百零四頁。2.峰度在MATLAB中,計算峰度的命令為:kurtosis(data,0)注意:按Matlab中的公式,正態(tài)分布的峰度為3,而本教材公式正態(tài)分布的峰度為0為了得到書中的結果只需:kurtosis(data,0)-3峰度計算公式:73第七十三頁,共一百零四頁。峰度用來衡量數(shù)據(jù)尾部的分散性:正態(tài)分布峰度為零,峰度>0,則厚尾,峰度<0,則細尾,在金融時間序列分析中,通常要研究數(shù)據(jù)是否為尖峰、細腰、厚尾等特性。偏度用來衡量數(shù)據(jù)的對稱性:偏度為零表明是對稱分布,偏度>0,則右偏,反之則左偏;在MATLAB中的正態(tài)分布檢驗的一個命令h=jbtest(data),就是基于偏度與峰度所建立.74第七十四頁,共一百零四頁。例5計算例4各指標的偏度與峰度解:A=[data];%data即表中的2—6列的數(shù)據(jù)formatlong%長數(shù)位輸出[skewness(A,0);kurtosis(A,0)-3],表2.蚌埠市90年代各經(jīng)濟指標的偏度與峰度生產(chǎn)總值第一產(chǎn)業(yè)第二產(chǎn)業(yè)工業(yè)第三產(chǎn)業(yè)人均GDP偏度系數(shù)0.2255781331-0.0435930780.1723024482130.0616271379520.5198548855250.183901977344峰度系數(shù)-1.6131486490-1.5649510273-1.69890054690-1.68278514534-1.21662309936-1.6506491708775第七十五頁,共一百零四頁。4.2數(shù)據(jù)分布數(shù)據(jù)的數(shù)字特征刻畫了數(shù)據(jù)的主要特征,而要對數(shù)據(jù)的總體情況作全面地了解,就必須研究數(shù)據(jù)的分布。數(shù)據(jù)分析的一個重要內(nèi)容就是研究數(shù)據(jù)是否服從正態(tài)分布,若不服從正態(tài)分布,那么可能服從什么分布,如何判定。4.2.1直方圖、經(jīng)驗分布函數(shù)與QQ圖在MATLAB中作直方圖的命令為:hist(data,k)其中,data是原始數(shù)據(jù),k表示平均分區(qū)間(min(data),max(data))的份數(shù),k缺省時為10n=hist((data,nb)可以計算數(shù)據(jù)落在小區(qū)間內(nèi)的頻數(shù),其中,nb是自己定義的小區(qū)間的中點,n輸出各小區(qū)間的頻數(shù)。76第七十六頁,共一百零四頁。[例1].某班級考試成績?nèi)缦?,作出直方圖,并統(tǒng)計各分數(shù)段人數(shù)cj=[62,79,84,72,87,99,81,86,67,71,91,83,46,67,72,88,60,95,73,60,99,77,87,85,53,76,90,79,66,100];nb=[54.5,64.5,74.5,84.5,94.5];n=hist(cj,nb),hist(cj)結果為:n=26886,即下表所示不及格60—6970—7980—8990—1002人6人8人8人6人77第七十七頁,共一百零四頁。如果要配上正態(tài)概率密度曲線,則命令如下:histfit(data)圖1.1直方圖78第七十八頁,共一百零四頁。設來自總體的分布的樣本是x1,x2,...xn,其次序統(tǒng)計量是x(1),x(2),...x(n
)則經(jīng)驗分布函數(shù)是:經(jīng)驗分布函數(shù)對于一般總體分布,若要估計他的總體分布函數(shù),可以用經(jīng)驗分布函數(shù)做估計。79第七十九頁,共一百零四頁。在MATLAB中,如下命令可以做出經(jīng)驗分布函數(shù)圖形,并給出部分統(tǒng)計量。[h,stats]=cdfplot(data)[例2].做出例1中數(shù)據(jù)的經(jīng)驗分布函數(shù)x=[62,79,84,72,87,99,81,86,67,71,91,83,46,67,72,88,60,95,73,60,99,77,87,85,53,76,90,79,66,100];[h,stats]=cdfplot(x)最低分min:46最高分max:100平均分mean:77.8333中位數(shù)median:79標準差std:13.776880第八十頁,共一百零四頁。圖1.2考試成績的經(jīng)驗分布圖1.3經(jīng)驗分布與正態(tài)分布函數(shù)QQ圖無論是直方圖還是經(jīng)驗分布函數(shù)圖形,要從圖形上看出是否服從某種類型隨機變量的分布是很困難的,QQ圖有助于我們鑒別樣本的數(shù)據(jù)是否近似的服從某類分布。在MATLAB中給出了正態(tài)分布和威布爾分布的QQ圖命令:81第八十一頁,共一百零四頁。[例3].做出例1中數(shù)據(jù)的QQ圖解:normplot(x),weibplot(x)圖1.4考試成績的QQ圖82第八十二頁,共一百零四頁。從圖1.4可以看出,除了100分這一點其余各點基本上都位于直線上,故可以認為近似服從正態(tài)分布。能否認為服從威布爾分布呢?2關于數(shù)據(jù)的常用變換公式當數(shù)據(jù)在左邊或右邊有長尾巴,或很不對稱時,有時需要對數(shù)據(jù)進行變換以符合非參數(shù)(或參數(shù))統(tǒng)計推斷方法的某些條件.其中最常用的一種方法就是box-cox變換
(x>0)83第八十三頁,共一百零四頁。在MATLAB中,上述變換的命令如下:[t,l]=boxcox(x)其中x是原始數(shù)據(jù),t是變換以后的數(shù)據(jù),l是變換公式中參數(shù)的數(shù)值例4.我們以1949—1991淮河流域成災面積為例說明如何利用上述的變換使得數(shù)據(jù)從不具備正態(tài)分布到符合正態(tài)分布.圖1.51949—1991淮河流域成災面積qq圖84第八十四頁,共一百零四頁。從圖上可以看出散點并不聚集在直線上,因此流域成災面積(原始數(shù)據(jù))不服從正態(tài)分布,這一點也可以通過jbtest檢驗來證實.但是通過變換以后的圖形如圖1.8所示,顯然數(shù)據(jù)服從正態(tài)分布.圖1.6流域成災面積(變換后數(shù)據(jù))圖85第八十五頁,共一百零四頁。圖1.5流域成災面積(原始數(shù)據(jù))圖圖1.6流域成災面積(變換后數(shù)據(jù))圖86第八十六頁,共一百零四頁。4.2.2莖葉圖及五數(shù)總括莖葉圖:與直方圖相比,莖葉圖更能細致地看出數(shù)據(jù)的分布結構,我們用具體例子說明如何作出數(shù)據(jù)的莖葉圖。[例5].做出例1中數(shù)據(jù)的莖葉圖解:首先將數(shù)據(jù)從小到大排列得到:sort(x)ans=4653606062666767717272737677797981838485868787889091959999100第一個數(shù)46的十位數(shù)為4,個位數(shù)為6,將其分割成,每一個數(shù)都采取上述方法,然后將十位數(shù)從4到10排成一列,右邊按從小到大寫出各位數(shù)字,最右邊寫出頻數(shù)87第八十七頁,共一百零四頁。上述莖葉圖利用公式編輯器作出從莖葉圖可以看出數(shù)據(jù)是比較對稱的88第八十八頁,共一百零四頁。中位數(shù),上、下分位數(shù),最大、最小數(shù)統(tǒng)稱五數(shù)總括在Matlab中:[min(data),prctile(data,[25,50,75]),max(data)]對于[例4]中的數(shù)據(jù),我們可得:
466779871004.2.3數(shù)據(jù)的分布擬合檢驗與正態(tài)性檢驗盡管我們可以畫出QQ圖、莖葉圖、直方圖直觀地得到數(shù)據(jù)可能服從什么分布,但是從概率的意義上,我們?nèi)砸o出正態(tài)性分布的假設檢驗以及分布擬合檢驗。89第八十九頁,共一百零四頁。正態(tài)性檢驗用于檢驗樣本數(shù)據(jù)是否來自正態(tài)分布總體;分布擬合檢驗用于檢驗樣本數(shù)據(jù)是否來自某種類型的分布總體。顯然,正態(tài)性檢驗是分布擬合檢驗中很重要的一種,下面我們分別介紹利用MATLAB從事正態(tài)性檢驗與分布擬合檢驗的命令與步驟:正態(tài)性檢驗正態(tài)分布的擬合優(yōu)度測試有兩個命令:jbtest與lillietest,其中后者用于小樣本檢測。90第九十頁,共一百零四頁。[h,p,jbtest,cv]=jbtest(x,alpha)輸入:x是被檢測的數(shù)據(jù),alpha是顯著性水平0<<1輸出:h=0,無法拒絕正態(tài)分布,h=1,拒絕正態(tài)分布;
P-檢驗的概率值,jbtest-jb統(tǒng)計量,cv-為是否拒絕原假設的臨界值,由于jbtest檢驗用到漸近分布,故通常用于大樣本檢驗,如果是小樣本,則應使用lillietest[h,h,lstat,cv]=lillietest(x,alpha)輸入:x是被檢測的數(shù)據(jù),alpha是顯著性水平(取值在0.01和0.2之間),缺省時為0.0591第九十一頁,共一百零四頁。[例6.]我國受災面積統(tǒng)計如下,利用MATLAB檢驗表中五項指標是否服從正態(tài)分布?年份受災面積成災面積水災成災面積旱災成災面積農(nóng)林牧漁總產(chǎn)值197850790244572012179701397.019793937015120287093201697.6198044526297776070141741922.6198139786187433973121342180.619823313315985439799722483.319833471316209574775862750.019843188715607539570153214.1198544365227058949100633619.5198647135236565601147654013.0198742086203934104130334675.7198850874239456128153035865.3198946991224495917152626534.719903847417819560578057662.11991554722781414614105598157.019925133325859446
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年西安求職手冊
- 外墻直接抗裂砂漿施工方案
- 文昌東郊椰娜美椰子油加工廠環(huán)評報告表
- 岳池縣瀝青路面施工方案
- ??谑猩罾贌l(fā)電項目爐渣綜合利用項目環(huán)境影響報告表(公示稿)環(huán)評報告表
- 初一的上學期數(shù)學試卷
- 有關廣西地區(qū)桉樹高產(chǎn)營造林技術及病蟲害防治措施的討論
- 江蘇省鹽城市阜寧縣2024-2025學年七年級下學期3月月考地理試題(原卷版+解析版)
- 智研咨詢發(fā)布:2025年中國醫(yī)療器械融資租賃行業(yè)市場現(xiàn)狀及投資前景分析報告
- 加強生態(tài)環(huán)境保護與綠色發(fā)展實施方案
- 《小米市場營銷策略》課件
- 2025年湖南高爾夫旅游職業(yè)學院單招職業(yè)技能測試題庫附答案
- 2025年湖南大眾傳媒職業(yè)技術學院單招職業(yè)技能測試題庫新版
- 雙均線策略(TBQ版)
- 北京房屋租賃合同電子版7篇
- 《園林機械使用與維修》課件-任務3.園林養(yǎng)護機械
- deepseek-r1論文-中文翻譯版
- 項目式學習在小學數(shù)學教學中的應用
- 2024年05月山東威海市商業(yè)銀行科技類社會招考筆試歷年參考題庫附帶答案詳解
- 2025中智集團下屬單位公開招聘41人高頻重點提升(共500題)附帶答案詳解
- 中醫(yī)理療館路演
評論
0/150
提交評論