版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
多元統(tǒng)計引論及描述統(tǒng)計實現(xiàn)詳解演示文稿1第一頁,共一百零四頁。優(yōu)選多元統(tǒng)計引論及描述統(tǒng)計實現(xiàn)2第二頁,共一百零四頁。第一章緒論第二章多元正態(tài)分布及參數(shù)的估計第三章多元正態(tài)總體參數(shù)的假設(shè)檢驗第四章回歸分析--第五章判別分析第六章聚類分析第七章主成分分析第八章因子分析第九章對應(yīng)分析方法第十章典型相關(guān)分析第十一章偏最小二乘回歸分析本課程的內(nèi)容多變量分析(數(shù)據(jù)結(jié)構(gòu)簡化)分類方法兩組變量的相關(guān)分析基礎(chǔ)理論兩組變量的相依分析3第三頁,共一百零四頁。
第0章緒論
§0.1引言
在實際問題中,很多隨機(jī)現(xiàn)象涉及到的變量不止一個,而經(jīng)常是多個變量,而且這些變量間又存在一定的聯(lián)系。我們常常需要處理多個變量的觀測數(shù)據(jù)。例如考察學(xué)生的學(xué)習(xí)情況時,就需了解學(xué)生在幾個主要科目的考試成績。
下表給出從中學(xué)某年級隨機(jī)抽取的12名學(xué)生中5門主要課程期末考試成績。4第四頁,共一百零四頁。第0章緒論
§0.1引言序號政治語文外語數(shù)學(xué)物理
199949310010029988969997310098819610049388889996510091729678690788275977757388978989384836888987736076841095829062391176724367781285755034375第五頁,共一百零四頁。第0章緒論
§0.1引言--多元分析的研究對象和內(nèi)容
上表提供的數(shù)據(jù),如果用一元統(tǒng)計方法,勢必要把多門課程分開分析,每次分析處理一門課的成績。這樣處理,由于忽視了課程之間可能存在的相關(guān)性,因此,一般說來,丟失信息太多。分析的結(jié)果不能客觀全面地反映某年級學(xué)生的學(xué)習(xí)情況。本課程要討論的多元分析方法,它同時對多門課程成績進(jìn)行分析。這樣的分析對這些課程之間的相互關(guān)系、相互依賴性等都能提供有用的信息。6第六頁,共一百零四頁。第0章緒論
§0.1引言--多元分析的研究對象和內(nèi)容
由于大量實際問題都涉及到多個變量,這些變量又是隨機(jī)變化,如學(xué)生的學(xué)習(xí)成績隨著被抽取學(xué)生的不同成績也有變化(我們往往需要依據(jù)它們來推斷全年級的學(xué)習(xí)情況)。所以要討論多維隨機(jī)向量的統(tǒng)計規(guī)律性。
多元統(tǒng)計分析就是討論多維隨機(jī)向量的理論和統(tǒng)計方法的總稱。
多元統(tǒng)計分析研究
的對象就是多維隨機(jī)向量.7第七頁,共一百零四頁。第0章緒論
§0.1引言--多元分析的研究對象和內(nèi)容就以學(xué)生成績?yōu)槔?,我們可以研究很多問題:用各科成績的總和作為綜合指標(biāo)來比較學(xué)生學(xué)習(xí)成績的好壞(如成績好的與成績差的,又如文科成績好的與理科成績好的);研究各科成績之間的關(guān)系(如物理與數(shù)學(xué)成績的關(guān)系,文科成績與理科成績的關(guān)系);……等等。所有這些都屬于多元統(tǒng)計分析的研究內(nèi)容。
8第八頁,共一百零四頁。第0章緒論
§0.1引言--多元分析的研究對象和內(nèi)容
綜上所述,多元分析以p個變量的n次觀測數(shù)據(jù)組成的數(shù)據(jù)矩陣
x11
x12…x1p
x21
x22…x2p….….….….xn1
xn2…xnpX=為依據(jù)。根據(jù)實際問題的需要,給出種種方法。英國著名統(tǒng)計學(xué)家M.肯德爾(M.G.Kendall)在《多元分析》一書中把多元分析所研究的內(nèi)容和方法概括為以下幾個方面:9第九頁,共一百零四頁。第0章緒論
§0.1引言--多元分析的研究對象和內(nèi)容
1.簡化數(shù)據(jù)結(jié)構(gòu)(降維問題)
例如通過變量變換等方法使相互依賴的變量變成互不相關(guān)的;或把高維空間的數(shù)據(jù)投影到低維空間,使問題得到簡化而損失的信息又不太多.主成分分析,因子分析,對應(yīng)分析等多元統(tǒng)計方法就是這樣的一類方法。2.分類與判別(歸類問題)
對所考查的對象(樣品點或變量)按相似程度進(jìn)行分類(或歸類)。聚類分析和判別分析等方法是解決這類問題的統(tǒng)計方法。10第十頁,共一百零四頁。第0章緒論
§0.1引言--多元分析的研究對象和內(nèi)容
3.變量間的相互聯(lián)系(1)相互依賴關(guān)系:分析一個或幾個變量的變化是否依賴于另一些變量的變化?如果是,建立變量間的定量關(guān)系式,并用于預(yù)測或控制---回歸分析.(2)變量間的相互關(guān)系:分析兩組變量間的相互關(guān)系---典型相關(guān)分析等.(3)兩組變量間的相互依賴關(guān)系---偏最小二乘回歸分析.11第十一頁,共一百零四頁。
第0章緒論
§0.1引言--多元分析的研究對象和內(nèi)容
5.多元統(tǒng)計分析的理論基礎(chǔ)
包括多維隨機(jī)向量及多維正態(tài)隨機(jī)向量,及由此定義的各種多元統(tǒng)計量,推導(dǎo)它們的分布并研究其性質(zhì),研究它們的抽樣分布理論。這些不僅是統(tǒng)計估計和假設(shè)檢驗的基礎(chǔ),也是多元統(tǒng)計分析的理論基礎(chǔ)。
4.多元數(shù)據(jù)的統(tǒng)計推斷
參數(shù)估計和假設(shè)檢驗問題.特別是多元正態(tài)分布的均值向量和協(xié)差陣的估計和假設(shè)檢驗等問題。12第十二頁,共一百零四頁。第0章
緒論
§0.2
多元統(tǒng)計分析的應(yīng)用領(lǐng)域--教育學(xué)
多元統(tǒng)計分析是解決實際問題有效的數(shù)據(jù)處理方法。隨著電子計算機(jī)使用的日益普及,多元統(tǒng)計方法已廣泛地應(yīng)用于自然科學(xué),社會科學(xué)的各個方面。以下我們列舉多元分析的一些應(yīng)用領(lǐng)域。從中可看到多元分析應(yīng)用的廣度和深度。1.教育學(xué)
n個考生報考北大概率統(tǒng)計系.每個考生參加7門課(語文、數(shù)學(xué)、政治、外語、物理、化學(xué)、生物)的考試,各門課成績記為Yj1,Yj2,…,Yj7。又每個考生在高中學(xué)習(xí)期間,p門主要課程成績?yōu)閄j1,Xj2,…,Xjp(j=1,2,…,n
)。經(jīng)對這大量的資料作統(tǒng)計分析,我們能夠得出:
13第十三頁,共一百零四頁。第0章緒論
§0.2多元統(tǒng)計分析的應(yīng)用領(lǐng)域--教育學(xué)
(1)高考成績和高中學(xué)習(xí)期間成績的關(guān)系,即給出兩組變量線性組合間的關(guān)系,從而可由考生在高中期間的學(xué)習(xí)成績來預(yù)報高考的綜合成績或某科目的成績.
(2)給出考生成績次序排隊的最佳方案(最佳組合).總分可以體現(xiàn)一個考生成績好壞,但對報考概率統(tǒng)計系的學(xué)生,按總分從高到低的順序錄取并不是最合適的.應(yīng)按適當(dāng)?shù)臋?quán)數(shù)加權(quán)求和.如數(shù)學(xué)、物理、外語的權(quán)數(shù)相對高些.
14第十四頁,共一百零四頁。第0章緒論
§0.2多元統(tǒng)計分析的應(yīng)用領(lǐng)域--教育學(xué)
(3)利用n個學(xué)生在高中學(xué)習(xí)期間p門主科的考試成績,可對學(xué)生進(jìn)行分類,如按文、理科成績分類,按總成績分類等。若準(zhǔn)備給優(yōu)秀學(xué)生發(fā)獎,那么一等獎、二等獎的比例應(yīng)該是多少?應(yīng)用多元統(tǒng)計分析的方法可以給出公平合理地確定。15第十五頁,共一百零四頁。教育學(xué)--
主成分分析在學(xué)生學(xué)習(xí)成績排序中的應(yīng)用
我在擔(dān)任學(xué)生班主任期間,經(jīng)常會遇到學(xué)校下達(dá)的評選三好生,評選學(xué)習(xí)獎等任務(wù).另還有評選各種獎學(xué)金的工作;推薦研究生的工作都要求班主任提出意見.
如何利用全班學(xué)生在校幾年中主要課程的學(xué)習(xí)成績及各方面的表現(xiàn)更科學(xué),更合理地進(jìn)行評選?應(yīng)用多元統(tǒng)計分析中的主成分方法可以給出公平合理地確定.16第十六頁,共一百零四頁。教育學(xué)--
主成分分析在學(xué)生學(xué)習(xí)成績排序中的應(yīng)用
比如全班有40名學(xué)生,本科生四年中主要課程包括基礎(chǔ)課,專業(yè)基礎(chǔ)課,本專業(yè)的限選課,設(shè)共有12門課.從教務(wù)可以得到全班40名學(xué)生這12門課的成績,組成的40行12列的數(shù)據(jù)陣X就是我們的原始數(shù)據(jù).
(1)全班學(xué)生綜合成績的排序
評選三好生,評選學(xué)習(xí)獎,推薦研究生的工作首先都要了解全班學(xué)生的學(xué)習(xí)情況.17第十七頁,共一百零四頁。教育學(xué)--
主成分分析在學(xué)生學(xué)習(xí)成績排序中的應(yīng)用
12門課的成績可看成12個變量,這是多指標(biāo)(變量)系統(tǒng)的排序評估問題。這類問題在實際工作中經(jīng)常會迂到,比如對某類企業(yè)的經(jīng)濟(jì)效益進(jìn)行評估比較,影響企業(yè)經(jīng)濟(jì)效益的指標(biāo)有很多,如何更科學(xué)、更客觀地將一個多指標(biāo)問題綜合為單個綜合變量的形式.
主成分分析方法為樣品排序或多指標(biāo)系統(tǒng)評估提供可行的方法.
18第十八頁,共一百零四頁。教育學(xué)--
主成分分析在學(xué)生學(xué)習(xí)成績排序中的應(yīng)用
這里把12門課的成績看成12個變量,這些變量是相關(guān)的,有的相關(guān)性強(qiáng)些,有的相關(guān)性一般些。用主成分分析方法從12個相關(guān)的變量中可以綜合得出幾個互不相關(guān)的主成分--它們是原始變量的線性組合。其中第一主成分綜合原始變量的信息最多(一般在70%以上),我們就用第一主成分(即單個綜合指標(biāo))替代原來的12個變量;然后計算第一主成分的得分并進(jìn)行排序。19第十九頁,共一百零四頁。教育學(xué)--
主成分分析在學(xué)生學(xué)習(xí)成績排序中的應(yīng)用最簡單最直觀地綜合變量就是12門課的成績總和。但這個最簡單的綜合變量并不是最科學(xué)地代表12門課綜合成績的指標(biāo),而用主成分分析得出的第一主成分(原始變量的線性組合)Z1是最科學(xué)地代表12門課綜合成績的指標(biāo)。比如Z1是12個變量的線性組合,且系數(shù)都是正數(shù),數(shù)值有大有小。顯然數(shù)值大的變量對綜合指標(biāo)(主成分)的貢獻(xiàn)大;數(shù)值小的變量對綜合指標(biāo)(主成分)的貢獻(xiàn)小。20第二十頁,共一百零四頁。教育學(xué)--
主成分分析在學(xué)生學(xué)習(xí)成績排序中的應(yīng)用
12個原始變量(課程)提供的信息各為多少?用什么量來表達(dá)?最經(jīng)典的方法是用變量的方差Var(Xi)為多少來表達(dá)。
如果某課程全班學(xué)生的成績都差不多,比如都是80分左右,則這門課程在學(xué)生成績的排序中不起什么作用。這反映在原始變量的線性組合Z1(第一主成分)上該變量對應(yīng)的系數(shù)會很小(如0.1025).
如果另一門課程全班學(xué)生的成績相差很大,有的100分,有的只有30多分,則這門課程在學(xué)生成績的排序中起的作用很大。這反映在原始變量的線性組合Z1(第一主成分)上該變量對應(yīng)的系數(shù)會很大(比如0.4525).21第二十一頁,共一百零四頁。教育學(xué)--
主成分分析在學(xué)生學(xué)習(xí)成績排序中的應(yīng)用
接著把每個學(xué)生12門課程的成績代入第一主成分Z1中,計算出每個學(xué)生第一主成分Z1的得分值,然后按從大到小的次序?qū)θ鄬W(xué)生的第一主成分Z1的得分值進(jìn)行排序。這個次序作為全班學(xué)生在大學(xué)本科4年中綜合學(xué)習(xí)成績的順序是更合理更科學(xué)的。
推薦研究生時可以根據(jù)這個次序來依次推薦;評選綜合學(xué)習(xí)獎時也可以根據(jù)這個次序來評選;評選三好生時這個次序也是很有力的依據(jù)。22第二十二頁,共一百零四頁。教育學(xué)--
主成分分析在學(xué)生學(xué)習(xí)成績排序中的應(yīng)用
(2)全班學(xué)生加權(quán)綜合成績的排序
因12門課程(變量)所得的學(xué)分不同,學(xué)分的多少反映該課程的重要性,在(1)中進(jìn)行排序時沒有考慮課程的重要性。由學(xué)分的多少對變量的重要程度分別賦于不同的權(quán)數(shù).學(xué)分多權(quán)數(shù)大些,學(xué)分少權(quán)數(shù)小些。即設(shè)Xj為第j個變量(課程)的40名學(xué)生的成績(觀測向量),令
23第二十三頁,共一百零四頁。教育學(xué)--
主成分分析在學(xué)生學(xué)習(xí)成績排序中的應(yīng)用其中Xj*表示第j門課程的40名學(xué)生的加權(quán)成績(觀測向量),可取其中N表示12門課程的總學(xué)分?jǐn)?shù)(如N=50),nj表示第j門課程的學(xué)分?jǐn)?shù)(如n1=6).
某課程若所得的學(xué)分多(即該課程重要),因乘上的權(quán)數(shù)大,則該門課程的加權(quán)成績變大.由此得出的新綜合指標(biāo)(第一主成分)Z1*在該變量上的系數(shù)也會加大,該變量對第一主成分Z1*的得分貢獻(xiàn)加大.24第二十四頁,共一百零四頁。教育學(xué)--
主成分分析在學(xué)生學(xué)習(xí)成績排序中的應(yīng)用把12門課程的成績代入第一主成分Z1*中,計算出每個學(xué)生第一主成分Z1
*的得分值,然后按從大到小的次序?qū)θ鄬W(xué)生的第一主成分Z1*的得分值進(jìn)行排序。這個次序可作為全班學(xué)生在大學(xué)本科4年中加權(quán)綜合學(xué)習(xí)成績的順序。
加權(quán)綜合學(xué)習(xí)成績的順序與(1)中沒有加權(quán)的綜合學(xué)習(xí)成績的順序可能會稍有些差別.加權(quán)綜合學(xué)習(xí)成績的順序也許比沒加權(quán)得出的順序還更合理更科學(xué)的。25第二十五頁,共一百零四頁。教育學(xué)--
主成分分析在學(xué)生學(xué)習(xí)成績排序中的應(yīng)用
同樣地,推薦研究生時可以根據(jù)這個更科學(xué)的次序來依次推薦;評選綜合學(xué)習(xí)獎時也可以根據(jù)這個更科學(xué)的次序來評選;評選三好生時這個更科學(xué)的次序也是很有力的依據(jù)。
26第二十六頁,共一百零四頁。
第0章緒論
§0.2多元統(tǒng)計分析的應(yīng)用領(lǐng)域--環(huán)境科學(xué)
2.環(huán)境科學(xué)
(1)大氣環(huán)境污染的評估及與職工健康的關(guān)系
湖南岳陽化工總廠建廠前沒有進(jìn)行環(huán)境評估(因建在文化大革命期間).工廠投產(chǎn)幾年后,發(fā)現(xiàn)污染嚴(yán)重,如很多職工有明顯肝大的癥狀,到底“肝大”是大氣污染造成的,還是其它(如水污染)?故決定進(jìn)行環(huán)境評估。具體工作有:
①定時定點測量大氣中多種污染氣體的濃度,同時測量氣象條件;27第二十七頁,共一百零四頁。環(huán)境科學(xué)-
大氣環(huán)境污染的評估及與職工健康的關(guān)系
②現(xiàn)場試驗,如施放大量的海軍煙霧彈作為示蹤物,了解其擴(kuò)散情況,記錄其軌跡。③調(diào)查并統(tǒng)計了大量的職工體檢資料;④風(fēng)洞模擬試驗。
現(xiàn)場觀測試驗共用了二個多月的時間,調(diào)用了很多的人力和物力,收集了大量的資料。我們(多元分析組)參加其中的數(shù)據(jù)處理工作,使用了多元統(tǒng)計分析的多種方法進(jìn)行數(shù)據(jù)分析處理。
以下是其中的部分工作:28第二十八頁,共一百零四頁。環(huán)境科學(xué)-
大氣環(huán)境污染的評估及與職工健康的關(guān)系
(一)大氣污染的地區(qū)分類
為了了解某大型化工廠對環(huán)境的污染程度,在廠區(qū)及鄰近地區(qū)有代表性的選25個監(jiān)測點(如廠區(qū),生活區(qū),醫(yī)院,學(xué)?!?,每天定時(2點,8點,14點,20點)同時抽取大氣樣品,測定其中6種污染氣體(二氧化硫,硫化氫,碳4,…)的濃度,前后4天共16次數(shù)據(jù),對每個監(jiān)測點,計算每種污染氣體16次實測值的平均值,得25行6列的數(shù)據(jù)陣X,以下由數(shù)據(jù)陣X出發(fā),進(jìn)行分析處理.29第二十九頁,共一百零四頁。環(huán)境科學(xué)-
大氣環(huán)境污染的評估及與職工健康的關(guān)系
用統(tǒng)計分析方法分析處理這些資料.具體地說,使用了系統(tǒng)聚類分析方法,主成分分析方法,因子分析方法等等.不同的統(tǒng)計方法分類的結(jié)果不完全一致,經(jīng)綜合匯總后,把25個取樣點按污染情況分為5類,如分為極嚴(yán)重污染,很嚴(yán)重污染,嚴(yán)重污染,一般污染和較輕污染五大類.
30第三十頁,共一百零四頁。環(huán)境科學(xué)-
大氣環(huán)境污染的評估及與職工健康的關(guān)系
若使用對應(yīng)分析方法,不僅可得出分類結(jié)果,還可給出有污染的每一類主要的污染氣體(元素).這些分類結(jié)果將為今后監(jiān)測點的布局提供既合理又經(jīng)濟(jì)的方案.如果在25個監(jiān)測點以外的其它地方也同時定點測量了6種污染氣體的濃度,則由以上的分類結(jié)果用判別歸類的方法還可給出該地區(qū)的污染分類.31第三十一頁,共一百零四頁。環(huán)境科學(xué)-
大氣環(huán)境污染的評估及與職工健康的關(guān)系
(二)職工體檢資料的統(tǒng)計分析
在23個監(jiān)測點附近各隨機(jī)地抽取40人的體驗資料,共920人.考查的指標(biāo)(因變量)有:
Y1-78年肝大數(shù)量;Y2-78年的白血球;
Y3-78年血收縮壓;Y4-78年血舒張壓;
Y5至Y8為79年同Y1至Y4的指標(biāo);
Y-78年到79年的肝增大數(shù)量;
32第三十二頁,共一百零四頁。環(huán)境科學(xué)-
大氣環(huán)境污染的評估及與職工健康的關(guān)系
影響這些指標(biāo)的因素(自變量)有:
X1-年齡;X2-工齡;
X3-性別;X4-所在地區(qū)的污染類別.我們的目的是找出職工肝大與所在地區(qū)的污染程度是否關(guān)系很顯著.1)用方差分析檢驗不同類別的污染地區(qū)一年之間肝增大量(Y)是否有顯著性差異?這是個單因素的方差分析模型,因變量(指標(biāo))為Y,因素為定性(屬性)變量X4.33第三十三頁,共一百零四頁。環(huán)境科學(xué)-
大氣環(huán)境污染的評估及與職工健康的關(guān)系
問題可化為假設(shè)檢驗問題:假設(shè)即假設(shè)5類地區(qū)職工中肝的平均增大數(shù)量相等.用920人的觀測數(shù)據(jù)來檢驗這個假設(shè)是否成立.
分析計算的結(jié)果在=0.01的水平上否定這個假設(shè).這表明五類不同地區(qū)的平均肝增大數(shù)量有顯著性差異.
類似地可以把性別(X1)作為因素,檢驗?zāi)信毠て骄卧龃髷?shù)量是否有顯著差異.結(jié)果是沒有明顯差異.34第三十四頁,共一百零四頁。環(huán)境科學(xué)-
大氣環(huán)境污染的評估及與職工健康的關(guān)系
這說明職工肝大主要是由大氣污染引起的.與性別(或年齡,工齡)無關(guān),也不是由有些人所說是由于水質(zhì)不好引起的.
2)用回歸分析方法建立Y(肝增大數(shù)量)與X1,X2,X3,X4的相關(guān)關(guān)系式.因為X3和X4為定性(屬性)變量,建立模型之前先把這兩個變量數(shù)量化.
X3=0表示女性,X3=1表示男性.35第三十五頁,共一百零四頁。環(huán)境科學(xué)-
大氣環(huán)境污染的評估及與職工健康的關(guān)系
由以上討論的大氣污染地區(qū)的分類結(jié)果知該地區(qū)的污染情況可分為五類.引入極嚴(yán)重很嚴(yán)重嚴(yán)重一般較輕36第三十六頁,共一百零四頁。環(huán)境科學(xué)-
大氣環(huán)境污染的評估及與職工健康的關(guān)系
用逐步回歸分析方法計算得:第1,2,3類是污染嚴(yán)重的地區(qū),在這三類地區(qū)內(nèi),故
Y=0.4611說明住在污染嚴(yán)重地區(qū)的職工于78年至79年間肝平均增大0.4611(厘米);37第三十七頁,共一百零四頁。環(huán)境科學(xué)-
大氣環(huán)境污染的評估及與職工健康的關(guān)系住在第4類地區(qū)()的職工,這一年間肝平均增大數(shù)量為
0.4611-0.3486=0.1125;而住在第5類地區(qū)()的職工,在這一年間肝平均增大數(shù)量為
0.4611-0.2969=0.1642.總之,以上分析結(jié)果表明,肝大是由大氣污染引起的,與年齡,工齡,性別無顯著關(guān)系.
其它指標(biāo)的分析結(jié)果這里省略了.
38第三十八頁,共一百零四頁。
第0章緒論
§0.2多元統(tǒng)計分析的應(yīng)用領(lǐng)域--環(huán)境科學(xué)
2.環(huán)境科學(xué)
(2)許多學(xué)者研究了洛杉磯地區(qū)大氣中污染物質(zhì)的濃度。在較長的一段時間內(nèi),每天定時測定與污染有關(guān)的幾個指標(biāo)值。用多元統(tǒng)計檢驗的方法首先判斷洛杉磯地區(qū)空氣污染程度在一周內(nèi)是固定不變或周末與平時有顯著差異。其次對這龐雜的觀測數(shù)據(jù)用一種易解釋的方法加以歸納化簡。(3)研究多種污染氣體(CO,CO2,SO2)的濃度與污染源的排放量和氣象因子(風(fēng)向,風(fēng)速,溫度,濕度等)之間的相互關(guān)系.39第三十九頁,共一百零四頁。RandomVectorsandRandomMatrices:RandomvectorVectorwhoseelementsarerandomvariablesRandommatrixMatrixwhoseelementsarerandomvariables§0.3隨機(jī)向量分布基礎(chǔ)40第四十頁,共一百零四頁。ExpectedValueofaRandomMatrix:41第四十一頁,共一百零四頁。MeanVectors:42第四十二頁,共一百零四頁。Covariance:43第四十三頁,共一百零四頁。PopulationVariance-CovarianceMatrices:44第四十四頁,共一百零四頁。X的協(xié)差陣,記作D(X),或COV(X),
D(X)亦記作Σ=(σij),其中σij=Cov(Xi,Xj)。
45第四十五頁,共一百零四頁。PopulationCorrelationCoefficients:46第四十六頁,共一百零四頁。StandardDeviationMatrix:47第四十七頁,共一百零四頁。CorrelationMatrixfromCovarianceMatrix:48第四十八頁,共一百零四頁。
(1)樣本均值向量X:
49第四十九頁,共一百零四頁。
(2)樣本離差陣A(交叉乘積陣):其中50第五十頁,共一百零四頁。(3)樣本協(xié)方差S:(4)樣本相關(guān)陣R:51第五十一頁,共一百零四頁。SampleMeanVectorandCovarianceMatrix:52第五十二頁,共一百零四頁。
例:設(shè)從某書店隨機(jī)抽取4張收據(jù)了解圖書的銷售情況.每張收據(jù)記錄售書數(shù)量X2及總金額X1,具體數(shù)值如下:試計算樣本均值,樣本離差陣,樣本協(xié)差陣和相關(guān)陣.
解:53第五十三頁,共一百零四頁。樣本離差陣A的計算公式為:54第五十四頁,共一百零四頁。55第五十五頁,共一百零四頁。設(shè)X(i)(i=1,…,n)
是p元總體(μ,Σ)的隨機(jī)樣本,n>p,則μ,Σ的常用估計為(5)參數(shù)的估計:56第五十六頁,共一百零四頁。相關(guān)系數(shù)ρij的估計為:其中
。稱S為樣本協(xié)方差矩陣、rij為樣本相關(guān)系數(shù)、
為樣本相關(guān)矩陣。57第五十七頁,共一百零四頁。在MATLAB中計算向量均值、方差、協(xié)方差以及相關(guān)系數(shù)的命令分別為:mean(data),var(data),cov(data),corrcoef(data)如果要將矩陣X的數(shù)據(jù)標(biāo)準(zhǔn)化,如何實現(xiàn)?Y=zscore(X)58第五十八頁,共一百零四頁。0.4描述統(tǒng)計
及MATLAB實現(xiàn)4.1一維數(shù)據(jù)的數(shù)字特征4.1.1表示位置的數(shù)字特征1.均值數(shù)據(jù)的平均值稱為該數(shù)據(jù)的均值,記為在MATLAB中命令為:mean(data)如果data是一個m╳n的矩陣,mean(data)輸出的結(jié)果是什么?如何用數(shù)學(xué)公式表示?59第五十九頁,共一百零四頁。設(shè)矩陣mean(X)=是行向量其中,如果要將矩陣X的數(shù)據(jù)標(biāo)準(zhǔn)化,如何實現(xiàn)?Y=[X-ones(n,1)*mean(X)]./[ones(n,1)*std(X)]或者直接利用命令:Y=zscore(X)60第六十頁,共一百零四頁。2.次序統(tǒng)計量將數(shù)據(jù)x1,x2,…,xn
按從小到大的次序排列,所得的結(jié)果記為:稱為原數(shù)據(jù)的次序統(tǒng)計量。在MATLAB中,利用sort(data)就可得到次序統(tǒng)計量。3.中位數(shù)中位數(shù)的計算公式為:中位數(shù)是整個數(shù)據(jù)位置居中的數(shù)據(jù),因此受異常值的影響較小,具有較好的穩(wěn)健性。MATLAB中計算中位數(shù)的命令為:median(data)61第六十一頁,共一百零四頁。4.分位數(shù)對0p<1,數(shù)據(jù)x1,x2,…,xn的p分位數(shù)是其中[np]表示np的整數(shù)部分,當(dāng)p=1時,定義M1=x(n)。計算P分位數(shù)的命令:prctile(data,P),其中P=100*p在實際應(yīng)用中,0.75分位數(shù)與0.25分位數(shù)比較重要,他們分別稱為上、下四分位數(shù),簡記為Q3=M0.75,Q1=M0.2562第六十二頁,共一百零四頁。5.三均值眾所周知,均值與中位數(shù)M都是描述數(shù)據(jù)集中位置的數(shù)字特征,均值用了數(shù)據(jù)的全部信息,M只用了部分信息,通常情況下,均值比中位數(shù)有效。但是當(dāng)數(shù)據(jù)有異常值時,中位數(shù)比較穩(wěn)健,為了兼顧兩方面的優(yōu)勢,我們可以計算三均值,其公式如下:例如數(shù)據(jù):5,3,11,3,1,7,8其次序統(tǒng)計量為:1,3,3,5,7,8,11中位數(shù)=5,25%,與75%的分位數(shù)為:prctile(data,[25,75]):3和7.563第六十三頁,共一百零四頁。實際上,三均值就是中位數(shù)與上、下四分位數(shù)的加權(quán)平均,權(quán)向量為w=(0.25,0.5,0.25),另一個向量為,這兩個向量的數(shù)量積就是三均值。年份國民生產(chǎn)總值第一產(chǎn)業(yè)第二產(chǎn)業(yè)工
業(yè)第三產(chǎn)業(yè)人均GDP198010713232745514884681222899450198113780151187589455377227669566198215893058096678736196232961642198317862663713772337121737680712198421203973536945798698043924834198524305884053109463100434495429421986288432981191255131126506480011031987334507105723142664128772861201261198837995812154415859114621399823140819894153421477141577401442531098881506例1.根據(jù)蚌埠市80年代數(shù)據(jù),計算各指標(biāo)均值、0.99,0.9,0.75,0.5,0.25,0.1,0.05,0.01分位數(shù)以及三均值64第六十四頁,共一百零四頁。解:%輸入原始數(shù)據(jù)A=[107132 32745 51488 46812 22899 450137801 51187 58945 53772 27669 566158930 58096 67873 61962 32961 642178626 63713 77233 71217 37680 712212039 73536 94579 86980 43924 834243058 84053 109463 100434 49542 942288432 98119 125513 112650 64800 1103334507 105723 142664 128772 86120 1261379958 121544 158591 146213 99823 1408415342 147714 157740 144253 109888 1506];%計算各指標(biāo)均值、分位數(shù)、三均值[mean(A);%各指標(biāo)均值ans=1.0e+005*2.45580.83641.04410.95310.57530.0094如何理解數(shù)據(jù)輸出的格式?(科學(xué)計數(shù)法)即:24558083640104410953105753094065第六十五頁,共一百零四頁。%計算分位數(shù)prctile(A,100*[0.99,0.9,0.75,0.5,0.25,0.1,0.05,0.01])
4153401477101585901462101098901510397650134630158170145230104860146033451010572014266012877086120126022755078790102020937104673089015893058100678706196032960640122470419705522050290252805101071303275051490468102290045010713032750514904681022900450輸出結(jié)果為86的矩陣:每一列是每項指標(biāo)的各種分位數(shù),其中第四行即中位數(shù).median(A)%計算各指標(biāo)中位數(shù),=上面的第4行[0.25,0.5,0.25]*prctile(A,[25,50,75])%各指標(biāo)三均值
23713080350103640945405314092066第六十六頁,共一百零四頁。4.1.2表示分散性的數(shù)字特征1.方差、標(biāo)準(zhǔn)差與變異系數(shù)數(shù)據(jù)x=(x1,x2,…,xn),的方差為:其算術(shù)平方根稱為數(shù)據(jù)的標(biāo)準(zhǔn)差或根方差,在MATLAB中命令分別為:var(data),std(data)例2.已知x=(x1,x2,…,xn),則xxT=?則(x-mean(x))*(x-mean(x))T/(n-1)=?67第六十七頁,共一百零四頁。變異系數(shù):刻畫數(shù)據(jù)相對分散性的一種度量方法計算公式為:有些書中用
在MATLAB中命令分別為:std(data)./mean(data),std(data)./abs(mean(data))2.極差與四分位極差上、下四分位數(shù)之差稱為四分位極差,記為極差的計算公式:R=x(n)-x(1)在MATLAB中命令分別為:range(data),iqr(data)68第六十八頁,共一百零四頁。如果A是一個n行,p列的矩陣,則range(A)計算A中每一列數(shù)據(jù)的極差,如果計算A的每行數(shù)據(jù)極差,只需將A轉(zhuǎn)置既可.即:range(A’)由于正態(tài)總體N(,2)的上、下四分位數(shù)分別為0.75=+0.6745,0.25=-0.6745故正態(tài)總體四分位極差為:0.75-0.25=1.349對于標(biāo)準(zhǔn)差為的一般總體分布,的穩(wěn)健估計為:3.異常點判別數(shù)據(jù)的下、上截斷點為:Q1-1.5R1,Q3+1.5R1位于下、上截斷點之外的點稱為異常點.69第六十九頁,共一百零四頁。年份國民生產(chǎn)總值第一產(chǎn)業(yè)第二產(chǎn)業(yè)工
業(yè)第三產(chǎn)業(yè)人均(元)GDP19904257391413901648841512581194651480199136868181940164548139623122193123119925157761375952190721951271591091696199363067619214325482722634718370620491994792357239521328715291616224121254819959428582904003770163144672754423003199611503223335934648753810313518543622199713631623932665567334649424131634241199815003334073136047104682244883104618199915542314285695870454713705386174734例4.計算經(jīng)濟(jì)數(shù)據(jù)的方差、標(biāo)準(zhǔn)差、變異系數(shù)解:原始數(shù)據(jù)記為A,粘貼到MATLAB,于是[var(A);std(A);std(A)./mean(A)]%方差、標(biāo)準(zhǔn)差、變異系數(shù)70第七十頁,共一百零四頁。1.偏度k階中心矩
447269.32124627.47172594.05131193.17152861.171322.46
0.480.470.460.420.530.454.1.3表示分布形狀的數(shù)字特征偏度計算公式:其中u3,s分別表示數(shù)據(jù)的3階中心矩與標(biāo)準(zhǔn)差MATLAB中的命令:y=skewness(data,0)如果data是一個矩陣,則計算各列的偏度.71第七十一頁,共一百零四頁。如果記不住命令,如何利用已經(jīng)學(xué)過的內(nèi)容進(jìn)行計算是我們必須學(xué)會的方法,請看下面的解法x=[data];%輸入數(shù)據(jù)n=length(x);%數(shù)據(jù)的長度u3=moment(x,3);%計算3階中心矩s=std(x);%計算標(biāo)準(zhǔn)差g1=n.^2*u3/((n-1)*(n-2)*s.^3)如果不知道計算中心矩的命令moment,你如何實現(xiàn)偏度的計算?u3=sum((x-mean(x)).^3)/n72第七十二頁,共一百零四頁。2.峰度在MATLAB中,計算峰度的命令為:kurtosis(data,0)注意:按Matlab中的公式,正態(tài)分布的峰度為3,而本教材公式正態(tài)分布的峰度為0為了得到書中的結(jié)果只需:kurtosis(data,0)-3峰度計算公式:73第七十三頁,共一百零四頁。峰度用來衡量數(shù)據(jù)尾部的分散性:正態(tài)分布峰度為零,峰度>0,則厚尾,峰度<0,則細(xì)尾,在金融時間序列分析中,通常要研究數(shù)據(jù)是否為尖峰、細(xì)腰、厚尾等特性。偏度用來衡量數(shù)據(jù)的對稱性:偏度為零表明是對稱分布,偏度>0,則右偏,反之則左偏;在MATLAB中的正態(tài)分布檢驗的一個命令h=jbtest(data),就是基于偏度與峰度所建立.74第七十四頁,共一百零四頁。例5計算例4各指標(biāo)的偏度與峰度解:A=[data];%data即表中的2—6列的數(shù)據(jù)formatlong%長數(shù)位輸出[skewness(A,0);kurtosis(A,0)-3],表2.蚌埠市90年代各經(jīng)濟(jì)指標(biāo)的偏度與峰度生產(chǎn)總值第一產(chǎn)業(yè)第二產(chǎn)業(yè)工業(yè)第三產(chǎn)業(yè)人均GDP偏度系數(shù)0.2255781331-0.0435930780.1723024482130.0616271379520.5198548855250.183901977344峰度系數(shù)-1.6131486490-1.5649510273-1.69890054690-1.68278514534-1.21662309936-1.6506491708775第七十五頁,共一百零四頁。4.2數(shù)據(jù)分布數(shù)據(jù)的數(shù)字特征刻畫了數(shù)據(jù)的主要特征,而要對數(shù)據(jù)的總體情況作全面地了解,就必須研究數(shù)據(jù)的分布。數(shù)據(jù)分析的一個重要內(nèi)容就是研究數(shù)據(jù)是否服從正態(tài)分布,若不服從正態(tài)分布,那么可能服從什么分布,如何判定。4.2.1直方圖、經(jīng)驗分布函數(shù)與QQ圖在MATLAB中作直方圖的命令為:hist(data,k)其中,data是原始數(shù)據(jù),k表示平均分區(qū)間(min(data),max(data))的份數(shù),k缺省時為10n=hist((data,nb)可以計算數(shù)據(jù)落在小區(qū)間內(nèi)的頻數(shù),其中,nb是自己定義的小區(qū)間的中點,n輸出各小區(qū)間的頻數(shù)。76第七十六頁,共一百零四頁。[例1].某班級考試成績?nèi)缦?,作出直方圖,并統(tǒng)計各分?jǐn)?shù)段人數(shù)cj=[62,79,84,72,87,99,81,86,67,71,91,83,46,67,72,88,60,95,73,60,99,77,87,85,53,76,90,79,66,100];nb=[54.5,64.5,74.5,84.5,94.5];n=hist(cj,nb),hist(cj)結(jié)果為:n=26886,即下表所示不及格60—6970—7980—8990—1002人6人8人8人6人77第七十七頁,共一百零四頁。如果要配上正態(tài)概率密度曲線,則命令如下:histfit(data)圖1.1直方圖78第七十八頁,共一百零四頁。設(shè)來自總體的分布的樣本是x1,x2,...xn,其次序統(tǒng)計量是x(1),x(2),...x(n
)則經(jīng)驗分布函數(shù)是:經(jīng)驗分布函數(shù)對于一般總體分布,若要估計他的總體分布函數(shù),可以用經(jīng)驗分布函數(shù)做估計。79第七十九頁,共一百零四頁。在MATLAB中,如下命令可以做出經(jīng)驗分布函數(shù)圖形,并給出部分統(tǒng)計量。[h,stats]=cdfplot(data)[例2].做出例1中數(shù)據(jù)的經(jīng)驗分布函數(shù)x=[62,79,84,72,87,99,81,86,67,71,91,83,46,67,72,88,60,95,73,60,99,77,87,85,53,76,90,79,66,100];[h,stats]=cdfplot(x)最低分min:46最高分max:100平均分mean:77.8333中位數(shù)median:79標(biāo)準(zhǔn)差std:13.776880第八十頁,共一百零四頁。圖1.2考試成績的經(jīng)驗分布圖1.3經(jīng)驗分布與正態(tài)分布函數(shù)QQ圖無論是直方圖還是經(jīng)驗分布函數(shù)圖形,要從圖形上看出是否服從某種類型隨機(jī)變量的分布是很困難的,QQ圖有助于我們鑒別樣本的數(shù)據(jù)是否近似的服從某類分布。在MATLAB中給出了正態(tài)分布和威布爾分布的QQ圖命令:81第八十一頁,共一百零四頁。[例3].做出例1中數(shù)據(jù)的QQ圖解:normplot(x),weibplot(x)圖1.4考試成績的QQ圖82第八十二頁,共一百零四頁。從圖1.4可以看出,除了100分這一點其余各點基本上都位于直線上,故可以認(rèn)為近似服從正態(tài)分布。能否認(rèn)為服從威布爾分布呢?2關(guān)于數(shù)據(jù)的常用變換公式當(dāng)數(shù)據(jù)在左邊或右邊有長尾巴,或很不對稱時,有時需要對數(shù)據(jù)進(jìn)行變換以符合非參數(shù)(或參數(shù))統(tǒng)計推斷方法的某些條件.其中最常用的一種方法就是box-cox變換
(x>0)83第八十三頁,共一百零四頁。在MATLAB中,上述變換的命令如下:[t,l]=boxcox(x)其中x是原始數(shù)據(jù),t是變換以后的數(shù)據(jù),l是變換公式中參數(shù)的數(shù)值例4.我們以1949—1991淮河流域成災(zāi)面積為例說明如何利用上述的變換使得數(shù)據(jù)從不具備正態(tài)分布到符合正態(tài)分布.圖1.51949—1991淮河流域成災(zāi)面積qq圖84第八十四頁,共一百零四頁。從圖上可以看出散點并不聚集在直線上,因此流域成災(zāi)面積(原始數(shù)據(jù))不服從正態(tài)分布,這一點也可以通過jbtest檢驗來證實.但是通過變換以后的圖形如圖1.8所示,顯然數(shù)據(jù)服從正態(tài)分布.圖1.6流域成災(zāi)面積(變換后數(shù)據(jù))圖85第八十五頁,共一百零四頁。圖1.5流域成災(zāi)面積(原始數(shù)據(jù))圖圖1.6流域成災(zāi)面積(變換后數(shù)據(jù))圖86第八十六頁,共一百零四頁。4.2.2莖葉圖及五數(shù)總括莖葉圖:與直方圖相比,莖葉圖更能細(xì)致地看出數(shù)據(jù)的分布結(jié)構(gòu),我們用具體例子說明如何作出數(shù)據(jù)的莖葉圖。[例5].做出例1中數(shù)據(jù)的莖葉圖解:首先將數(shù)據(jù)從小到大排列得到:sort(x)ans=4653606062666767717272737677797981838485868787889091959999100第一個數(shù)46的十位數(shù)為4,個位數(shù)為6,將其分割成,每一個數(shù)都采取上述方法,然后將十位數(shù)從4到10排成一列,右邊按從小到大寫出各位數(shù)字,最右邊寫出頻數(shù)87第八十七頁,共一百零四頁。上述莖葉圖利用公式編輯器作出從莖葉圖可以看出數(shù)據(jù)是比較對稱的88第八十八頁,共一百零四頁。中位數(shù),上、下分位數(shù),最大、最小數(shù)統(tǒng)稱五數(shù)總括在Matlab中:[min(data),prctile(data,[25,50,75]),max(data)]對于[例4]中的數(shù)據(jù),我們可得:
466779871004.2.3數(shù)據(jù)的分布擬合檢驗與正態(tài)性檢驗盡管我們可以畫出QQ圖、莖葉圖、直方圖直觀地得到數(shù)據(jù)可能服從什么分布,但是從概率的意義上,我們?nèi)砸o出正態(tài)性分布的假設(shè)檢驗以及分布擬合檢驗。89第八十九頁,共一百零四頁。正態(tài)性檢驗用于檢驗樣本數(shù)據(jù)是否來自正態(tài)分布總體;分布擬合檢驗用于檢驗樣本數(shù)據(jù)是否來自某種類型的分布總體。顯然,正態(tài)性檢驗是分布擬合檢驗中很重要的一種,下面我們分別介紹利用MATLAB從事正態(tài)性檢驗與分布擬合檢驗的命令與步驟:正態(tài)性檢驗正態(tài)分布的擬合優(yōu)度測試有兩個命令:jbtest與lillietest,其中后者用于小樣本檢測。90第九十頁,共一百零四頁。[h,p,jbtest,cv]=jbtest(x,alpha)輸入:x是被檢測的數(shù)據(jù),alpha是顯著性水平0<<1輸出:h=0,無法拒絕正態(tài)分布,h=1,拒絕正態(tài)分布;
P-檢驗的概率值,jbtest-jb統(tǒng)計量,cv-為是否拒絕原假設(shè)的臨界值,由于jbtest檢驗用到漸近分布,故通常用于大樣本檢驗,如果是小樣本,則應(yīng)使用lillietest[h,h,lstat,cv]=lillietest(x,alpha)輸入:x是被檢測的數(shù)據(jù),alpha是顯著性水平(取值在0.01和0.2之間),缺省時為0.0591第九十一頁,共一百零四頁。[例6.]我國受災(zāi)面積統(tǒng)計如下,利用MATLAB檢驗表中五項指標(biāo)是否服從正態(tài)分布?年份受災(zāi)面積成災(zāi)面積水災(zāi)成災(zāi)面積旱災(zāi)成災(zāi)面積農(nóng)林牧漁總產(chǎn)值197850790244572012179701397.019793937015120287093201697.6198044526297776070141741922.6198139786187433973121342180.619823313315985439799722483.319833471316209574775862750.019843188715607539570153214.1198544365227058949100633619.5198647135236565601147654013.0198742086203934104130334675.7198850874239456128153035865.3198946991224495917152626534.719903847417819560578057662.11991554722781414614105598157.019925133325859446
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年消防給水工程智能化施工及維護(hù)服務(wù)合同3篇
- 2025變頻器代理商銷售合同:產(chǎn)品價格調(diào)整與結(jié)算協(xié)議3篇
- 2025年度紡織行業(yè)新材料研發(fā)與應(yīng)用采購合同2篇
- 2025年度工業(yè)倉儲租賃及倉儲設(shè)施維護(hù)保養(yǎng)合同范本3篇
- 二零二五年房地產(chǎn)項目工程造價咨詢合同模板3篇
- 二零二四年員工自愿放棄社保及轉(zhuǎn)移待遇合同3篇
- 2025年度藝術(shù)展布展藝術(shù)品保護(hù)與搬運合同3篇
- 二零二五版二手房交易中介服務(wù)合同模板2篇
- 2024虛擬現(xiàn)實內(nèi)容開發(fā)制作合同
- 2025年消防噴淋系統(tǒng)安裝及消防設(shè)施檢測與維保服務(wù)合同3篇
- 《FANUC-Oi數(shù)控銑床加工中心編程技巧與實例》教學(xué)課件(全)
- 微信小程序運營方案課件
- 抖音品牌視覺識別手冊
- 陳皮水溶性總生物堿的升血壓作用量-效關(guān)系及藥動學(xué)研究
- 安全施工專項方案報審表
- 學(xué)習(xí)解讀2022年新制定的《市場主體登記管理條例實施細(xì)則》PPT匯報演示
- 好氧廢水系統(tǒng)調(diào)試、驗收、運行、維護(hù)手冊
- 中石化ERP系統(tǒng)操作手冊
- 五年級上冊口算+脫式計算+豎式計算+方程
- 氣體管道安全管理規(guī)程
- 《眼科學(xué)》題庫
評論
0/150
提交評論