數(shù)理統(tǒng)計 數(shù)學(xué)建模_第1頁
數(shù)理統(tǒng)計 數(shù)學(xué)建模_第2頁
數(shù)理統(tǒng)計 數(shù)學(xué)建模_第3頁
數(shù)理統(tǒng)計 數(shù)學(xué)建模_第4頁
數(shù)理統(tǒng)計 數(shù)學(xué)建模_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)理統(tǒng)計 主成分分析摘要:本文根據(jù)問題中的條件和要求,建立了數(shù)理統(tǒng)計中的主成分分析模型,運(yùn)動主成分分析法研究反映每人平均生活消費(fèi)支出情況的六個指標(biāo)變量之間的關(guān)系。根據(jù)所給的數(shù)據(jù)以生活水平值為因變量,其余變量為自變量,做主成分回歸。從而對六維變量空間進(jìn)行降維處理,提取出兩個能夠全面反映原有變量所含信息的新指標(biāo)變量,即主成分。利用原指標(biāo)與主成分的相關(guān)系數(shù)即因子載荷,解釋了各主成分的意義。并利用第一主成分與第二主成分對16個地區(qū)進(jìn)行分類。如下表所示:各地區(qū)在第一主成分和第二主成分值(標(biāo)準(zhǔn)化后)地區(qū)北京天津河北山西第一主成分得分3.8516 0.7074 -2.0545 -2.1393 第二主成分得分

2、0.2697 1.2645 1.2167 1.5135 地區(qū)內(nèi)蒙古遼寧吉林黑龍江第一主成分得分-1.2734 0.4404 0.1334 -0.7937 第二主成分得分1.0283 -0.3943 -1.4876 -0.4944 地區(qū)上海江蘇浙江安徽第一主成分得分4.4150 0.26641.1474 -0.6009 第二主成分得分0.5354 -0.00110.0947 -1.5977 地區(qū)福建江西山東河南第一主成分得分-0.6727 -1.3231 -0.3028 -1.8013第二主成分得分-1.9125 -1.6677 0.7403 0.8923【關(guān)鍵字】:主成分分析法 回歸 主成分

3、分類1. 問題重述下表1-1是我國16個地區(qū)農(nóng)民在某年支出情況的抽樣調(diào)查數(shù)據(jù)的匯總資料,每個地區(qū)都調(diào)查了反映每人平均生活消費(fèi)支出情況的六個指標(biāo)。試對調(diào)查資料中的16個地區(qū)的農(nóng)民生活水平進(jìn)行主成分分析,并利用前兩個主成分對16個地區(qū)的農(nóng)民生活水平進(jìn)行分類。、表1-1 16個地區(qū)的農(nóng)民生活水平的調(diào)查數(shù)據(jù) (單位:元)地區(qū)食品()衣著()燃料()住房()生活用品及其它()文化生活服務(wù)()北京190.3343.779.7360.5449.019.04天津135.2036.4010.4744.1636.493.94河北95.2122.839.3022.4422.812.80山西104.7825.116.

4、409.8918.173.25內(nèi)蒙古128.4127.638.9412.5823.993.27遼寧145.6832.8317.7927.2939.093.47吉林159.3733.3818.3711.8125.295.22黑龍江116.2229.5713.2413.7621.756.04上海221.1138.6412.53115.6550.825.89江蘇144.9829.1211.6742.6027.305.74浙江169.9232.7512.7247.1234.355.00安徽153.1123.0915.6223.5418.186.39福建144.9221.2616.9619.5221.7

5、56.73江西140.5421.5017.6419.1915.974.94山東115.8430.2612.2033.6133.773.85河南101.1823.268.4620.2020.504.30 2.模型的假設(shè)與符號說明模型的假設(shè):(1)題中所給的數(shù)據(jù)真實(shí)可靠(2)符號說明:未標(biāo)準(zhǔn)化前的協(xié)方差:各地區(qū)六個指標(biāo)的值。:各主成分的貢獻(xiàn)率。:前m個主成分的累積貢獻(xiàn)率。:主成分的值。3問題分析主成分分析是把各變量之間互相關(guān)聯(lián)的復(fù)雜關(guān)系進(jìn)行簡化分析的方法。由于多個變量之間往往存在著一定程度的相關(guān)性。人們自然希望通過線性組合的方式,從這些指標(biāo)中盡可能快的提取信息。主成分分析試圖在力保數(shù)據(jù)信息丟失最少

6、的原則下,對這種多變量的截面數(shù)據(jù)表進(jìn)行最佳綜合簡化,也就是說,對高維變量空間進(jìn)行降維處理。主成分回歸是在主成分分析法的基礎(chǔ)上,由個自變量選出前個主成分,他們是互不相關(guān)的;在保持因變量不變,用這個主成分作為自變量作回歸;最后把所得的結(jié)果作變量代換,轉(zhuǎn)化成原來因變量與自變量的關(guān)系。第一主成份的推導(dǎo): 設(shè)X的協(xié)方差陣為 由于x為非負(fù)定的對稱陣,則有利用線性代數(shù)的知識可得,必存在正交陣使得其中為的特征根,不妨假設(shè)。而恰好是由特征根相對應(yīng)的特征向量所組成的正交陣。 設(shè)有維正交向量=當(dāng)且僅當(dāng)時,即 時,有最大的方差。因為 。如果第一主成分表達(dá)的信息不夠,則須找第二主成分。(2)第二主成分:因為第一,第二主

7、成分線性無關(guān)所以有條件,尋找第二主成分。,因為所以。則對維向量有。所以取線性變換,則方差次大。依次類推矩陣形式為 。主成分分析把個原始變量的總方差分解成了個相互獨(dú)立的變量的方差之和。主成分分析的目的是減少變量的個數(shù),所以一般不會使用所有個主成分,忽略一些帶有較小方差的主成分將不會給總方差帶來太大的影響。這里我們稱為第k個主成分的貢獻(xiàn)率。第一主成分的貢獻(xiàn)率最大,這表明綜合原始變量的能力最強(qiáng),而的綜合能力依次遞減。若只取m個主成分,則稱為主成分的累計貢獻(xiàn)率,累計貢獻(xiàn)率表明綜合的能力。通常使得累計貢獻(xiàn)率達(dá)到一個較高的百分?jǐn)?shù)(如85%以上)。4模型的建立與求解主成分分析的數(shù)學(xué)模型是,設(shè)6個變量構(gòu)成6維

8、隨機(jī)向量為。對作正交變換,令,其中為正交陣,要求的各分量是不相關(guān)的,并且的第一個方差是最大的,第二個分量的方差次之,。為了保持信息不丟失,的各分量方差與的各分量方差和相等。其數(shù)學(xué)推導(dǎo)為:(1)由觀測數(shù)據(jù)計算得到未標(biāo)準(zhǔn)化前的協(xié)方差矩陣:設(shè)為一個6維隨機(jī)向量,并假定存在二階矩,其未標(biāo)準(zhǔn)化前的協(xié)方差記為:則1.0000 0.6635 0.3371 0.7800 0.7058 0.6346 0.6635 1.0000 -0.0810 0.6630 0.9015 0.3748 0.3371 -0.0810 1.0000 -0.0887 -0.0614 0.2542 0.7800 0.6630 -0.08

9、87 1.0000 0.8311 0.3635 0.7058 0.9015 -0.0614 0.8311 1.0000 0.3112 0.6346 0.3748 0.2542 0.3635 0.3112 1.0000(2)由協(xié)方差矩陣R得到特征值,i=1,25.,6,及各個主成分的方差貢獻(xiàn)、貢獻(xiàn)率和累計貢獻(xiàn)率,并根據(jù)累計貢獻(xiàn)率確定主成分保留的個數(shù)。可求得,矩陣R所對應(yīng)的特征值y和特征向量x分別為(x的列式相應(yīng)的特征向量):x = 0.4811 -0.2570 0.0445 0.2772 -0.7203 -0.3238 0.4612 0.2176 0.1001 -0.6540 -0.2379 0

10、.4957 0.0525 -0.7777 0.5488 -0.1033 0.2355 0.1584 0.4668 0.1806 0.0726 0.6571 0.2900 0.4779 0.4842 0.2438 0.2472 -0.1851 0.4634 -0.6293 0.3173 -0.4355 -0.7877 -0.1370 0.2652 0.0016對應(yīng)的特征值為:3.5584 1.3163 0.6082 0.3734 0.1072 0.0365設(shè)其特征值(=1,2,6),且,對應(yīng)的正則化的特征向量為(=1,2,6)則由上式可得:=3.5584 =(0.4811,0.4612,0.05

11、25,0.4668,0.4842,0.3173=1.3163 =(-0.2570,0.2176,-0.7777,0.1806,0.2438,-0.4355=0.6082 =(0.0445,0.1001,0.5488,0.0726,0.2472,-0.7877=0.3734 =(0.2772,-0.6540,-0.1033,0.6571,-0.1851,-0.1370=0.1072 =(-0.7203,-0.2379,0.2355,0.2900,0.4634,0.2652=0.0365 =(-0.3238,0.4957,0.1584,0.4779,-0.6293,0.0016(3)寫出m個基本方

12、程 式中,對每一個求他所對應(yīng)的基本方程組的解,然后令,從而得到用所表示的主成分這樣,就把各特征向量的數(shù)值作為系數(shù)就可以寫出預(yù)期的6個主成分表達(dá)式:=0.4811+0.4612+0.0525+0.4668+0.4842+0.3173=-0.2570+0.2176-0.7777+0.1806+0.2438-0.4355=0.0445+0.1001+0.5488+0.0726+0.2472-0.7877=0.2772-0.6540-0.1033+0.6571-0.1851-0.1370=-0.7203-0.2379-0.2355+0.2900+0.46340.2652=-0.3238+0.4957+

13、0.1584+0.4779-0.6293+0.0016各主成分(=1,2,6)的貢獻(xiàn)率(第個主成分反映的信息量)和累計貢獻(xiàn)率。(前個主成分反映的總信息量)。六個主成分的貢獻(xiàn)率和累計貢獻(xiàn)率分別所下表所示:主成分貢獻(xiàn)率累計貢獻(xiàn)率0.59310.59310.21940.81240.10140.91380.06220.97600.01790.99390.00611.0000最后,將標(biāo)準(zhǔn)化后的樣本數(shù)據(jù)代入前兩個主成分=0.4811+0.4612+0.0525+0.4668+0.4842+0.3173和=-0.2570+0.2176-0.7777+0.1806+0.2438-0.4355可得到各地區(qū)在第一

14、主成分和第二主成分的得分情況各地區(qū)在第一主成分和第二主成分值(未標(biāo)準(zhǔn)化前)地區(qū)北京天津河北山西第一主成分得分167.1307 121.9189 79.2343 76.7761 第二主成分得分-28.0084 -19.8101 -18.3375 -21.6388 地區(qū)內(nèi)蒙古遼寧吉林黑龍江第一主成分得分93.5210 118.9345 112.4530 89.1217 第二主成分得分-27.2420 -31.1806 -41.9522 -28.5712 地區(qū)上海江蘇浙江安徽第一主成分得分205.3218 118.7231137.7406 106.9547 第二主成分得分-27.4471 -28.1

15、469-31.7251 -40.5687 地區(qū)福建江西山東河南第一主成分得分102.2007 96.7189 103.5932 80.5728第二主成分得分-39.9080 -39.9484 -20.0456 -20.7458 各地區(qū)在第一主成分和第二主成分值(標(biāo)準(zhǔn)化后)地區(qū)北京天津河北山西第一主成分得分3.8516 0.7074 -2.0545 -2.1393 第二主成分得分0.2697 1.2645 1.2167 1.5135 地區(qū)內(nèi)蒙古遼寧吉林黑龍江第一主成分得分-1.2734 0.4404 0.1334 -0.7937 第二主成分得分1.0283 -0.3943 -1.4876 -0.

16、4944 地區(qū)上海江蘇浙江安徽第一主成分得分4.4150 0.26641.1474 -0.6009 第二主成分得分0.5354 -0.00110.0947 -1.5977 地區(qū)福建江西山東河南第一主成分得分-0.6727 -1.3231 -0.3028 -1.8013第二主成分得分-1.9125 -1.6677 0.7403 0.89235模型的結(jié)果分析與評價模型的結(jié)果分析:第一主成分中、的系數(shù)相比之下都比較大,只有的系數(shù)比較小。它反映除燃料消費(fèi)低外,其它消費(fèi)基本也都較高。它的貢獻(xiàn)率為59.31%,表達(dá)出的信息量很大。第二主成分中的系數(shù)絕對值較大,它指的是反映了燃料消費(fèi)的情況。它的貢獻(xiàn)率為21

17、.94%,表達(dá)的信息較大。此時第一主成分與第二主成分的累計貢獻(xiàn)量達(dá)到81.24%。第三主成分中的系數(shù)的絕對值較大,它指的是農(nóng)民文化生活服務(wù)消費(fèi)的情況,它的貢獻(xiàn)率為10.14%,它表達(dá)的信息已經(jīng)較小。此時第一、二、三主成分的累積貢獻(xiàn)率已經(jīng)高達(dá)91.38%。第四、五、六主成分的累積貢獻(xiàn)率所占的比例非常的小,所表達(dá)的信息很小。因此對反映農(nóng)民生活水平?jīng)]有太大的意義,因此完全可以用第一、二主成分表達(dá)各地區(qū)的消費(fèi)情況來反映農(nóng)民的生活水平,因為此時第一主成分與第二主成分的累計貢獻(xiàn)量達(dá)到81.24%,所表達(dá)的信息量很大。則利用第一主成分和第二主成分的值作出二維散點(diǎn)(如下圖所示):未標(biāo)準(zhǔn)化前的散點(diǎn)圖:標(biāo)準(zhǔn)化后的散點(diǎn)圖:從圖中可以看出,這些地區(qū)大體上可分為大致可以四類第一類包括:上海、北京。這些地區(qū)的農(nóng)民燃料消費(fèi)相對于總消費(fèi)的比率比較趨中,但總體消費(fèi)最高,農(nóng)民生活水平較高。第二類包括:浙江、江蘇、遼寧、黑龍江。這些地區(qū)燃料消費(fèi)相對于總消費(fèi)的比率相對趨中??傁M(fèi)普遍低于北京、上海,但明顯高于后兩類地區(qū)。第三類包括:天津、山東、內(nèi)蒙古、河南、河北、山西。這些地區(qū)燃料消費(fèi)相對于總消費(fèi)的比率較高,農(nóng)民的總體生活水平較低,其中天津、山東的農(nóng)民消費(fèi)水平相對較高。第四類包括:吉林、安徽、福建、江西。這些地區(qū)燃料消費(fèi)相對于總消費(fèi)的比率很低。農(nóng)民的生活水平比較低。模型的評價:現(xiàn)在農(nóng)民

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論