《多元統(tǒng)計實驗》主成分分析實驗報告二_第1頁
《多元統(tǒng)計實驗》主成分分析實驗報告二_第2頁
《多元統(tǒng)計實驗》主成分分析實驗報告二_第3頁
《多元統(tǒng)計實驗》主成分分析實驗報告二_第4頁
《多元統(tǒng)計實驗》主成分分析實驗報告二_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

——《多元統(tǒng)計實驗》主成分分析實驗報告實驗名稱:主成分分析實驗?zāi)康模赫莆蔗槼煞址治龅幕舅枷胝莆湛傮w主成分、樣本主成分的性質(zhì)及步驟會利用R軟件對實際問題做主成分分析實驗設(shè)備與環(huán)境:計算機,R等。一、實驗內(nèi)容6.5(數(shù)據(jù)文件為ex6.5)

表6-8為某地農(nóng)業(yè)生態(tài)經(jīng)濟系統(tǒng)各區(qū)域相關(guān)指標數(shù)據(jù),運用主成分分析方法,用少量指標較為精確地描述該地區(qū)農(nóng)業(yè)生態(tài)經(jīng)濟的發(fā)展?fàn)顩r.其中,x1為人口密度(人/平方千米);x2為人均耕地面積(公頃);x3為森林覆蓋率(%);x4為農(nóng)民人均純收入(元/人);x5

為人均糧食產(chǎn)量(千克/人);x6為經(jīng)濟作物占農(nóng)作物播種面積比例(%);x7為耕地占土地面積比例(%);x8為果園與林地面積之比(%);

x9為灌溉田占耕地面積比例(%).6.7

(數(shù)據(jù)文件為ex6.7)

我國2017年各地區(qū)城鎮(zhèn)居民人均全年消費數(shù)據(jù)如表6-10所示,這些指標分別從食品煙酒()、衣著(x2)、居住(23)、生活用品及服務(wù)(.小交通通信(xs)、教育文化娛樂(xo)、醫(yī)療保健(2)和其他用品及服務(wù)(20)

八個方面來描述消費情況試對這些數(shù)據(jù)進行.二、運行程序6.5代碼setwd("D:/多元統(tǒng)計分析/多元統(tǒng)計實驗報告四/data/")getwd()eg6.5<-read.csv("D:/多元統(tǒng)計分析/多元統(tǒng)計實驗報告四/data/ex6.5.csv",header=T)#將eg6.5的數(shù)據(jù)讀入到d6.1中d6.5=eg6.5[,-1];#去除樣本名稱rownames(eg6.5)=d6.5[,1]#用數(shù)據(jù)R=round(cor(d6.5),3)#求樣本相關(guān)系數(shù)矩陣,保留三位小數(shù)Rsymnum(cor(d6.5,use="complete"))PCA6.5=princomp(d6.5,cor=T)#用樣本相關(guān)系數(shù)陣作主成分分析summary(PCA6.5,loadings=T)#列出主成分分析結(jié)果screeplot(PCA6.5,type="barplot")#畫圖load=loadings(PCA6.5)#提取數(shù)據(jù)plot(load[,1:3],xlim=c(-0.5,0.7),ylim=c(-1,0.6))#用載荷矩陣做散點圖rnames=c("人口密度","人均耕地面積","森林覆蓋率","農(nóng)民人均收入","人均糧食產(chǎn)量","經(jīng)濟作物占農(nóng)作物播種面積","耕地占土地面積比","果園與林地面積之比","灌溉田占1耕地面積比例")text(load[,1],load[,2],labels=rnames,adj=c(-0.5,0.5),cex=0.7)#用中文abline(h=0,v=0)#劃分象限A=round(PCA6.5$scores,3)#計算主成分,保留三位小數(shù)B=round(apply(A[,1:3],1,crossprod),2)#按行加總前三個主成分載荷平方綜合得分cbind(A,B,rank(B))#按列合并主成分得分,綜合得分排序biplot(PCA6.5,scale=0.5)#繪制行業(yè)樣本點關(guān)于前兩個主成分的散點圖6.7setwd("D:/多元統(tǒng)計分析/多元統(tǒng)計實驗報告四/data/")getwd()ex6.7<-read.csv("D:/多元統(tǒng)計分析/多元統(tǒng)計實驗報告四/data/ex6.7.csv",header=T)#將ex6.7數(shù)據(jù)讀入d6.7=ex6.7[,-1]rownames(d6.7)=ex6.7[,1]#用數(shù)據(jù)R=round(cor(d6.7),3)#求樣本相關(guān)系數(shù)矩陣,保留3位小數(shù)Rsymnum(cor(d6.7,use="complete.obs"))PCA6.7=princomp(d6.7,cor=T)#用樣本相關(guān)系數(shù)陣作主成分分析PCA6.7summary(PCA6.7,loadings=T)#列出主成分分析結(jié)果round(predict(PCA6.7),3)#作預(yù)測,即計算各樣本主成分得分screeplot(PCA6.7,type="lines")#畫碎石圖,用直線圖類型load=loadings(PCA6.7)#提取主成分載荷矩陣plot(load[,1:3],xlim=c(-0.1,0.5),ylim=c(-0.6,0.7))#作前3個主成分的載荷散點圖rnames=c("食品煙酒","衣著","居住","生活用品及服務(wù)","交通通信","教育文化娛樂","醫(yī)療保健","其他用品及服務(wù)")#使用中文名稱text(load[,1],load[,2],labels=rnames,adj=c(-0.3,1.5))#用中文對散點標注abline(h=0,v=0)#劃分象限biplot(PCA6.7,scale=0.5)#繪制52個樣本點關(guān)于前兩個主成分的散點圖三、實驗結(jié)果分析6.5人均糧食產(chǎn)量x5,經(jīng)濟作物占農(nóng)作物播種面積x6,耕地占土地面積比x7,果園與林地面積之比x8,灌溉田占1耕地面積比例x9等五個指標有較強的相關(guān)性,人口密度x1,人均耕地面積x2,森林覆蓋率x3,農(nóng)民人均收入x4相關(guān)性也很強,再作主成分分析,求樣本相關(guān)矩陣的特征值和主成分載荷。λ11/2=2.158962,λ21/2=1.4455076,λ31/2=1.0212708,λ41/2=0.71233588,λ51/2=0.5614001,λ61/2=0.43887788,λ71/2=0.33821497,λ81/2=0.212900230,λ91/2=0.177406876。確定主成分分析,前兩個主成分的累積方差貢獻率為75.01%,前三個主成分的累積方差貢獻率為86.59%,按照累積方差貢獻率大于80%的原則,主成分的個數(shù)取為3,前三個主成分分別為:Z*1=0.3432x*1-0.446x*3+0.376x*5+0.379x*6+0.432x*7+0.446x*9Z*2=0.368x*1-0.614x*2-0.61x*4-0.307x*5-0.1224x*6Z*3=-0.122x*6+0.246x*7-0.950x*8第一主成分在x*7,x*9兩個指標上取值為正且載荷較大,可視為反映耕地占比和灌溉田占耕地面積比例的主成分,第二主成分在x*2和x*4這兩個指標的取值為負,絕對值載荷最大,不能作為人均耕地和人均收入的主成分。第三主成分,x*8這個指標取值為負且,載荷絕對值最大,不能反映果園與林地面積之比的主成分。根據(jù)該圖結(jié)果可以認為選取前兩個指標作為主成分分析的選擇是正確的。將八個指標按前兩個主成分進行分類:由結(jié)果可以得出森林覆蓋率為一類,人口密度、果園與林地面積之比、耕地占土地面積比、灌溉田占耕地面積比為一類,經(jīng)濟作物占農(nóng)作物播種面積比例、人均糧食產(chǎn)量、農(nóng)民人均收入、人均耕地面積為一類。利用各個指標數(shù)量分析數(shù)據(jù),按行加總前三個主成分上的載荷平方得到總和以及在21個指標中的排名,可以得出序號為為二十一的排名第一,序號為20的排名第二,序號為17的排名第三。對8個指標數(shù)據(jù)的雙坐標散點圖,可以看出在第一主成分中序號為6、8的農(nóng)業(yè)生態(tài)經(jīng)濟系統(tǒng)系數(shù)為負值占比大較高,序號為2、5的農(nóng)業(yè)生態(tài)經(jīng)濟系統(tǒng)系數(shù)為正占比也較大生態(tài)經(jīng)濟較低。在第二主成分結(jié)果來看序號為6、8、2、5的系數(shù)值為負則農(nóng)業(yè)生態(tài)經(jīng)濟系較高序號為11、18的系數(shù)值為負農(nóng)業(yè)生態(tài)經(jīng)濟系較低。6.7再R中,使用函數(shù)symnum()來用符號表示出相關(guān)系數(shù)矩陣中絕對值位于不同區(qū)間內(nèi)的相關(guān)系數(shù)的位置,其中0~0.3用空格,0.3~0.6用句號,0.6~0.8用逗號,0.8~0.9用加號,0.9~0.95用星號,0.95~1用字母B表示。由程序運行結(jié)果可知主成分的標準差,即相關(guān)系數(shù)矩陣的八個特征值開方分別為:λ11/2=2.2796090,λ21/2=1.0721838,λ31/2=0.83107529,λ41/2=0.56643108,λ51/2=0.48752868,λ61/2=0.44801747,λ71/2=0.37059372,λ81/2=0.257935792。確定主成分分析,前兩個主成分的累積方差貢獻率為79.33%,前三個主成分的累積方差貢獻率為87.96%,按照累積方差貢獻率大于80%的原則,主成分的個數(shù)取為3,前三個主成分分別為:Z*1=0.279x*1+0.241x*2+0.390x*3+0.392x*4+0.386x*5+0.375x*6+0.312x*7+0.414x*8Z*2=0.594x*1-0.596x*2+0.260x*3-0.459x*7Z*3=0.404x*1+0.615x*2-0.166x*3+0.115x*4-0.465x*6-0.429x*7+0.122*8第一主成分在八個指標上取值為均為正且載荷較大,居民消費均衡點的特點,所反映的是我國各個省份都很高或者都不高,第二主成分在x*2和x*7這兩個指標的取值為負,絕對值載荷最大,反映醫(yī)療保健和依著消費較高。第三主成分,x*2這個指標取值為正且載荷絕對值最大,反映出我國各個省份居民依著消費較大。從碎石圖可以看出,前兩個主成分的方差占了總方差的大部分,所以在本問題中選取前兩個主成分是合適的,下面使用主成分載荷陣作主成分散點圖進行分析。從散點圖中可以得出兩個主成分的八個指標具有明顯的城鎮(zhèn)居民消費差異。將八個指標按前兩個主成分進行分類:由結(jié)果可以得出食品煙酒、居住、生活用品及服務(wù)、交通通信、教育文化娛樂為一類,依著、醫(yī)療保健、其他用品及服務(wù)為一類。在圖中可以看出在第二主成分中山西、內(nèi)蒙古、遼寧、吉林、黑龍江的系數(shù)為負值,且絕對值較小,居民消費較低。在第一主成分中江西、廣西、海南、西藏的預(yù)測值(即主成分分析)為負,且絕對值較大,說明這四個地方綜合消費性支出較低,其中北京、上海兩個省的系數(shù)值為正且最大,表明該省份居民消費也最高。對8個指標數(shù)據(jù)的雙坐標散點圖,可以看出在第一主成分中上海和北京的居民消費較高,廣西與海南及西藏,江西的系數(shù)為負值居民消費較低。在第二主成分結(jié)果來看內(nèi)蒙古居民消費較高,海南、福建廣東等居民消費較低。四、實驗總結(jié)主成分分析的基本思想:主成分分析是利用降維的思想,將多個變量轉(zhuǎn)化為少數(shù)幾個綜合變量,其中每個主成分都是原始變量的線性組合,各主成分之間互不相關(guān),從而這些主成分能夠反映始變量的絕大部分信息,且所含的信息互不重疊。主成分分析屬于多元統(tǒng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論