主成分分析和聚類分析_第1頁
主成分分析和聚類分析_第2頁
主成分分析和聚類分析_第3頁
主成分分析和聚類分析_第4頁
主成分分析和聚類分析_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第頁共頁北京建筑工程學(xué)院理學(xué)院信息與計算科學(xué)專業(yè)實驗報告課程名稱數(shù)據(jù)分析實驗名稱主成分分析和聚類分析實驗地點:基礎(chǔ)樓C-423日期_201655姓名張麗芝班級信131學(xué)號201307010108指導(dǎo)教師王恒友成績實驗?zāi)康摹浚?)熟悉利用主成分分析進(jìn)行數(shù)據(jù)分析,能夠使用SPSS軟件完成數(shù)據(jù)的主成分分析;(2)熟悉利用聚類分析進(jìn)行數(shù)據(jù)分析,能夠運(yùn)用主成分分析的結(jié)果,做進(jìn)一步分析,如聚類分析、回歸分析等,能夠使用SPSS軟件完成該任務(wù)。實驗要求】根據(jù)各個題目的具體要求,分別運(yùn)用SPSS軟件完成實驗任務(wù)。實驗內(nèi)容】1、表4.9(數(shù)據(jù)見exercise4_5.txt)給出了1991年我國30個省市、城鎮(zhèn)

2、居民的月平均X2:人均副食支出;X4:人均其他副食支出X6:人均日用品支出;X8:人均非商品支出。消費(fèi)數(shù)據(jù),所考察的八個指標(biāo)如下:(單位均為元/人)X1:人均糧食支出;X3:人均煙酒茶支出;X5:人均衣著商品支出;X7:人均燃料支出;1)求樣本相關(guān)系數(shù)矩陣R。(2)從R出發(fā)做主成分分析,求出各主成分的貢獻(xiàn)率及前兩個主成分的累積貢獻(xiàn)率;2、(1)對題1中的數(shù)據(jù),按照原有的八個指標(biāo),對30個省份進(jìn)行聚類,給出分為3類的聚類結(jié)果。(2)利用題1得到的前2個主成分指標(biāo),分別按最短距離法(最近鄰居距離)、最長距離法(最遠(yuǎn)鄰居距離)、類平均距離法(組間平均距離)、重心距離法;其中距離均采用歐式平方距離,對

3、樣本進(jìn)行譜系聚類分析,并畫出譜系聚類圖;給出分為3類的聚類結(jié)果。并與(1)的結(jié)果進(jìn)行比較【實驗步驟】(此部分主要包括實驗過程、方法、結(jié)果、對結(jié)果的分析、結(jié)論等)11)相關(guān)矩陣V2V3V4V5V6V7V8V9相關(guān)V1.000.334-.055-.061-.289.199.349.319V3.3341.000-.023.399-.156.711.414.835V4-.055-.0231.000.533.497.033-.139-.258V5-.061.399.5331.000.698.468-.171.313V6-.289-.156.497.6981.000.280-.208-.081V7.199

4、.711.033.468.2801.000.417.702V8.349.414-.139-.171-.208.4171.000.399V9.319.835-.258.313-.081.702.3991.0002)表:方差貢獻(xiàn)率和累計貢獻(xiàn)率解釋的總方差成份初始特征值提取平方和載入旋轉(zhuǎn)平方和載入合計方差的%累積%合計方差的%累積%合計方差的%累積%13.09638.70438.7043.09638.70438.7043.07938.48538.48522.36729.59068.2942.36729.59068.2942.38529.80968.2943.92011.50079.7944.7068

5、.82488.6185.4986.23194.8486.2302.87497.7227.1311.63599.3578.051.643100.000提取方法:主成份分析。由上圖可知,只有前兩個成分的特征值大于1,所以只選擇前兩個主成分。第一個主成分的方差貢獻(xiàn)率是38.704%,第二個主成分的方差貢獻(xiàn)率是29.590%,前兩個主成分的方差占所有主成分方差的64.294%。前兩個主成分的累計貢獻(xiàn)率為68.294%,選擇前兩個主成分即可代表絕大多數(shù)原來的變量。2聚類123V28.798.4810.38V347.0531.1470.37V48.827.076.76V512.809.1416.73V61

6、6.9616.3117.29V712.8010.2118.56V81.881.783.09V913.6311.5124.20最終聚類中心每個聚類中的案例數(shù)聚類有效缺失10.00018.0002.00030.000.000由上圖可知,聚類2包含樣本數(shù)最多,聚類3包含樣本數(shù)最少。通過K中心聚類分析,可以對我國各地區(qū)生活中的人均支出類別情況有一個基本的了解。我們可以將不同地區(qū)的人均消費(fèi)情況分為3類;其中第二類包含的省市最多,有18個,其他兩類包含城市較少。通過分析結(jié)果也可知每個地區(qū)所屬類別。(2)按最短距離法(最近鄰居距離)對樣本進(jìn)行譜系聚類分析聚類表階群集組合系數(shù)首次出現(xiàn)階群集下一階群集1群集2群

7、集1群集21123.29900152564.8540033574.9102064896.3140065121310.409001065810.539347751011.73060983412.4690014951115.194701410121417.539501211151618.698001312121819.2641001313121520.778121116143522.7788915151325.4071141816121727.9561301917242533.74800191811937.4141502019122437.9451617202011238.070181923212

8、12239.765002222212347.432210252312052.468200242412664.048230252512182.0532422262612782.0662502727128259.4092602828129300.2232702929130396.7752800由聚類表可知聚類的具體過程。以第一步為例,樣品1和2合并為一類,距離系數(shù)為3.299,在“首次出現(xiàn)階段集群”里顯示為0,因此合并兩項都是第一次出現(xiàn),合并結(jié)果取15,即歸為第15類。群集成員案例3群集1:山西12:內(nèi)蒙古13:吉林14:黑龍江15:河南16:甘肅17:青海18:河北19:陜西110:寧夏111:

9、新疆112:湖北113:云南114:湖南115:安徽116:貴州117:遼寧118:四川119:山東120:江西121:福建122:廣西123:海南124:天津125:江蘇126:浙江127:北京128:西藏129:上海230:廣東3集群成員表如圖,當(dāng)劃分為3個類別時,各個地區(qū)所屬類別。與上一問所得結(jié)論有較大出入。圖直觀的反應(yīng)了樣品逐步合并的過程。最長距離法(最遠(yuǎn)鄰居距離)聚類表階群集組合系數(shù)首次出土”階群集下一階群集1群集2群集1群集21234567891011121314151617181920212223242526272829158125381215317122421111122612

10、211212629122111269137410141611181525228531727192324202830262912213.2994.8546.31410.40912.27612.46915.29417.55918.69827.07727.95628.85533.74839.76540.88749.52067.77868.93182.06686.817102.216160.503219.108333.013396.775459.195821.706846.5403198.129000020340608001151612018142017190222123280000000000090

11、07510110001300024252627155781610151212171818222116172320242227262826272829290群集成員案例3群集1:山西12:內(nèi)蒙古13:吉林14:黑龍江15:河南16:甘肅17:青海18:河北19:陜西110:寧夏111:新疆112:湖北213:云南214:湖南215:安徽216:貴州217:遼寧218:四川219:山東220:江西121:福建322:廣西323:海南324:天津225:江蘇226:浙江227:北京228:西藏229:上海330:廣東3類平均距離法(組間平均距離)聚類表階群隼組合系數(shù)首次出現(xiàn)階群隼下一階群隼1群隼2群

12、隼1群隼21123.29900172564.8540043896.3140074578.59320145121310.40900863412.4690013781013.51230108121417.54950119151618.69800111081121.704701311121524.981891812171827.9560018133832.35061014143532.6511341715242533.748002016212239.7650021171340.4371142418121747.82411121919121968.6451802220242674.0411502321

13、212374.82416025221220110.18419024232427126.9262002524112134.045172227252124197.455212327262930396.775002927121453.03624252828128489.84727029291291591.22728260群集成員案例3群集山西內(nèi)蒙古吉林黑龍江河南甘肅青海河北9:陜西110:寧夏111:新疆112:湖北113:云南114:湖南115:安徽116:貴州117:遼寧118:四川119:山東120:江西121:福建122:廣西123:海南124:天津125:江蘇126:浙江127:北京128

14、:西藏229:上海330:廣東3重心距離法聚類表階群集組合系數(shù)首次出土0階群集下一階群集1群集2群集1群集2123456789101112131415161718192021222324252627282915851283128151233117122421122124121242111291269713104141116158531817252219232620122724212830293.2994.8546.3147.37910.40911.93312.46914.94718.00018.69815.25023.08019.93227.52027.95632.27233.74839.76553.94564.88365.60591.42194.200106.723141.246346.674375.156396.7751368.51800020305608712101100161817191421202326027000000000010941301500000022024250028

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論