




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、葡萄酒的類別判定組員:楊岳、楊昊雯、張涵宇、張江、趙輝輝、趙慧娟一、案例背景一、案例背景 常見的多元截面數(shù)據(jù)有兩個維度,即變量的維度和觀測的維度,因此,多元數(shù)據(jù)分析可以從這兩個維度入手。對于變量維度的分析,既可以考慮變量的組合(如主成分分析),也可以考慮從變量中提取潛變量(如因子分析),從而達到降低數(shù)據(jù)維度的目的,得到各變量間相關(guān)關(guān)系的解釋;對于觀測維度的分析,可以采用不同的方法對觀測分類,既可以是完全基于數(shù)據(jù)產(chǎn)生的(如聚類分析),也可以是數(shù)據(jù)分析之前已經(jīng)給定的(如判別分析)。對于各種多元數(shù)據(jù)分析方法,又可以基于不同的數(shù)據(jù)假定或者算法細分為更多的數(shù)據(jù)分析方法。二、數(shù)據(jù)描述二、數(shù)據(jù)描述 本案例試
2、圖對UCI機器學習數(shù)據(jù)庫中Wine recognition 數(shù)據(jù)進行分析,從變量角度分析各變量間的相關(guān)關(guān)系,從觀測角度嘗試對觀測進行分類,前者采用主成分分析和因子分析等方法,后者采用聚類分析和判別分析等方法。這四種方法均采用最常見、最基本的算法,因為本案例的目的是分析數(shù)據(jù)、挖掘數(shù)據(jù)中蘊含的信息,而不是比較方法的優(yōu)劣。該數(shù)據(jù)為產(chǎn)于意大利同一地區(qū)不同種植園的3中葡萄酒的成分分析樣本,三種葡萄酒的觀測數(shù)目分別為59,71,48,因此觀測容量為178個,共有13個變量,各變量的單位不同,由這些變量確定葡萄酒產(chǎn)自哪個種植園。這13個變量包括:酒精度、蘋果酸、灰分、灰分的堿度、Mg、酚類、黃酮類、非黃酮類
3、、原花色素類(酚類化合物的一種)、色度、色調(diào)、經(jīng)稀釋后的吸光度比值、脯氨酸(氨基酸的一種)。三、名詞解釋三、名詞解釋主成分分析:主成分分析:主成分分析是指將多個變量通過線性變換以選出較少個數(shù)重要變量的一種多元統(tǒng)計分析方法。又稱主分量分析。在用統(tǒng)計分析方法研究多變量的課題時,變量個數(shù)太多就會增加課題的復雜性。人們自然希望變量個數(shù)較少而得到的信息較多。在很多情形,變量之間是有一定的相關(guān)關(guān)系的,當兩個變量之間有一定相關(guān)關(guān)系時,可以解釋為這兩個變量反映此課題的信息有一定的重疊。主成分分析是對于原先提出的所有變量,將重復的變量(關(guān)系緊密的變量)刪去多余,建立盡可能少的新變量,使得這些新變量是兩兩不相關(guān)的
4、,而且這些新變量在反映課題的信息方面盡可能保持原有的信息。因子分析:因子分析:因子分析是指研究從變量群中提取共性因子的統(tǒng)計技術(shù)。最早由英國心理學家C.E.斯皮爾曼提出。他發(fā)現(xiàn)學生的各科成績之間存在著一定的相關(guān)性,一科成績好的學生,往往其他各科成績也比較好,從而推想是否存在某些潛在的共性因子,或稱某些一般智力條件影響著學生的學習成績。因子分析可在許多變量中找出隱藏的具有代表性的因子。將相同本質(zhì)的變量歸入一個因子,可減少變量的數(shù)目,還可檢驗變量間關(guān)系的假設。聚類分析:聚類分析:聚類分析指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程。它是一種重要的人類行為。聚類分析的目標就是在相似
5、的基礎上收集數(shù)據(jù)來分類。聚類源于很多領(lǐng)域,包括數(shù)學,計算機科學,統(tǒng)計學,生物學和經(jīng)濟學。在不同的應用領(lǐng)域,很多聚類技術(shù)都得到了發(fā)展,這些技術(shù)方法被用作描述數(shù)據(jù),衡量不同數(shù)據(jù)源間的相似性,以及把數(shù)據(jù)源分類到不同的簇中。判別分析判別分析:判別分析又稱“分辨法”,是在分類確定的條件下,根據(jù)某一研究對象的各種特征值判別其類型歸屬問題的一種多變量統(tǒng)計分析方法。其基本原理是按照一定的判別準則,建立一個或多個判別函數(shù),用研究對象的大量資料確定判別函數(shù)中的待定系數(shù),并計算判別指標。據(jù)此即可確定某一樣本屬于何類。當?shù)玫揭粋€新的樣品數(shù)據(jù),要確定該樣品屬于已知類型中哪一類,這類問題屬于判別分析問題。四四、數(shù)據(jù)圖視化
6、、數(shù)據(jù)圖視化 在開始多元數(shù)據(jù)分析之前,我們可采用Andrew曲線圖和平行坐標圖兩種方法展開高維數(shù)據(jù)。前者利用傅里葉變換,可以粗略地得知數(shù)據(jù)是否適合分類;后者在原始數(shù)據(jù)標準化之后,將所有維度的數(shù)據(jù)均展示在二維坐標軸上,可以判斷數(shù)據(jù)在哪些變量處可以有較好的分類效果。由于描繪了所有觀測的圖形的展示效果不夠好,因此考慮隨機抽取一半的觀測進行數(shù)據(jù)可視化展示,設定抽樣的種子后,抽取3種葡萄酒的觀測數(shù)目分別為28,37,24. 實際上,Andrew曲線圖(圖一)表明,第1類數(shù)據(jù)和第2類數(shù)據(jù)混雜程度較高,體現(xiàn)了較強的相似性,這在后面的分析中也會體現(xiàn)出來;但總的來說,數(shù)據(jù)在t屬于(2,3)時,3組數(shù)據(jù)可以較好的
7、區(qū)分,數(shù)據(jù)的質(zhì)量保證了我們可以繼續(xù)進行多元數(shù)據(jù)分析。-3-2-10123-2024tf(t)半數(shù)觀測的半數(shù)觀測的Andrew曲線圖曲線圖(圖一)(圖一) 數(shù)據(jù)的平行坐標圖(圖二)展示了各變量在數(shù)據(jù)分類中的表現(xiàn),可以看出,V8(黃酮類),V11(色度),V14(脯氨酸)這三個變量能夠較好地區(qū)分3種葡萄酒,另外單個變量的區(qū)分效果較弱,也說明有必要進行變量組合。MinMaxV2V3V4V5V6V7V8V9V10V11V12V13V14半數(shù)觀測的平行坐標圖(圖二)半數(shù)觀測的平行坐標圖(圖二)五五、分析方法、分析方法1、主成分分析:、主成分分析: 由于葡萄酒數(shù)據(jù)中13個變量的度量尺度存在較大差異,考慮在
8、矩陣譜分解運算時采用標準化后的相關(guān)系數(shù)矩陣。譜分解得到13個成分,做出碎石圖(圖三)。可以看出,在選擇第4個主成分后曲線變得較為平緩,選定4個主成分可能是恰當?shù)?,此時累積方差比例已達到73.6%。 Variances01234Comp.1Comp.3Comp.5Comp.7Comp.9Comp.12主成分分析的碎石主成分分析的碎石圖圖(圖三)圖三) 雖然兩個主成分提取的信息只占55.4%,但是可以得到變量和這兩個主成分的相關(guān)關(guān)系,并且展示各觀測在兩個主成分上的得分。基于主成分分析的Biplot圖(圖四),可以看出,所有觀測較明顯的聚集為3群,部分變量之間存在較強的相關(guān)性,且所有變量的箭頭長度相
9、近,說明在兩個主成分上各變量所占權(quán)重相似,但是由于兩個主成分提取的信息不夠充分,主成分載荷陣并未經(jīng)過旋轉(zhuǎn),使得變量之間的關(guān)系看起來比較混亂,不能很好地進行解釋,只能做基本的探索性分析。-0.15-0.10-0.050.000.050.100.15-0.15-0.10-0.050.000.050.100.15Comp.1Comp.212345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717
10、2737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178-10-5051
11、0-10-50510V2V3V4V5V6V7V8V9V10V11V12V13V14基于主成分分析的基于主成分分析的Biplot圖圖(圖四)(圖四) 2、因子分析、因子分析 假定數(shù)據(jù)服從多元正態(tài)分布,采用極大似然估計方法,并同時進行因子個數(shù)選定的似然比檢驗,發(fā)現(xiàn)因子數(shù)目取6時,該檢驗不再顯著,說明6個因子提取的信息已經(jīng)足夠了,此時累積方差比例為75.7%(圖五)。 Factor1 Factor2 Factor3 Factor4 Factor5 Factor6SS loadings 3.268 1.775 1.355 1.265 1.138 1.046Proportion Var 0.251 0.
12、137 0.104 0.097 0.088 0.080Cumulative Var 0.251 0.388 0.492 0.589 0.677 0.757 圖五圖五 為了得到更好的因子解釋,考慮對因子分析載荷陣進行Varimax旋轉(zhuǎn),得到新的因子載荷陣(圖六),我們可以為提取出來并經(jīng)過方差最大化旋轉(zhuǎn)的6個因子命名,分別為酚酮類物質(zhì)、氨基酸與酒精、灰分及其堿度、色調(diào)和色度、蘋果酸、Mg含量。由于各因子間還存在一定的變量混雜,需要進行更具體的各種化學成分及物理性質(zhì)之間的關(guān)系分析。經(jīng)經(jīng)Varimax旋轉(zhuǎn)后的因子分析載荷陣旋轉(zhuǎn)后的因子分析載荷陣 (wine.fal=varimax(loadings(w
13、ine.fa),normalize=F)$loadingsLoadings: Factor1 Factor2 Factor3 Factor4 Factor5 Factor6V2 0.180 0.668 0.420 0.115 0.130 V3 -0.278 0.135 0.146 0.772 V4 0.974 0.119 0.141 V5 -0.260 -0.500 0.507 0.171 V6 0.105 0.122 0.128 0.972 V7 0.860 0.191 -0.123 V8 0.929 0.179 -0.181 V9 -0.512 -0.143 0.257 -0.230 V1
14、0 0.691 0.172 V11 -0.122 0.203 0.126 0.952 V12 0.409 0.152 -0.482 -0.475 V13 0.766 0.131 -0.367 -0.117 V14 0.368 0.703 0.101 0.205 -0.143 0.242 圖六圖六 3、聚類分析、聚類分析 我們嘗試對原始數(shù)據(jù)進行聚類,然后將基于數(shù)據(jù)的類和實際的葡萄酒 分類進行對比,判斷觀測間是否存在明顯的差異。 由于各變量的度量尺度存在較大差異,考慮先對數(shù)據(jù)進行標準化,以各變量的標準差為權(quán)重,得到加權(quán)的L2-norm距離??紤]采用等級聚類算法,類間采用Ward距離,得到聚類分析的
15、樹形圖(圖七),由圖可見,觀測可以明顯的聚為3類,與實際的分類相同,且各類之間的距離較遠。159160154176177168172165173157149175170178167169153151150152162141143140163841441391661191471481611561741581371381551351366261691451421461641719713113313213449563313416541718141543594531132506193624253366275837353822839521213479723301214157104845552242442
16、040846967079122747226529106931088991921201307178651138783881149011510011612880123606377761019495819882861041091026810710511775649951671111241251218511073118103112126127129020406080100120hclust (*, ward.D)dist(wine.dat)Height聚類分析的樹形圖(圖七)聚類分析的樹形圖(圖七) 我們將觀測聚為3類,與實際的葡萄酒的分類變量Type相比,178個觀測中只有14個觀測與實際不符,符合
17、度達92.1%,其中第2類葡萄酒的符合度僅為81.7%,說明這類葡萄酒的數(shù)據(jù)特征不是很明顯,不能夠進行很好的區(qū)分,這個結(jié)論將在后面的分析中得到印證。聚類分析結(jié)果與真實分類的比較:4、判別分析 首先假定各類別的協(xié)方差矩陣相等,采用Fisher線性判別分析,提取兩個線性判別函數(shù);在第一個線性判別函數(shù)的維度上,我們繪出3組數(shù)據(jù)的概率密度曲線(圖八),發(fā)現(xiàn)各類之間存在一定混雜,存在一定誤判率,畢竟第一個線性判別函數(shù)只提取68.8%的信息,于是考慮同時使用兩個線性判別函數(shù)。-6-4-20240.00.10.20.30.40.5LD1基于第一個線性判別函數(shù)的數(shù)據(jù)概率密度圖(圖八) 在兩個線性判別函數(shù)的二維
18、平面上,繪出各觀測的散點圖(圖九),發(fā)現(xiàn)各類別間差異明顯,判別效果較好。實際上,表面誤判率為0(圖十),由于該判別直接針對訓練集樣本,這個數(shù)值顯然被高估了。 -6-4-2024-6-4-202LD1LD21111111111111111111111111111111111111111111111111111111111122222222222222222222222222222222222222222222222222222222222222222222222333333333333333333333333333333333333333333333333基于兩個線性判別函數(shù)的基于兩個線性判別函數(shù)的散點圖散點圖(圖九)(圖九)(圖十)(圖十) 為了得到更恰當?shù)恼`判率,我們采用Leave-one-out方法進行交叉驗證,得到線性判別方法的實際誤判率為1.1%(圖十一),判別效果很好。 放松各類別協(xié)方差矩陣相等的假定,同時假定數(shù)據(jù)服從多元正態(tài)分布,采用Bayes
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T-ZNZ 264.1-2024 重金屬中度污染農(nóng)田土壤修復和安全利用技術(shù)規(guī)范 第1部分:超積累東南景天與油葵輪作
- 二零二五年度車輛轉(zhuǎn)讓與二手車交易及金融服務協(xié)議
- 2025年度蛋糕店與體育賽事合作贊助協(xié)議
- 2025年度道路橋梁維修施工安全協(xié)議書
- 2025年度網(wǎng)絡安全產(chǎn)品銷售提成與技術(shù)服務合同
- 二零二五年度企業(yè)員工宿舍三方租賃協(xié)議
- 二零二五年度臨時廚房工作人員聘用合同
- 二零二五年度個體商戶勞動合同(體育賽事組織與運營)
- 中學生環(huán)保行動策劃案解讀
- 監(jiān)控項目合作合同監(jiān)控施工合同
- 2025年湖南鐵道職業(yè)技術(shù)學院單招職業(yè)技能測試題庫1套
- 學生創(chuàng)新能力培養(yǎng)方案計劃
- 《西門子PLC應用》一體化教案1-20周全篇
- 新蘇教版一年級科學下冊第一單元第1課《撿石頭》課件
- 2.2學會管理情緒 課件 -2024-2025學年統(tǒng)編版道德與法治七年級下冊
- 2025年湖北省技能高考(建筑技術(shù)類)《建筑材料與檢測》模擬練習試題庫(含答案)
- 2024-2025學年第二學期教學教研工作安排表 第二版
- 人行道道鋪設施工方案
- 2025年度模特代言合同隱私條款規(guī)范樣本4篇
- 【歷史】元朝的建立與統(tǒng)一課件 2024-2025學年統(tǒng)編版七年級歷史下冊
- 2025年度游戲工作室游戲客服中心用工合同
評論
0/150
提交評論