主成分分析法概念及例題_第1頁
主成分分析法概念及例題_第2頁
主成分分析法概念及例題_第3頁
主成分分析法概念及例題_第4頁
主成分分析法概念及例題_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、分分析主成分分析(principal components analysis,PCA)又稱:主分量分析,主成分回歸分析法目錄31什么是主成分分析法主成分分析也稱 主分量分析,旨在利用降維的思想,把多轉(zhuǎn)化為少數(shù)幾個綜合指標(biāo)。在中,主成分分析(principal components analysis,PCA )是一種簡化數(shù)據(jù)集的技術(shù)。它是一個線性變換。這個變換把數(shù)據(jù)變換到一個新的坐標(biāo)系統(tǒng)中,使得任何數(shù)據(jù)投影的第一大在第一個坐標(biāo)(稱為第一主成分)上,第二大方差在第二個坐標(biāo)(第二主成分)上,依次類推。主成分分析經(jīng)常用減少數(shù)據(jù)集的維數(shù),同時保持?jǐn)?shù)據(jù)集的對貢獻(xiàn)最大的特征。這是通過保留低階主成分,忽略高階

2、主成分做到的。這樣低階成分往往能夠保留住數(shù)據(jù)的最重要方面。但是,這也不 是'定的,要視具體應(yīng)用而定。主成分分析的基本思想在實(shí)證問題研究中,為了全面、系統(tǒng)地分析問題,我們必須考慮眾多影響因素。這些涉及 的因素一般稱為指標(biāo),在多元統(tǒng)計分析中也稱為。因?yàn)槊總€變量都在不同程度上反映了所研究 問題的某些信息,并且指標(biāo)之間彼此有一定的相關(guān)性,因而所得的反映的信息在一定程度上有 重疊。在用研究多變量問題時,變量太多會增加計算量和增加分析問題的復(fù)雜性,人們希望在進(jìn)行的過程中,涉及的變量較少,得到的較多。主成分分析正是適應(yīng)這一要求產(chǎn)生的,是解決 這類題的理想工具。同樣,在科普效果評估的過程中也存在著這樣

3、的問題。科普效果是很難具體量化的。在實(shí) 際評估工作中,我們常常會選用幾個有代表性的綜合指標(biāo),采用打分的方法來進(jìn)行評估,故綜 合指標(biāo)的選取是個重點(diǎn)和難點(diǎn)。如上所述,主成分分析法正是解決這一問題的理想工具。因?yàn)?評估所涉及的眾多變量之間既然有一定的相關(guān)性,就必然存在著起支配作用的因素。根據(jù)這一 點(diǎn),通過對原始變量相關(guān)內(nèi)部結(jié)構(gòu)的關(guān)系研究,找出影響科普效果某一要素的幾個綜合指標(biāo),使綜合指標(biāo)為原來變量的線性擬合。這樣,綜合指標(biāo)不僅保留了原始變量的主要信息,且彼此間不相關(guān),又比原始 變量具有某些更優(yōu)越的性質(zhì),就使我們在研究復(fù)雜的科普效果評估問題 時,容易抓住主 要矛盾。 上述想法可進(jìn)一步概述為:設(shè)某科普效

4、果評估要素涉及個指標(biāo),這 指標(biāo)構(gòu) 成的維隨機(jī)向量為。對作正交變換,令,其中為正交陣,的各分量是不相關(guān)的,使得的 各分量在某個評估要素中的作用容易解釋,這就使得我們有可能從主分量中選擇主要成分,削 除對這一要素影響微弱的部分,通過對主分量的重點(diǎn)分析,達(dá)到對原始變量進(jìn)行分析的目的。的各分量是原始變量線性組合,不同的分量表示原始變量之間不同的影響關(guān)系。由于這些基本 關(guān)系很可能與特定的作用過程相聯(lián)系,主成分分析使我們能從錯綜復(fù)雜的科普評估要素的眾多 指標(biāo)中,找出一些主要成分,以便有效地利用大量統(tǒng)計數(shù)據(jù),進(jìn)行科普效果評估分析,使我們 在研究科普效果評估問題中,可能得到深層次的一些啟發(fā),把科普效果評估研究

5、引向深入。例如,在對科普產(chǎn)品開發(fā)和利用這一要素的評估中,涉及科普創(chuàng)作人數(shù)百萬人、科普作品發(fā)行量百萬人、科普產(chǎn)業(yè)化(科普示范基地數(shù)百萬人)等多項(xiàng)指標(biāo)。經(jīng)過主成分分析計算,最后確定個或個主成分作為綜合評價科普產(chǎn)品利用和開發(fā)的綜合指標(biāo),變量數(shù)減少,并達(dá)到一定的 可信度,就容易進(jìn)行科普效果的評估。主成分分析法的基本原理主成分分析法是一種降維的統(tǒng)計方法,它借助于一個正交變換,將其分量相關(guān)的原隨機(jī)向量轉(zhuǎn)化成其分量不相關(guān)的新隨機(jī)向量,這在代數(shù)上表現(xiàn)為將原隨機(jī)向量的協(xié)方差陣變換成對角形陣,在幾何上表現(xiàn)為將原坐標(biāo)系變換成新的正交坐標(biāo)系,使之指向點(diǎn)散布最開的p個正交方向,然后對多維變量系統(tǒng)進(jìn)行降維處理,使之能以一

6、個較高的精度轉(zhuǎn)換成低維變量系統(tǒng),再通 過構(gòu)造適當(dāng)?shù)膬r值函數(shù),進(jìn)一步把低維系統(tǒng)轉(zhuǎn)化成一維系統(tǒng)。主成分分析的主要作用概括起來說,主成分分析主要由以下幾個方面的作用。1 .主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)。即用研究m維的Y空間代替p維的X空間(m<p),而低維的Y空間代替 高維的x空間所損失的信息很少。即:使只有一個主成分Yi(即m=1)時,這個Y仍是使用全部 X變量(p個)得到的。例如要計算 Yl的均值也得使用全部 x的均 值。在所選的前 m個主成分中,如果某個 Xi的系數(shù)全部近似于零的話,就可以把這個Xi刪除,這也是一種刪除多余變量的方法。2 .有時可通過因子負(fù)荷 a”的結(jié)論,弄清X

7、變量間的某些關(guān)系。3 .多維數(shù)據(jù)的一種圖形表示方法。我們知道當(dāng)維數(shù)大于3時便不能畫出幾何圖形,多元統(tǒng)計研究的問題大都多于 3個變量。要把研究的問題用圖形表示出來是不可能的。然而,經(jīng)過主 成分分析后,我們可以選取前兩個主成分或其中某兩個主成分,根據(jù)主成分的得分,畫出n個在二維平面上的分布況,由圖形可直觀地看出各樣品在主分量中的地位,進(jìn)而還可以對樣本進(jìn) 行分類處理,可以由圖形發(fā)現(xiàn)遠(yuǎn)離大多數(shù)樣本點(diǎn)的離群點(diǎn)。4 .由主成分分析法構(gòu)造回歸模型。即把各主成分作為新自變量代替原來自變量x做。5 .用主成分分析篩選回歸變量?;貧w變量的選擇有著重的實(shí)際意義,為了使模型本身易 于做結(jié)構(gòu)分析、控制和預(yù)報,好從原始變

8、量所構(gòu)成的子集合中選擇最佳變量,構(gòu)成最佳變量集 合。用主成分分析篩選變量,可以用較少的計算量來選擇量,獲得選擇最佳變量子集合的效 果。主成分分析法的計算步驟1、原始指標(biāo)數(shù)據(jù)的采集 p維隨機(jī)向量x = (Xi,X2,,Xp)T)n個樣品Xi = (Xii.,Xip)T , i=1,2,nn>p,構(gòu)造樣本陣,對樣本陣元進(jìn)行如下標(biāo)準(zhǔn)化變換:L £晨電,0 兄之式電,.尸其中,孔 )丸一1,得標(biāo)準(zhǔn)化陣Z。2、對標(biāo)準(zhǔn)化陣Z求矩陣 j?!?112?P其中,n 1o3、解樣本相關(guān)矩陣r的特征方程歸MJ = 0得p個特征根,確定主成分> 085確定m值,使信息的利用率達(dá)85%以上,對每個

9、 & j=1,2,,m,解方程組Rb=桁得單位特征向量4、將標(biāo)準(zhǔn)化后的指標(biāo)變量轉(zhuǎn)換為主成分Ui稱為第一主成分,U2稱為第二主成分,,Up稱為第p主成分。5、對m個主成分進(jìn)行綜合評價對m個主成分進(jìn)行加權(quán)求和,即得最終評價值,權(quán)數(shù)為每個主成分的方差貢獻(xiàn)率。主成分分析法的應(yīng)用分析案例一:主成分分析法在啤酒風(fēng)味評價分析中的應(yīng)用啤酒是個多指標(biāo)風(fēng)味食品,為了全面了解啤酒的風(fēng)味,啤酒企業(yè)開發(fā)了大量的檢測方法用 于分析啤酒的指標(biāo),但是面對大量的指標(biāo)數(shù)據(jù) ,大多數(shù)企業(yè)又感到茫然,不知道如何利用這些大 量的數(shù)據(jù),由上面的介紹可知,在這種ff況下,主成分分析法能夠派上用場。近年來,科研人員為了獲得對啤酒風(fēng)味

10、更好的理解 ,多元統(tǒng)計技術(shù)的使用越來越多。這主要有以下兩方面的原因:在啤酒令M域里,幾乎沒有一個問題能夠使用單變量(單指標(biāo))就能反映事物的屬性,例如啤酒的好壞、一致性,不能通過雙乙酰一個指標(biāo)說明問題 ;另一個重要的原因就是 ,近年來大量數(shù)學(xué)統(tǒng) 計軟件的不斷出現(xiàn)和個人電腦的普及促進(jìn)了多元統(tǒng)計分析技術(shù)的應(yīng)用。多元統(tǒng)計技術(shù)在啤酒風(fēng) 味研究中的一個重要任務(wù)就是找出啤酒風(fēng)格和啤酒理化指標(biāo)(風(fēng)味成分指標(biāo)也屬于理化指標(biāo))之間的相關(guān)性。例如可以用多元統(tǒng)計技術(shù)來找出啤酒的風(fēng)味指標(biāo)和啤酒風(fēng)味的關(guān)系或不同啤酒的 風(fēng)味差異性。經(jīng)常使用的多元統(tǒng)計技術(shù)有、主成分分析和回歸分析等。其中主成分分析能夠用于多指標(biāo)產(chǎn)品,主成分分

11、析可以按照事物的相似性區(qū)分產(chǎn)品,結(jié)果可用一維、二維或三維平面坐標(biāo)圖標(biāo)示,特別直觀。使用主成分分析法可以研究隱藏在不同變量背后的關(guān)系,而且根據(jù)這些變量能夠獲得主成分的背景解釋。鑒于主成分分析在啤酒風(fēng)味質(zhì)量應(yīng)用中的強(qiáng)大作用,本文簡單介紹主成分分析的基本原理及其在啤酒一致性監(jiān)控中的應(yīng)用,以引起我國啤酒同行的廣泛關(guān)注。1 材料與方法1.1 儀器HP 6890 毛細(xì)管氣相色譜儀(美國),FID 檢測器 , HP 7694E 頂空自動進(jìn)樣器, HP 氣相色譜化學(xué)工作站。1.2 分析方法1.2.1 樣品制備啤酒于 5 冷藏 , 量取 5 mL 酒液于 20 mL 頂空瓶中, 添加 2.0 g/L 正丁醇溶液

12、0.10 mL,加密封墊及鋁蓋密封, 振蕩混勻以供頂空氣相色譜測定。1.2.2 色譜條件毛細(xì)管色譜柱 (DB- WAXETR 30 m<0.53 mm i.d,膜厚1.0心m柱溫:起始溫度為35 C ,以10 /min 程序升溫至150 , 再以 20 /min 升溫到 180 , 并繼續(xù)恒溫5 min; 進(jìn)樣口溫度150 ; 檢測器溫度200 ; 載氣為高純氮?dú)? 流速為 5 mL/min; 氫氣 30 mL/min; 空氣 400mL/min;采用分流進(jìn)樣,分流比為1 : 1。2 主成分分析法的基本原理2.1 主成分分析法在啤酒研究中應(yīng)用的必要性這里通過一個例子說明, 主成分分析在啤

13、酒研究中的必要性。假如有6 個啤酒樣品,分別標(biāo)為A- F, 每個啤酒樣品用3 個指標(biāo)來描述。這些指標(biāo)可以是儀器的分析數(shù)據(jù)、感官分析數(shù)據(jù)或兩者都用。為了便于討論,假設(shè)這 3 個指標(biāo)分別為苦味值 (BU) 、 DMS 和酒精濃度。為了解這6 個樣品兩兩之間的相似性, 便于將這6 個樣品進(jìn)行分類 , 可以把這6 個樣品畫在三維空間中, 見圖 1 。顯然在這個簡單的例子中, 這 6 個樣品傾向于形成兩類, 即分別是A- C 和 D- F 。通過所測的指標(biāo)可以解釋這種分類, 例如 , 第一組 (A- C)有較高的苦味值和較低的酒精濃度。這個例子中只涉及到6 個樣品和3 個指標(biāo)。但是實(shí)際上,樣品數(shù)量和指標(biāo)

14、數(shù)量都會很大, 例如 , 有 20 個指標(biāo) , 這時 , 樣品不能在20 維的坐標(biāo)系中畫出。為了解決多指標(biāo)的樣品的比較問題, 可以使用主成分分析法。2.2 主成分分析法的基本原理主成分分析的第一步是將所有的指標(biāo)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化, 標(biāo)準(zhǔn)化的一般方法為: (xij ? xj mean) /今這里Xj是樣品j的第i個指標(biāo),xmean和9是第j個指標(biāo)的平均值和,通過標(biāo)準(zhǔn)化后,每個 變量的平均值變成0, 標(biāo)準(zhǔn)偏差為1 。標(biāo)準(zhǔn)化的好處是可以消除不同指標(biāo)間的量綱差異和數(shù)量級間的差異。第二步求出指標(biāo)間的相關(guān)矩陣, 通過相關(guān)矩陣, 可以確定具有高度相關(guān)性的指標(biāo), 這些指標(biāo)間的可以通過另一個變量替代, 這個變量叫作

15、第一成分。去掉第一成分后, 計算殘留相關(guān)陣, 通過殘留相關(guān)陣,第二組高度相關(guān)的變量也可以發(fā)現(xiàn),它們的協(xié)方差可以用第二成分替代,第二成分和第一成分是正交的。第二成分對原始數(shù)據(jù)的貢獻(xiàn)去除后,可以提取第三成分。此過程一直繼續(xù),直到原始數(shù)據(jù)的所有方差都被提取后結(jié)束。結(jié)果是原數(shù)據(jù)轉(zhuǎn)化成了同樣數(shù)量的新變量,但是,這些新變量之間是正交的。因此,每個樣品的原始變量的標(biāo)準(zhǔn)化數(shù)據(jù)就被轉(zhuǎn)換成一系列成分的計算值。每一個樣品,原始數(shù)據(jù)能夠表達(dá)成新成分的線性組合值,例如一個有9個指標(biāo)的數(shù)據(jù)集就可轉(zhuǎn)換成:14是原始數(shù)據(jù)的標(biāo)準(zhǔn)化值。二上h Li? 工由4是原變量與新成分之間的相關(guān)程度的指標(biāo),一般將其稱為因子荷載。通過計算機(jī)的

16、主成分程序生成對方差的。一般而言,原數(shù)據(jù)的總方差總是高度集中在前幾個成分中。因此,在這個分析中,可以基于可以接受的最低方差貢獻(xiàn)率,來選擇幾個數(shù)目較少的主成分。最終,可以用選擇的幾個主成分來重新計算所用的樣品。重新計算的值叫做主成分得分。因?yàn)樵紨?shù)據(jù)陣的方差通常集中在前幾個主成分中(一般為2或3個),因此樣品的一系列標(biāo)準(zhǔn)化因子得分可以在二維的平面坐標(biāo)中畫出,這樣就能夠根據(jù)樣品的相似性來分類樣品。另外,還可以根據(jù)因子荷載對這種分類做出某種解釋。3主成分分析法在啤酒質(zhì)量一致性評價中的應(yīng)用3.1 主成分分析法在不同品牌啤酒風(fēng)味差異性評價中的應(yīng)用啤酒是含酒精的飲料酒,啤酒的風(fēng)味是人們選擇啤酒的主要影響因

17、素。顯然啤酒不同于同 濃度的酒精水溶液,主要是因?yàn)槠【瞥撕芯凭膺€含有數(shù)以百計的微量成分,例如醛、醇及酯類等。對于啤酒生產(chǎn)企業(yè)來說,把自己的啤酒和競爭啤酒的風(fēng)味進(jìn)行比較非常重要,這樣可以了解自己的啤酒和競品的差異,分析競爭啤酒受市場歡迎的原因,以改進(jìn)自己的產(chǎn)品,或者找出自己啤酒的風(fēng)格特點(diǎn) ,走之路。為了完成此工作 ,啤酒企業(yè)可以把自己的啤酒和競爭啤酒 進(jìn)行對比品評,這是一種非常好的方法,但是此方法很難從本質(zhì)上找到與競品的差異,很難形成指導(dǎo)生產(chǎn)的定性定量措施。為了解決此問題,啤酒企業(yè)可以對啤酒的風(fēng)味成分進(jìn)行分析,理論上講,分析的成分越多,獲得的信息量越大,但是,很難從上進(jìn)行,這時,可以通過主

18、成分分析 法,提取主要的綜合成分,然后在平面坐標(biāo)系中畫圖進(jìn)行比較。圖2是我國市場上主要啤酒的風(fēng)味物質(zhì)經(jīng)主成分分析后的前兩個主成分的平面坐標(biāo)。分析 的風(fēng)味成分有乙醛、乙酸乙酯、異丁酯、乙酸異戊酯、異戊醇及己酸乙酯。分析的時間跨度為 半年,這些數(shù)據(jù)通過主成分分析法后 ,提取前兩個主成分,這兩個主成分可以反映全部信息的 83.1 %,提取較為完全,這說明這兩個主成分替代原始的6個風(fēng)味成分反映的樣品信息。、和是我國啤酒市場上的 3種知名品牌,同時這3種啤酒的質(zhì)量也是得到人們的認(rèn)可的。從圖 2 可看出 , 盡管百威啤酒、喜力啤酒和青島啤酒隨著時間的變化每種啤酒的風(fēng)味成分的含量有所波動, 但是 , 每種啤

19、酒還是各自成一團(tuán), 自成一類, 三者的中心猶如一個三角形的3個頂點(diǎn) , 三者組成一個風(fēng)味三角形。從圖2 還可看出, 南方某品牌的啤酒有獨(dú)自成型的特點(diǎn), 即其不同于青島啤酒、也不同喜力啤酒和百威啤酒的風(fēng)格, 實(shí)際上通過感官品嘗也可以得到此結(jié)論。主成分分析法采用的分類是可以通過對主成分的分析做出解釋的, 圖3 是前兩個主成分的因子荷載圖。從圖 3 可以看出, 主成分 1 主要由乙酸乙酯、乙酸異戊酯和己酸乙酯決定, 這些酯含量高主成分 1 就越大 , 即主成分1 代表了啤酒的酯香, 酯香越濃, 主成分 1 就越大。主成分2 主要由乙醛、異丁醇和異戊醇決定,這些成分能夠代表啤酒的“酒勁 ”的大小 ,

20、這些成分含量越高,主成分 2 就越大 ,即啤酒的酒味就越重。結(jié)合這種解釋, 就可以對圖2 中的分類做出分析, 其中百威啤酒是酒味適中和酯香相對較濃的“濃香型 ”啤酒 , 喜力啤酒是酒味和酯香均較濃的“濃醇型 ”啤酒 ,青島啤酒是酒味較重, 而酯香較弱的“醇型 ”啤酒 , 而某品牌的啤酒則是酒味和酯香均弱的“淡型 ”啤酒。3.2 主成分分析法在同一品牌啤酒風(fēng)味一致性評價中的應(yīng)用3.2.1 主成分分析法在同一品牌不同生產(chǎn)廠之間一致性評價中的應(yīng)用近十幾年來, 我國啤酒行業(yè)發(fā)展非??? 啤酒企業(yè)的規(guī)模越來越大, 很多啤酒企業(yè)已經(jīng)走出啤酒的 “原產(chǎn)地 ”到異地建廠, 進(jìn)一步擴(kuò)大企業(yè)的規(guī)模。對于一些啤酒企

21、業(yè)來說, 新建廠面對的消費(fèi)和建廠前面對的消費(fèi)群體較為一致, 這時就要求新建廠生產(chǎn)的啤酒要與原廠生產(chǎn)的啤酒風(fēng)格一致 , 以免生產(chǎn)廠在切換時, 不認(rèn)可的情況發(fā)生。圖4 是同一企業(yè)的3 個不同生產(chǎn)廠之間的同一品種啤酒的主成分分析圖。從圖 4 可以看出, 總的來說, 3 個生產(chǎn)廠生產(chǎn)的啤酒還是比較一致的, 因?yàn)?3 個廠生產(chǎn)的同一品種的啤酒的較小。從圖4 還可以看出, 生產(chǎn)廠 1 因?yàn)樯a(chǎn)的歷史長, 生產(chǎn)較穩(wěn)定, 因此其波動較小(圖中的圓圈); 生產(chǎn)廠 2 和生產(chǎn)廠3 的穩(wěn)定性就稍差一點(diǎn), 這是由于這兩個廠都是新廠有個磨合的過程。同時, 生產(chǎn)廠 2和生產(chǎn)廠1 的風(fēng)味較為一致, 生產(chǎn)廠 3 和生產(chǎn)廠1 的一致性就稍差,其中生產(chǎn)廠3 是最新的廠。3.2.2 主成分分析在同一生產(chǎn)廠啤酒一致性評價中的應(yīng)用同一生產(chǎn)廠生產(chǎn)的同一品種的啤酒, 由于不同時間的水質(zhì)、原輔料等的波動, 最終體現(xiàn)在產(chǎn)品風(fēng)味的波動上。同一主成分分析也可以評價產(chǎn)品隨時

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論