主成分分析完整版課件_第1頁
主成分分析完整版課件_第2頁
主成分分析完整版課件_第3頁
主成分分析完整版課件_第4頁
主成分分析完整版課件_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

主成分分析Principalcomponentanalysis1感謝下載主成分分析Principalcomponentanaly主成分分析的基本思想主成分的計算主成分分析的應用2感謝下載主成分分析的基本思想2感謝下載主成分分析的基本思想

主成分分析就是把原有的多個指標轉化成少數幾個代表性較好的綜合指標,這少數幾個指標能夠反映原來指標大部分的信息(85%以上),并且各個指標之間保持獨立,避免出現重疊信息。主成分分析主要起著降維和簡化數據結構的作用?!?基本思想3感謝下載主成分分析的基本思想§1基本思想3感謝下載

主成分分析是把各變量之間互相關聯的復雜關系進行簡化分析的方法。

在社會經濟的研究中,為了全面系統(tǒng)的分析和研究問題,必須考慮許多經濟指標,這些指標能從不同的側面反映我們所研究的對象的特征,但在某種程度上存在信息的重疊,具有一定的相關性。

主成分分析試圖在力保數據信息丟失最少的原則下,對這種多變量的截面數據表進行最佳綜合簡化,也就是說,對高維變量空間進行降維處理。

很顯然,識辨系統(tǒng)在一個低維空間要比在一個高維空間容易得多。4感謝下載主成分分析是把各變量之間互相關聯的復雜基于相關系數矩陣/協(xié)方差矩陣做主成分分析?選擇幾個主成分?如何解釋主成分所包含的實際意義?

在力求數據信息丟失最少的原則下,對高維的變量空間降維,即研究指標體系的少數幾個線性組合,并且這幾個線性組合所構成的綜合指標將盡可能多地保留原來指標變異方面的信息。這些綜合指標就稱為主成分。要討論的問題是:5感謝下載基于相關系數矩陣/協(xié)方差矩陣做主成分分析?在力求數據信§2數學模型與幾何解釋

假設我們所討論的實際問題中,有p個指標,我們把這p個指標看作p個隨機變量,記為X1,X2,…,Xp,主成分分析就是要把這p個指標的問題,轉變?yōu)橛懻搈個新的指標F1,F2,…,Fm(m<p),按照保留主要信息量的原則充分反映原指標的信息,并且相互獨立。其中6感謝下載§2數學模型與幾何解釋假設我們所討論的

這種由討論多個指標降為少數幾個綜合指標的過程在數學上就叫做降維。主成分分析通常的做法是,尋求原指標的線性組合Fi。滿足如下的條件:主成分之間相互獨立,即無重疊的信息。即主成分的方差依次遞減,重要性依次遞減,即每個主成分的系數平方和為1。即7感謝下載這種由討論多個指標降為少數幾個綜合指標的過程在數?????????????????????????????????????主成分分析的幾何解釋旋轉坐標軸?旋轉變換的目的是為了使得n個樣本點在F1軸方向上的離散程度最大,即F1的方差最大,變量F1代表了原始數據的絕大部分信息,在研究某經濟問題時,即使不考慮變量F2也損失不多的信息。F1與F2除起了濃縮作用外,還具有不相關性。F1稱為第一主成分,F2稱為第二主成分。8感謝下載??????????????????????????????主成分的計算先討論二維情形求第一主成分F1和F2。

我們已經把主成分F1和F2的坐標原點放在平均值所在處,從而使得F1和F2成為中心化的變量,即F1和F2的樣本均值都為零。9感謝下載主成分的計算先討論二維情形求第一主成分F1和F2。因此F1可以表示為關鍵是,尋找合適的單位向量,使F1的方差最大。問題的答案是:X的協(xié)方差矩陣S的最大特征根所對應的單位特征向量即為。并且就是F1的方差。10感謝下載因此F1可以表示為關鍵是,尋找合適的單位向量同樣,F2可以表示為尋找合適的單位向量,使F2與F1獨立,且使F2的方差(除F1之外)最大。問題的答案是:X的協(xié)方差矩陣S的第二大特征根所對應的單位特征向量即為。并且就是F2的方差。11感謝下載同樣,F2可以表示為尋找合適的單位向量其中,aij稱為因子載荷量因子載荷量:主成分與變量間的相關系數,即:因子載荷量的大小和它前面的正負號直接反映了主成分與相應變量之間關系的密切程度和方向。從而可以說明各主成分的意義12感謝下載其中,aij稱為因子載荷量因子載荷量:主成分與變量間的相關系求解主成分的步驟:1.求樣本均值和樣本協(xié)方差矩陣S;2.求S的特征根求解特征方程,其中I是單位矩陣,解得2個特征根3.求特征根所對應的單位特征向量4.寫出主成分的表達式13感謝下載求解主成分的步驟:1.求樣本均值身高x1(cm)胸圍x2(cm)體重x3(kg)149.5162.5162.7162.2156.5156.1172.0173.2159.5157.769.577.078.587.574.574.576.581.574.579.038.555.550.865.549.045.551.059.543.553.5例1下表是10位學生的身高、胸圍、體重的數據。對此進行主成分分析。14感謝下載身高x1(cm)胸圍x2(cm)體重x3(kg)149.561.求樣本均值和樣本協(xié)方差矩陣

2.求解協(xié)方差矩陣的特征方程

3.解得三個特征值

和對應的單位特征向量:15感謝下載1.求樣本均值和樣本協(xié)方差矩陣2.求4.由此我們可以寫出三個主成分的表達式:

5.主成分的含義F1表示學生身材大小。F2反映學生的體形特征16感謝下載4.由此我們可以寫出三個主成分的表達式:5.主成分三個主成分的方差貢獻率分別為:前兩個主成分的累積方差貢獻率為:

17感謝下載三個主成分的方差貢獻率分別為:前兩個主成分的累積方差貢獻率為在一般情況下,設有n個樣品,每個樣品觀測p個指標,將原始數據排成如下矩陣:

多指標求解主成分的步驟:18感謝下載在一般情況下,設有n個樣品,每個樣品觀測p個指標,將原始求樣本均值和樣本協(xié)方差矩陣S;2.求解特征方程=0,其中I是單位矩陣,解得p個特征根3.求所對應的單位特征向量

解得4.寫出主成分的表達式

19感謝下載求樣本均值和樣本協(xié)方差矩陣S;2.求解特征方程=0,其中I根據累積貢獻率的大小取前面m個(m<p)主成分選取原則:

且主成分個數的選取原則20感謝下載根據累積貢獻率的大小取前面m個(m<p)主成分主成分個數的例設的協(xié)方差矩陣為作主成分分析。解:如果從出發(fā)作主成分分析,易求得其特征值和相應的正交單位化特征向量為的兩個主成分分別為第一主成分的貢獻率為21感謝下載例設的協(xié)方差矩陣為解:如果從R型分析為消除量綱影響,在計算之前先將原始數據標準化。標準化變量的S=R,所以用標準化變量進行主成分分析相當于從原變量的相關矩陣R

出發(fā)進行主成分分析。統(tǒng)計學上稱這種分析法為R型分析,由協(xié)方差矩陣出發(fā)的主成分分析為S型分析。

S型分析和R型分析的結果是不同的。在一般情況下,若各變量的量綱不同,通常采用R型分析。R型分析的概念22感謝下載R型分析為消除量綱影響,在計算之前先將原始數據標準化。標準這里我們需要進一步強調的是,從相關陣求得的主成分與協(xié)差陣求得的主成分一般情況是不相同的。實際表明,這種差異有時很大。我們認為,如果各指標之間的數量級相差懸殊,特別是各指標有不同的物理量綱的話,較為合理的做法是使用R代替∑。對于研究經濟問題所涉及的變量單位大都不統(tǒng)一,采用R代替∑后,可以看作是用標準化的數據做分析,這樣使得主成分有現實經濟意義,不僅便于剖析實際問題,又可以避免突出數值大的變量。23感謝下載這里我們需要進一步強調的是,從相關陣求得的主成分與協(xié)差陣求得主成分分析的步驟

1.將原始數據標準化;2.根據標準化變量求出協(xié)方差矩陣(標準化后協(xié)方差矩陣與相關矩陣完全一樣);3.求出相關矩陣的特征值,計算累計貢獻率,及其對應的特征向量;4.確定主成分,進一步分析。對于X=(X1,X2,…,Xp),設則標準化變量為24感謝下載主成分分析的步驟1.將原始數據標準化;對于X=(X1,X2企業(yè)的經濟效益分析某市對下屬10個企業(yè)作經濟效益分析,根據經濟統(tǒng)計原理,用取得的生產成果與各項成本的消耗作對比,來衡量每個企業(yè)的經濟效益,也就是用下述五個指標來對每個企業(yè)進行分析。

Z1:固定資產的產值率Z2:凈產值勞動生產率

Z3:萬元產值的流動資金占用率

Z4:萬元產值利潤率

Z5:萬元資金的利潤率25感謝下載企業(yè)的經濟效益分析25感謝下載1、數據標準化2、

求相關矩陣R3、

計算R的特征值及累積貢獻率,并計算相應的特征向量經過計算取2個主成分,信息的可靠程度超過85%26感謝下載1、數據標準化經過計算取2個主成分,信息的可靠程度超過85%4、分析意義第j個企業(yè)的第一主成分值為各企業(yè)的第一主成分值如下表0.77-1.8-1.160.105-0.84-1.2053.830.960.33-0.99311.第一主成分F1的意義在F1的表達式中,只有第三個指標Z3(萬元產值流動資金占用率)的系數為負值(-0.45),而Z5的系數最大,Z5與Z3是刻畫企業(yè)經營水平高低的。當Z3取值較小,Z5取值較大時,F1就較大。于是F1在此突出地反映了一個企業(yè)經營水平的高低。由計算結果可見,企業(yè)7的經營水平最高,企業(yè)2的經營水平最低。27感謝下載4、分析意義第j個企業(yè)的第一主成分值為各企業(yè)的第一主成分值2.第二主成分F2的意義第j個企業(yè)的第二主成分值為各企業(yè)的第二主成分值如下表-2.070.0927-2.1803-0.70770.4047-0.1223-0.43401.96021.7771.3257F2除了第一系數為正之外,其他約為負值,其中Z4系數絕對值最大。Z1的意義是投資水平,Z4的意義是銷售水平。如果投資大,銷售水平低,自然F2的值會增大。所以F2的值較小時,反映企業(yè)的投資與收益比值較小。由此看來,企業(yè)8,9,10的F2值趨大,應屬于不景氣范圍。企業(yè)7的投資雖最大,但盈利水平居高,因此F2值較小。企業(yè)1,3的F2值最小,反映這兩個企業(yè)投資額與銷售額之比最小,因此是經濟效益好的企業(yè)。由于上述分析應該有90%以上的可信度。28感謝下載2.第二主成分F2的意義第j個企業(yè)的第二主成分值為各企業(yè)的主成分分析Principalcomponentanalysis29感謝下載主成分分析Principalcomponentanaly主成分分析的基本思想主成分的計算主成分分析的應用30感謝下載主成分分析的基本思想2感謝下載主成分分析的基本思想

主成分分析就是把原有的多個指標轉化成少數幾個代表性較好的綜合指標,這少數幾個指標能夠反映原來指標大部分的信息(85%以上),并且各個指標之間保持獨立,避免出現重疊信息。主成分分析主要起著降維和簡化數據結構的作用?!?基本思想31感謝下載主成分分析的基本思想§1基本思想3感謝下載

主成分分析是把各變量之間互相關聯的復雜關系進行簡化分析的方法。

在社會經濟的研究中,為了全面系統(tǒng)的分析和研究問題,必須考慮許多經濟指標,這些指標能從不同的側面反映我們所研究的對象的特征,但在某種程度上存在信息的重疊,具有一定的相關性。

主成分分析試圖在力保數據信息丟失最少的原則下,對這種多變量的截面數據表進行最佳綜合簡化,也就是說,對高維變量空間進行降維處理。

很顯然,識辨系統(tǒng)在一個低維空間要比在一個高維空間容易得多。32感謝下載主成分分析是把各變量之間互相關聯的復雜基于相關系數矩陣/協(xié)方差矩陣做主成分分析?選擇幾個主成分?如何解釋主成分所包含的實際意義?

在力求數據信息丟失最少的原則下,對高維的變量空間降維,即研究指標體系的少數幾個線性組合,并且這幾個線性組合所構成的綜合指標將盡可能多地保留原來指標變異方面的信息。這些綜合指標就稱為主成分。要討論的問題是:33感謝下載基于相關系數矩陣/協(xié)方差矩陣做主成分分析?在力求數據信§2數學模型與幾何解釋

假設我們所討論的實際問題中,有p個指標,我們把這p個指標看作p個隨機變量,記為X1,X2,…,Xp,主成分分析就是要把這p個指標的問題,轉變?yōu)橛懻搈個新的指標F1,F2,…,Fm(m<p),按照保留主要信息量的原則充分反映原指標的信息,并且相互獨立。其中34感謝下載§2數學模型與幾何解釋假設我們所討論的

這種由討論多個指標降為少數幾個綜合指標的過程在數學上就叫做降維。主成分分析通常的做法是,尋求原指標的線性組合Fi。滿足如下的條件:主成分之間相互獨立,即無重疊的信息。即主成分的方差依次遞減,重要性依次遞減,即每個主成分的系數平方和為1。即35感謝下載這種由討論多個指標降為少數幾個綜合指標的過程在數?????????????????????????????????????主成分分析的幾何解釋旋轉坐標軸?旋轉變換的目的是為了使得n個樣本點在F1軸方向上的離散程度最大,即F1的方差最大,變量F1代表了原始數據的絕大部分信息,在研究某經濟問題時,即使不考慮變量F2也損失不多的信息。F1與F2除起了濃縮作用外,還具有不相關性。F1稱為第一主成分,F2稱為第二主成分。36感謝下載??????????????????????????????主成分的計算先討論二維情形求第一主成分F1和F2。

我們已經把主成分F1和F2的坐標原點放在平均值所在處,從而使得F1和F2成為中心化的變量,即F1和F2的樣本均值都為零。37感謝下載主成分的計算先討論二維情形求第一主成分F1和F2。因此F1可以表示為關鍵是,尋找合適的單位向量,使F1的方差最大。問題的答案是:X的協(xié)方差矩陣S的最大特征根所對應的單位特征向量即為。并且就是F1的方差。38感謝下載因此F1可以表示為關鍵是,尋找合適的單位向量同樣,F2可以表示為尋找合適的單位向量,使F2與F1獨立,且使F2的方差(除F1之外)最大。問題的答案是:X的協(xié)方差矩陣S的第二大特征根所對應的單位特征向量即為。并且就是F2的方差。39感謝下載同樣,F2可以表示為尋找合適的單位向量其中,aij稱為因子載荷量因子載荷量:主成分與變量間的相關系數,即:因子載荷量的大小和它前面的正負號直接反映了主成分與相應變量之間關系的密切程度和方向。從而可以說明各主成分的意義40感謝下載其中,aij稱為因子載荷量因子載荷量:主成分與變量間的相關系求解主成分的步驟:1.求樣本均值和樣本協(xié)方差矩陣S;2.求S的特征根求解特征方程,其中I是單位矩陣,解得2個特征根3.求特征根所對應的單位特征向量4.寫出主成分的表達式41感謝下載求解主成分的步驟:1.求樣本均值身高x1(cm)胸圍x2(cm)體重x3(kg)149.5162.5162.7162.2156.5156.1172.0173.2159.5157.769.577.078.587.574.574.576.581.574.579.038.555.550.865.549.045.551.059.543.553.5例1下表是10位學生的身高、胸圍、體重的數據。對此進行主成分分析。42感謝下載身高x1(cm)胸圍x2(cm)體重x3(kg)149.561.求樣本均值和樣本協(xié)方差矩陣

2.求解協(xié)方差矩陣的特征方程

3.解得三個特征值

和對應的單位特征向量:43感謝下載1.求樣本均值和樣本協(xié)方差矩陣2.求4.由此我們可以寫出三個主成分的表達式:

5.主成分的含義F1表示學生身材大小。F2反映學生的體形特征44感謝下載4.由此我們可以寫出三個主成分的表達式:5.主成分三個主成分的方差貢獻率分別為:前兩個主成分的累積方差貢獻率為:

45感謝下載三個主成分的方差貢獻率分別為:前兩個主成分的累積方差貢獻率為在一般情況下,設有n個樣品,每個樣品觀測p個指標,將原始數據排成如下矩陣:

多指標求解主成分的步驟:46感謝下載在一般情況下,設有n個樣品,每個樣品觀測p個指標,將原始求樣本均值和樣本協(xié)方差矩陣S;2.求解特征方程=0,其中I是單位矩陣,解得p個特征根3.求所對應的單位特征向量

解得4.寫出主成分的表達式

47感謝下載求樣本均值和樣本協(xié)方差矩陣S;2.求解特征方程=0,其中I根據累積貢獻率的大小取前面m個(m<p)主成分選取原則:

且主成分個數的選取原則48感謝下載根據累積貢獻率的大小取前面m個(m<p)主成分主成分個數的例設的協(xié)方差矩陣為作主成分分析。解:如果從出發(fā)作主成分分析,易求得其特征值和相應的正交單位化特征向量為的兩個主成分分別為第一主成分的貢獻率為49感謝下載例設的協(xié)方差矩陣為解:如果從R型分析為消除量綱影響,在計算之前先將原始數據標準化。標準化變量的S=R,所以用標準化變量進行主成分分析相當于從原變量的相關矩陣R

出發(fā)進行主成分分析。統(tǒng)計學上稱這種分析法為R型分析,由協(xié)方差矩陣出發(fā)的主成分分析為S型分析。

S型分析和R型分析的結果是不同的。在一般情況下,若各變量的量綱不同,通常采用R型分析。R型分析的概念50感謝下載R型分析為消除量綱影響,在計算之前先將原始數據標準化。標準這里我們需要進一步強調的是,從相關陣求得的主成分與協(xié)差陣求得的主成分一般情況是不相同的。實際表明,這種差異有時很大。我們認為,如果各指標之間的數量級相差懸殊,特別是各指標有不同的物理量綱的話,較為合理的做法是使用R代替∑。對于研究經濟問題所涉及的變量單位大都不統(tǒng)一,采用R代替∑后,可以看作是用標準化的數據做分析,這樣使得主成分有現實經濟意義,不僅便于剖析實際問題,又可以避免突出數值大的變量。51感謝下載這里我們需要進一步強調的是,從相關陣求得的主成分與協(xié)差陣求得主成分分析的步驟

1.將原始數據標準化;2.根據標準化變量求出協(xié)方差矩陣(標準化后協(xié)方差矩陣與相關矩陣完全一樣);3.求出相關矩陣的特征值,計算累計貢獻率,及其對應的特征向量;4.確定主成分,進一步分析。對于X=(X1,X2,…,Xp),設則標準化變量為52感謝下載主成分分析的步驟1.將原始數據標準化;對于X=(X1,X2企業(yè)的經濟效益分析某市對下屬10個企業(yè)作經濟效益分析,根據經濟統(tǒng)計原理,用取得的生產成果與各項成本的消耗作對比,來衡量每個企業(yè)的經濟效益,也就是用下述五個指標來對每個企業(yè)進行分析。

Z1:固定資產

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論