多元統(tǒng)計相關(guān)分析_第1頁
多元統(tǒng)計相關(guān)分析_第2頁
多元統(tǒng)計相關(guān)分析_第3頁
多元統(tǒng)計相關(guān)分析_第4頁
多元統(tǒng)計相關(guān)分析_第5頁
已閱讀5頁,還剩50頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、典型相關(guān)分析典型相關(guān)分析及應(yīng)用及應(yīng)用研究多個變量與多個變量之間的相關(guān)性典型相關(guān)分析典型相關(guān)分析基本理論典型相關(guān)分析基本理論典型相關(guān)分析求解方法典型相關(guān)分析求解方法典型相關(guān)分析在典型相關(guān)分析在SPSSSPSS中的運(yùn)用中的運(yùn)用統(tǒng)計思想和基本理論統(tǒng)計思想和基本理論 典型相關(guān)分析典型相關(guān)分析 ( Canonical Correlation ( Canonical Correlation Analysis) Analysis) 是研究兩組變量之間相關(guān)關(guān)系的一種多元計方法。它能夠揭示出兩組變之間的內(nèi)在聯(lián)系。也是一種運(yùn)用于多元統(tǒng)計中的降維技術(shù)。 其目的是識別并量化兩組變量之間的聯(lián)系,將兩組變量相關(guān)關(guān)系的分析

2、,轉(zhuǎn)化為一組變量的線性組合與另一組變量線性組合之間的相關(guān)關(guān)系分析。 統(tǒng)統(tǒng)計計思思想想和和基基本本理理論論 典型相關(guān)分析最早由1936年霍特林 Hotelling在生物統(tǒng)計上發(fā)表的論文兩組變量之間的關(guān)系提出, 其計算方法后經(jīng)過多年的應(yīng)用日趨完善。哈羅德霍特林(HaroldHotelling,18951973):統(tǒng)計學(xué)界、經(jīng)濟(jì)學(xué)界、數(shù)學(xué)界公認(rèn)大師典型相關(guān)分析相關(guān)實(shí)例典型相關(guān)分析的應(yīng)用十分廣泛。例如X X1 1, , X X2 2, , , , X Xp pY Y1 1, , Y Y2 2, , , , Y Yq q1 1小伙子追求姑娘的指標(biāo)要求小伙子追求姑娘的指標(biāo)要求 外貌,外貌, 身高,身高,

3、學(xué)歷。學(xué)歷。姑娘向往的小伙子的指標(biāo)姑娘向往的小伙子的指標(biāo)工作,家庭,人品。工作,家庭,人品。2 2創(chuàng)新投入創(chuàng)新投入人員,研究開發(fā)經(jīng)人員,研究開發(fā)經(jīng)費(fèi),設(shè)施。費(fèi),設(shè)施。創(chuàng)新產(chǎn)出創(chuàng)新產(chǎn)出專利,論文,專利,論文,產(chǎn)品。產(chǎn)品。3 3長子頭的長子頭的長度,長度, 寬度寬度次子頭的次子頭的長度,寬度長度,寬度4 4身體形態(tài)身體形態(tài) 年齡,體重,年齡,體重,胸圍胸圍健康狀況健康狀況脈搏,血壓脈搏,血壓5 5人口出生人口出生多孩率,計劃生育多孩率,計劃生育率率教育生活水平教育生活水平初中畢業(yè)初中畢業(yè)率,收入水平,生活水平率,收入水平,生活水平典型相關(guān)分析相關(guān)實(shí)例再如考察一些與財政政策有關(guān)的指標(biāo)-如財政支出總額

4、的增長率,財政赤字增長率,稅率降低, 和與經(jīng)濟(jì)發(fā)展的一系列指標(biāo)如國內(nèi)GDP增長率,就業(yè)增長率,物價上漲率等,來研究擴(kuò)張性財政政策實(shí)施后對宏觀經(jīng)濟(jì)發(fā)展的影響.典型相關(guān)分析求解方法 一元統(tǒng)計分析: 用相關(guān)系數(shù)來衡量兩個隨機(jī)變量之間的線性相關(guān)關(guān)系;用復(fù)相關(guān)系數(shù)研究一個隨機(jī)變量和多個隨機(jī)變量的線性相關(guān)關(guān)系。 Q: 遇到比較兩組變量的相關(guān)性問題,怎么辦? 多元統(tǒng)計分析: 運(yùn)用典型相關(guān)分析研究兩組變量x1,x2xp 與 y1, y2yq之間的線性關(guān)系, 將每一組變量作為一個整體進(jìn)行分析。兩組變量間的相關(guān)關(guān)系。典型相關(guān)分析求解方法典型相關(guān)分析通??刹扇煞N方法:方法1 討論第一組每個變量和第二組每個變量的相

5、互關(guān)系,得到pq個相關(guān)系數(shù),再用這些相關(guān)系數(shù)反應(yīng)兩組變量的關(guān)系。BUT 。在兩組變量較多時,方法繁瑣也不容易抓到問題實(shí)際。簡單相關(guān)系數(shù)的局限性簡單相關(guān)系數(shù)的局限性只是孤立考慮單個X與單個Y間的相關(guān),沒有考慮X、Y變量組內(nèi)部各變量間的相關(guān)。兩組間有許多簡單相關(guān)系數(shù)(例每組30個變量),使問題顯得復(fù)雜,難以從整體描述。難以抓到重點(diǎn)- - 用來描述兩個變量的之間的線性相關(guān)性。 典型相關(guān)分析求解方法方法2 在每組變量中選擇若干個由代表性的綜合指標(biāo),這些指標(biāo)是原始變量的線性組合,代表了原始變量的大部分信息, 且兩組綜合指標(biāo)的相關(guān)程度最大。 (類似于主成分分析法) 新產(chǎn)生的綜合指標(biāo)成為典型相關(guān)變量 Can

6、onical Variable,通過少數(shù)的幾個綜合變量來反應(yīng)兩組變量的相關(guān)性質(zhì)。方法2更為簡潔直接 典型相關(guān)分析的中心思想。 典型相關(guān)分析的基本思想 首先在每組變量中找出變量的線性組合,使得兩組的線性組合之間具有最大的相關(guān)系數(shù)。 然后選取和最初挑選的這對線性組合不相關(guān)的線性組合,使其配對,并選取相關(guān)系數(shù)最大的一對,如此繼續(xù)下去,直到兩組變量之間的相關(guān)性被提取完畢為此。 被選出的線性組合配對稱為典型變量,它們的相關(guān)系數(shù)稱為典型相關(guān)系數(shù)。典型相關(guān)系數(shù)度量了這兩組變量之間聯(lián)系的強(qiáng)度。 典型相關(guān)分析的基本思想一般情況,設(shè)為兩個相互關(guān)聯(lián)的隨機(jī)向量,分別在兩組變量中選取若干有代表性的綜合變量Ui、Vi,使

7、得每一個綜合變量是原變量的線性組合,即 典型相關(guān)分析的基本思想ab與與 典型相關(guān)分析的基本思想 典型相關(guān)分析的基本思想第一步:估計組合系數(shù)使得對應(yīng)的典型變量和相關(guān)系數(shù)達(dá)到最大。最大的相關(guān)系數(shù)為第一典型相關(guān)系數(shù),且稱有最大相關(guān)系數(shù)的這對典型變量為典型相關(guān)變量。第二步:再次估計組合相關(guān)系數(shù),找出第二大的典型相關(guān)系數(shù),稱為第二典型相關(guān)西湖,稱有第二大相關(guān)系數(shù)的這對典型變量為第二典型相關(guān)變量。設(shè)兩組的變量個數(shù)為p, q, pq, 那么尋求典型變量的過程可一直重復(fù), 直到得到P對典型變量。 典型相關(guān)分析的基本思想 當(dāng)有少數(shù)幾對或者一對典型變量能夠反映原數(shù)據(jù)的主要信息, 那么兩個變量組的相關(guān)程度的分析就可

8、以轉(zhuǎn)化為對少數(shù)幾對,或者對一對典型變量的相關(guān)分析, 這就是典型相關(guān)分析的基本目的。 典型相關(guān)分析與主成分分析典型相關(guān)分析在某些方面與主成分分析類似,但并不完全相同。二者均是通過構(gòu)造原變量的適當(dāng)線性組合提取不同信息,主成分分析著眼于考慮變量的“分散性”信息,考慮的是一組變量內(nèi)部各個變量直接的相關(guān)關(guān)系。而典型相關(guān)分析則立足于識別和量化二組變量的統(tǒng)計相關(guān)性,是兩個隨機(jī)變量之間的相關(guān)性在兩組變量之下的推廣。 典型相關(guān)分析求解方法例 1985年中國年中國28 省市城市男生省市城市男生(1922歲歲)的調(diào)的調(diào)查數(shù)據(jù)。記查數(shù)據(jù)。記形態(tài)指標(biāo)形態(tài)指標(biāo)身高身高(cm)、坐高、體重、坐高、體重(kg)、胸圍、胸圍、

9、肩寬肩寬、盆骨寬分別為盆骨寬分別為X1,X2,X6;機(jī)能指標(biāo)機(jī)能指標(biāo)脈搏脈搏(次次/分分)、收縮壓、收縮壓(mmHg) 、舒張壓舒張壓(變音變音)、舒張壓、舒張壓(消音消音)、肺活量、肺活量(ml)分別分別為為Y1,Y2,Y5。現(xiàn)欲研究這兩組變量之?,F(xiàn)欲研究這兩組變量之間的相關(guān)性。間的相關(guān)性。 整理ppt 簡單相關(guān)系數(shù)矩陣簡單相關(guān)系數(shù)矩陣CorrCorr(X X)R R1111CorrCorr(X X)R R1111CorrCorr(X X)R R1111CorrCorr(Y Y)R R22221221RR 典型相關(guān)系數(shù)和典型變量的求法 在約束條件:( )1Var u11a a( )1Var

10、v22b b下,求a a1 1和和b b1 1,使uv達(dá)到最大。令整理ppt23根據(jù)數(shù)學(xué)分析中條件極值的求法,引入Lagrange乘數(shù),求極值問題,則可以轉(zhuǎn)化為求的極大值,其中和是 Lagrange乘數(shù)。) 1 () 1(2) 1(2),(12211111112111bbaababa整理ppt(3)121111211221 b - a = 0 a - b = 0 將上面的3式分別左乘 和 1a1b 1121111112111221a b -a a = 0b a - b b = 0)2(0012212111111121bvababa11( , )u v 1121a b由(3)式的第二式,得0-1

11、21222211111 a - a0-1-121112222111 a - a 11211211a bb a(3)121111211221 b - a = 0 a - b = 01211221ab代入(3)式的第一式,得211221211121a的特征根是 ,相應(yīng)的特征向量為整理ppt-1-1111122221-1-1222211112M = M = 令2122M a = aM b = b(3)121111211221 b - a = 0 a - b = 0由(3)式的第一式,得1121111ba代入(3)式的第二式,得121112112221b的特征根是 ,相應(yīng)的特征向量為012221121

12、1121bb01211211121122bb2 結(jié)論:結(jié)論: 既是既是MM1 1又是又是MM2 2的特征根,的特征根, 和和 是相應(yīng)于是相應(yīng)于MM1 1和和MM2 2的特征向量。的特征向量。1a1b 至此,典型相關(guān)分析轉(zhuǎn)化為求M1和M2特征根和特征向量的問題。 第一對典型變量提取了原始變量X與Y之間相關(guān)的主要部分,如果這部分還不能足以解釋原始變量,可以在剩余的相關(guān)中再求出第二對典型變量和他們的典型相關(guān)系數(shù)。 在剩余的相關(guān)中再求出第二對典型變量和他們的典型相關(guān)系數(shù)。設(shè)第二對典型變量為:2u2a x22v = b y在約束條件: 2()1Var u2112a a2()1Var v2222b b12

13、cov( ,)cov()0u u121112a x,a xa a12cov( ,)cov()0v v121112b y,b yb b 求使 達(dá)到最大的 和 。22cov(,)u v2122a b2a2b例 Text book p 277全部總體典型相關(guān)系數(shù)均為0部分總體典型相關(guān)系數(shù)為0(1),( , ).(2)p qX YNnpq對資料的要求:兩個變量組應(yīng)服從多變量正態(tài)分布。即設(shè)()例 家庭特征與家庭消費(fèi)之間的關(guān)系 為了了解家庭的特征與其消費(fèi)模式之間的關(guān)系。調(diào)查了70個家庭的下面兩組變量:戶主受教育程度:家庭的年收入:戶主的年齡321yyy:每年外出看電影頻率率:每年去餐館就餐的頻21xx分析

14、兩組變量之間的關(guān)系。X1X2y1y2y3X11.000.800.260.670.34X20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.351.00變量間的相關(guān)系數(shù)矩陣典型相關(guān)分析典型相關(guān)分析典型相典型相關(guān)系數(shù)關(guān)系數(shù)調(diào)整典型調(diào)整典型相關(guān)系數(shù)相關(guān)系數(shù)近似方差近似方差典型相關(guān)系典型相關(guān)系數(shù)的平方數(shù)的平方10.6879480.6878480.0052680.47327220.1868650.1866380.0096510.034919X組典型變量的系數(shù) U1U2X1(就餐)0.7689-1

15、.4787X2(電影)0.27211.6443Y組典型變量的系數(shù) V1V2Y1(年齡)0.04911.0003Y2(收入)0.8975-0.5837Y3(文化)0.19000.29562112721. 07689. 0 xxu2126443. 14787. 1xxu32111900. 08975. 00491. 0yyyv32122956. 05837. 00003. 1yyyv典型變量的結(jié)構(gòu)(相關(guān)系數(shù)) U1U2X10.9866-0.1632X20.88720.4614 V1V2Y10.42110.8464Y20.9822-0.1101Y30.51450.3013典型變量的結(jié)構(gòu)(相關(guān)系數(shù))

16、V1V2X10.6787-0.0305X20.61040.0862 U1U2Y10.28970.1582Y20.6757-0.0206Y30.35390.0563 兩個反映消費(fèi)的指標(biāo)與第一對典型變量中u1的相關(guān)系數(shù)分別為0.9866和0.8872,可以看出u1可以作為消費(fèi)特性的指標(biāo),第一對典型變量中v1與Y2之間的相關(guān)系數(shù)為0.9822,可見典型變量v1主要代表了了家庭收入, u1和 v1的相關(guān)系數(shù)為0.6879,這就說明家庭的消費(fèi)與一個家庭的收入之間其關(guān)系是很密切的; 第二對典型變量中u2與x2的相關(guān)系數(shù)為0.4614,可以看出u2可以作為文化消費(fèi)特性的指標(biāo),第二對典型變量中v2與Y1和Y3

17、之間的分別相關(guān)系數(shù)為0.8464和0.3013,可見典型變量v2主要代表了家庭成員的年齡特征和教育程度, u2和 v2的相關(guān)系數(shù)為0.1869,說明文化消費(fèi)與年齡和受教育程度之間的相關(guān)性。4、各組原始變量被典型變量所解釋的方差X組原始變量被ui解釋的方差比例pmpiiiixuxuxuu/ )(2,2,2,21X組原始變量被vi解釋的方差比例pmpiiiixvxvxvv/ )(2,2,2,21y組原始變量被ui解釋的方差比例y組原始變量被vi解釋的方差比例qnqiiiiyuyuyuu/ )(2,2,2,21qnqiiiiyvyvyvv/ )(2,2,2,21 被典型變量解釋的被典型變量解釋的X組

18、原始變量的方差組原始變量的方差被本組的典型變量解釋被本組的典型變量解釋被對方被對方Y(jié)組典型變量解釋組典型變量解釋比例比例累計比例累計比例典型相關(guān)典型相關(guān)系數(shù)平方系數(shù)平方比例比例累計比例累計比例10.88030.88030.47330.41660.416620.11971.00000.03490.00420.4208 被典型變量解釋的被典型變量解釋的Y組原始變量的方差組原始變量的方差被本組的典型變量解釋被本組的典型變量解釋被對方被對方X組典型變量解釋組典型變量解釋比例比例累計比例累計比例典型相關(guān)典型相關(guān)系數(shù)平方系數(shù)平方比例比例累計比例累計比例1 0.46890.46890.47330.22190

19、.22192 0.27310.74200.03490.00950.2315典型相關(guān)分析在典型相關(guān)分析在SPSSSPSS中的運(yùn)用中的運(yùn)用(一)操作步驟在SPSS中沒有提供典型相關(guān)分析的專門菜單項,要想利用SPSS實(shí)現(xiàn)典型相關(guān)分析,必須在語句窗口中調(diào)用SPSS的 Canonical correlation.sps 宏。具體方法如下:1. 按Syntax的順序新建一個語句窗口。在語句窗口中輸入下面的語句:INCLUDE (路徑)/Canonical correlation.sps.CANCORR SET1=x1 x2 x3 x4 /SET2=y1 y2 y3 / . 典型相關(guān)分析在典型相關(guān)分析在SP

20、SSSPSS中的運(yùn)用中的運(yùn)用2. 點(diǎn)擊語句窗口Run菜單中的All子菜單項,運(yùn)行典型相關(guān)宏命令,得出結(jié)果。 典型相關(guān)分析求解方法典型相關(guān)分析求解方法典型相關(guān)分析在典型相關(guān)分析在SPSSSPSS中的運(yùn)用中的運(yùn)用(二)主要運(yùn)行結(jié)果解釋1. Correlations for Set-1、Correlations for Set-2、 Correlations Between Set-1 and Set-2(分別給出 兩組變量內(nèi)部以及兩組變量之間的相關(guān)系數(shù)矩陣)2. Canonical Correlations(給出典型相關(guān)系數(shù))3. Test that remaining correlations

21、are zero(給出典 型相關(guān)的顯著性檢驗)4. Raw Canonical Coefficients(分別給出兩組典型變量的未標(biāo)準(zhǔn)化系數(shù))5. Standardized Canonical Coefficients(分別給出兩組典型變量的標(biāo)準(zhǔn)化系數(shù))7. Redundancy Analysis(分別給出兩組典型變量的冗余分析)6. Canonical Loadings for Set-1 , 2 (分別給出兩組數(shù)據(jù)中的典型載荷包括交叉載荷,典型載荷是衡量原始變量與典型變量的相關(guān)程度的指標(biāo)。 典型相關(guān)分析在典型相關(guān)分析在SPSSSPSS中的運(yùn)用中的運(yùn)用例2 , 第277頁SPSS算法 C.R.Rao(1952)關(guān)于典型相關(guān)的經(jīng)典例子進(jìn)行分析,列舉了25個家庭的成年長子和次子的頭長和頭寬。利用典型相關(guān)分析法分析長子和次子頭型的相關(guān)性。典型相關(guān)分析求解方法典型相關(guān)分析求解方法典型相關(guān)分析在典型相關(guān)分析在SPSSSPSS中的運(yùn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論