兩個(gè)多重相關(guān)變量組的統(tǒng)計(jì)分析數(shù)學(xué)畢業(yè)論文_第1頁(yè)
兩個(gè)多重相關(guān)變量組的統(tǒng)計(jì)分析數(shù)學(xué)畢業(yè)論文_第2頁(yè)
兩個(gè)多重相關(guān)變量組的統(tǒng)計(jì)分析數(shù)學(xué)畢業(yè)論文_第3頁(yè)
兩個(gè)多重相關(guān)變量組的統(tǒng)計(jì)分析數(shù)學(xué)畢業(yè)論文_第4頁(yè)
兩個(gè)多重相關(guān)變量組的統(tǒng)計(jì)分析數(shù)學(xué)畢業(yè)論文_第5頁(yè)
已閱讀5頁(yè),還剩12頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、兩個(gè)多重相關(guān)變量組的統(tǒng)計(jì)分析摘 要本文介紹兩組相關(guān)變量問(wèn)的典型相關(guān)與典型冗余分析的統(tǒng)計(jì)分析方法,以及在SAS軟件包中如何實(shí)現(xiàn),文中給出了一個(gè)典型的例子。關(guān)鍵詞:統(tǒng)計(jì)分析;典型相關(guān);典型冗余分析 在實(shí)際問(wèn)題中,經(jīng)常遇到需要研究?jī)山M變量間的相關(guān)關(guān)系,而且每組變量中間常常存在多重相關(guān)性。比如工廠生產(chǎn)的產(chǎn)品質(zhì)量指標(biāo)與原材料、工藝指標(biāo)間的相關(guān)關(guān)系;體育科研中運(yùn)動(dòng)員的體力測(cè)試指標(biāo)與運(yùn)動(dòng)能力指標(biāo)間的相關(guān)關(guān)系;經(jīng)濟(jì)領(lǐng)域中投資性變量與國(guó)民收入變量間的相關(guān)關(guān)系;教育學(xué)中學(xué)生高考各科成績(jī)與高二年級(jí)各主科成績(jī)間的相關(guān)關(guān)系;醫(yī)學(xué)研究中患某種疾病病人的各種癥狀程度與用科學(xué)方法檢查的一些指標(biāo)間的相關(guān)關(guān)系等等。 研究?jī)蓚€(gè)變量

2、組之間相關(guān)關(guān)系的常用方法是多元統(tǒng)計(jì)中的典型相關(guān)分析(參考2和 3)。如果進(jìn)一步研究這兩組多重相關(guān)變量間的相互依賴關(guān)系,即考慮多對(duì)多的回歸建模問(wèn)題,除了最小二乘準(zhǔn)則下的多對(duì)多回歸分析、雙重篩選逐步回歸分析,以及提取自變量成分的主成分回歸等方法外,還有近年發(fā)展起來(lái)的偏最小二乘(PLS)回歸方法。關(guān)于多對(duì)多回歸建模問(wèn)題,我們將另文介紹。本文介紹典型相關(guān)與典型冗余分析,它是偏最小二乘回歸的理論基礎(chǔ)。 一 典型相關(guān)分析的基本思想與解法 第一組變量記為X= ,第二組變量記為Y= (不妨設(shè)pq)。典型相關(guān)分析借助于主成分分析提取成分的思想,從第一組變量X提取典型成分V (V是X1,Xp的線性組合);再?gòu)牡诙?/p>

3、組變量Y提取典型成分W(W是Y1,Yq的線性組合), 并要求V和W 的相關(guān)程度達(dá)到最大。這時(shí)V和W 的相關(guān)程度可以大致反映兩組變量X和Y的相關(guān)關(guān)系。記p+q維隨機(jī)向量Z=的協(xié)差陣=,其中11一是X的協(xié)差陣,22:是Y的協(xié)差陣,l2=21是X,Y的協(xié)差陣。我們用X和Y的線性組合V=X和W=Y之問(wèn)的相關(guān)來(lái)研究X和Y之間的相關(guān)。我們希望找到a和b,使(V,W)最大。由相關(guān)系數(shù)的定義, (V,W)=分析上式將發(fā)現(xiàn):在使得V,W的相關(guān)達(dá)最大的同時(shí), V和W的方差將達(dá)最小,這說(shuō)明按此準(zhǔn)則得到的典型成分V和W,對(duì)原變量組X和Y的代表性最差,它們無(wú)法更多地反映原變量組的變異信息。另方面因V,W任意線性組合的相

4、關(guān)系數(shù)與 V,W 的相關(guān)系數(shù)相等,即使得相關(guān)系數(shù)最大的V=X和W=X并不唯一。故在典型相關(guān)分析解法中附加了約束條件: Var(U) = 11a = 1 Var(V)= 22b = 1。問(wèn)題化為在約束條件Var(U)=1,Var(V)=1下,求a和b,使得(U,V)= l2b達(dá)最大。定義l 設(shè)X=,Y=,p+q維隨機(jī)向量的均值向量為 O,協(xié)差陣O(不妨設(shè)pq)。如果存在a1 = (al1,alp)和b1 = (b1l,b1q)使得 1=(1X, lY)= 則稱X , Y是X,Y的第一對(duì)典型相關(guān)變量,它們之間的相關(guān)系數(shù)稱為第一個(gè)典型相關(guān)系數(shù)。 如果存在和使得 kX , kY和前面 k-1對(duì)典型變量

5、都不關(guān); Var(kX) = l,Var( kY) = 1; kX與 kY的相關(guān)系數(shù) 最大,則稱kX , kY是X,Y的第k對(duì)典型相關(guān)變量,它們之間的相關(guān)系數(shù)稱為第k個(gè)典型相關(guān)系數(shù)。已知p+q維總體Z的n次中心化觀測(cè)數(shù)據(jù)陣為:若假定,則協(xié)差陣的最大似然估計(jì)為 下面我們將從樣本協(xié)差陣S出發(fā),來(lái)討論兩組變量問(wèn)的相關(guān)關(guān)系。 令為pq陣,則pq陣和qq陣的非零特征根相同,且非零特征根均為正的。若rk(T)=rk(S12)=rp(因pq),非零特征根依次為 O(且iO,i=1,r)。記r階對(duì)角陣D=diag(i,r)。利用pq陣T的奇異值分解定理(參考4)有其中口(i=l,r)為對(duì)應(yīng)于的單位正交特征向量

6、;(i=1,r)為對(duì)應(yīng)于的單位正交特征向量,且與滿足關(guān)系式: 。令 ,容易驗(yàn)證與滿足:則為X,Y的第i對(duì)樣本典型相關(guān)變量,為第i個(gè)樣本典型相關(guān)系數(shù)。二 典型相關(guān)系數(shù)的顯著性檢驗(yàn) 總體z的兩組變量X=和Y=如果不相關(guān),即Cov(X,Y)= 12=0,以上有關(guān)兩組變量典型相關(guān)的討論就毫無(wú)意義.故在討論兩組變量間的相關(guān)關(guān)系之前,應(yīng)首先對(duì)假設(shè)H0:l2=0作統(tǒng)計(jì)檢驗(yàn),它等價(jià)于檢驗(yàn)H0:l=0。 設(shè)總體,用似然比方法可導(dǎo)出檢驗(yàn)H0:l2=0的似然比統(tǒng)計(jì)量,利用矩陣行列式及其分塊行列式的關(guān)系,可得出 其中p+q階方陣s是的最大似然估計(jì)量,Sy分別是ij (i,j=1,2)的最大似然估計(jì)是的特征值。 統(tǒng)計(jì)量

7、的精確分布已由Hotelting(1936年)等人給出,但表達(dá)式很復(fù)雜。由統(tǒng)計(jì)量 出發(fā)可導(dǎo)出檢驗(yàn)H0的近似檢驗(yàn)方法,如 Willks統(tǒng)計(jì)量,Pillai的跡,Hotettintg-Lawley跡和Roy的極大根等(參閱2)。 當(dāng)否定H0時(shí),表明X,Y相關(guān),進(jìn)而可得出至少第一個(gè)典型相關(guān)系數(shù)10。相應(yīng)的第一 對(duì)典型相關(guān)變量V1,W1可能已經(jīng)提取了兩組變量相關(guān)關(guān)系的絕大部分信息。兩組變量余下的部分可認(rèn)為不相關(guān),這時(shí)1(i=2,p)。故在否定H0后,有必要檢驗(yàn)即第i個(gè)及以后的所有典型相關(guān)系數(shù)均為0。利用似然比方法可導(dǎo)出檢驗(yàn)的似然比統(tǒng)計(jì)量,并給出該統(tǒng)計(jì)量的近似分布。從i=2開始逐個(gè)檢驗(yàn),直到某個(gè)i0,使

8、相容時(shí)為止。這時(shí)說(shuō)明第i0個(gè)及以后的所有典型相關(guān)系數(shù)均為0。假定經(jīng)檢驗(yàn),前m個(gè)典型相關(guān)系數(shù)顯著地不等于0(mp)。 三 典型結(jié)構(gòu)與典型冗余分析 1典型結(jié)構(gòu) 求出典型變量后,進(jìn)一步可以來(lái)計(jì)算原始變量與典型變量之問(wèn)的相關(guān)系數(shù)陣典型結(jié) 構(gòu)。 記A=(al,a2,ar)為Pr矩陣,B=(bl,b2,br)為qr矩陣,典型隨機(jī)向量;隨機(jī)向量Z的協(xié)差陣為=0, 隨機(jī)向量的協(xié)差陣為是的最大似然然估計(jì)。則 Cov(X,V)=Cov(X,X)=11A,Cov(X,W)=Cov(X,Y)=12B, Cov(Y,V)=Gov(Y,X)= 12A,Cov(Y,W)=Coy(X,Y)=22B。 用Sij代替以上公式中的

9、ij(i,j=1,2),即可計(jì)算出原始變量與典型變量之間的協(xié)差陣。由協(xié)差陣還可以計(jì)算原始變量與典型變量之間的相關(guān)系數(shù)陣。若假定原始變量均為標(biāo)準(zhǔn)化變量,則以上計(jì)算得到的原始變量與典型變量的協(xié)方差陣就是相關(guān)系數(shù)陣。若計(jì)算這四個(gè)相關(guān)系數(shù)陣中各列(或各行)相關(guān)系數(shù)的平方和,還將得出下面一些有關(guān)的概念。 2幾個(gè)概念 類似于主成分分析,把Vk看成是由第一組標(biāo)準(zhǔn)化變量X提取的成分,Wk看成是由第二組標(biāo)準(zhǔn)化變量Y提取的成分,由相關(guān)陣R(X,V)=S11A=r(Xj,Vk)(p,r)和R(Y,W)=S11B=r(Xj,Vk)(q,r)分別計(jì)算第k列的平方和。記 并稱)(或)為第k個(gè)典型變量 Vk(或Wk)解釋本

10、組變量X(或Y)總變差的百分比。記 并稱 (或)為前m(mr)個(gè)典型變量 ()解釋本組變量X(或Y)總變差的累計(jì)百分比。 在典型相關(guān)分析中,從兩組變量分別提取的兩個(gè)典型成分首先要求相關(guān)程度最大,同時(shí)也希望每個(gè)典型成分解釋各組變差的百分比也盡可能的大。百分比的多少反映由每組變量提取的用于典型相關(guān)分析的變差的多少。 類似于主成分分析,還可以引入前m個(gè)典型變量對(duì)本組第j個(gè)變量Xi(或Yj,)的貢獻(xiàn)等概念(參考1)。 3典型冗余分析 我們進(jìn)一步來(lái)討論典型變量解釋另一組變量總變差百分比的問(wèn)題。在典型相關(guān)分析中,因所提取的每對(duì)典型成分保證其相關(guān)程度達(dá)最大,故每個(gè)典型成分不僅解釋了本組變量韻信息,還解釋了另

11、一組變量的信息。典型相關(guān)系數(shù)越大,典型成分解釋對(duì)方變量組變差的信息也將越多。類似可以定義)(或)為Wk (或Vk)解釋另一組總變差的百分比。以下給出利用典型變量解釋本組變差的百分比來(lái)計(jì)算解釋另一組變差百分比的公式: ,事實(shí)上,由典型變量的系數(shù)ak與bk之間的關(guān)系:以及典型變量與原始變量(假定已標(biāo)準(zhǔn)化)的相關(guān)陣即得:r(Xj,Wk)= k(Xj;Vk),故有=,類似可證明另一式。 表示第一組中典型變量解釋的變差被第二組中典型變量重復(fù)解釋的百分比,簡(jiǎn)稱為第一組典型變量的冗余測(cè)度;表示第二組中典型變量解釋的變差被第一組中典型變量重復(fù)解釋的百分比,簡(jiǎn)稱為第二組典型變量的冗余測(cè)度。冗余測(cè)度的大小表示這對(duì)

12、典型變量能夠?qū)α硪唤M變差相互解釋的程度大小。它將為進(jìn)一步討論多對(duì)多建模提供一些有用信息。四 應(yīng)用例子一康復(fù)俱樂(lè)20名成員測(cè)試數(shù)據(jù)的典型相關(guān)分析 康復(fù)俱樂(lè)部對(duì)20名中年人測(cè)量了三個(gè)生理指標(biāo):WEIGHT(體重),WAIST(腰圍),PULSE(脈膊)和三個(gè)訓(xùn)練指標(biāo):CHINS(拉單杠次數(shù)),SITUPS(仰臥起坐次數(shù)),JUMPS(跳高)(數(shù)據(jù)見以下數(shù)據(jù)行)。試分析生理指標(biāo)和訓(xùn)練指標(biāo)這二組變量間的相關(guān)性。解 使用SAS/STAT軟件中的CANCORR過(guò)程來(lái)完成典型相關(guān)分析。首先把測(cè)試數(shù)據(jù)生成SAS數(shù)據(jù)集,SAS程序如下:data da20x6; input weight waist pulse

13、chins situps jumps;label wight =體重 waist=腰圍 pulse=脈搏 chins=單杠 situps=仰臥起坐 jumps=跳高;cards;191 36 50 5 162 60 189 37 52 2 110 60193 38 58 12 101 101 162 35 62 12 105 37189 35 46 13 155 58 182 36 56 4 101 42211 38 56 8 101 38 167 34 60 6 125 40176 31 74 15 200 40 154 33 56 17 251 250169 34 50 17 120 38

14、 166 33 52 13 210 115154 34 64 14 215 105 247 46 50 1 50 50193 36 46 6 70 31 202 37 62 12 210 120156 33 54 15 225 73 138 33 68 2 110 43;run;proc cancorr data=da20x6 all vname=生理指標(biāo)wname=訓(xùn)練指標(biāo); var weight waist pulse; with chins situps jumps;run; DATA步創(chuàng)建康復(fù)俱樂(lè)部測(cè)試數(shù)據(jù)的SAS數(shù)據(jù)集(名為DA20X6),它有20個(gè)觀測(cè),6個(gè)變量。CANCORR過(guò)程

15、用于對(duì)輸入數(shù)據(jù)集DA20X6做典型相關(guān)分析。選項(xiàng)ALL要求輸出所有可選擇的計(jì)算結(jié)果;VNAIVIE=給出VAR語(yǔ)句中變量組的標(biāo)簽為生理指標(biāo) ;WNAIVIE=對(duì)WITH語(yǔ)句給出的第二組變量規(guī)定標(biāo)簽為訓(xùn)練指標(biāo) 。VAR語(yǔ)句列出第一組變量的名字,WITH列出第二組變量的名字。部分計(jì)算結(jié)果見輸出1至輸出5。 輸出1 均值、標(biāo)準(zhǔn)差和兩組變量問(wèn)的相關(guān)系數(shù) 輸出1列出6個(gè)變量的均值和標(biāo)準(zhǔn)差及生理指標(biāo)和訓(xùn)練指標(biāo)之間的相數(shù)。理指標(biāo)和訓(xùn)練指標(biāo)之間的相關(guān)性是中等的,其中WAIST和SITUPS 相關(guān)系數(shù)最大為-0.6456。 輸出2 典型相關(guān)分析系數(shù)及顯著性檢驗(yàn) 輸出2給出典型相關(guān)分析的一般結(jié)果。第一典型相關(guān)系數(shù)

16、為07956,它比生理指標(biāo)和訓(xùn)練指標(biāo)兩組間的任一個(gè)相關(guān)系數(shù)都大 檢驗(yàn)總體中所有典型相關(guān)均為O的零假設(shè)時(shí)顯著性概率為0.0635(即PrF的值),故在=0.10的顯著水平下,否定所有典型相關(guān)為0的假設(shè)。也就是至少有一個(gè)典型相關(guān)是顯著的。從后面的檢驗(yàn)結(jié)果可知,只有第一典型相關(guān)系數(shù)是顯著不等于0的。因此,兩組變量相關(guān)性的研究可轉(zhuǎn)化為研究第一對(duì)典型相關(guān)變量的相關(guān)性。輸出3 標(biāo)準(zhǔn)化后典型變量的系數(shù) 輸出結(jié)果中還給出原始變量和標(biāo)準(zhǔn)化變量的典型相關(guān)變量的系數(shù)。因六個(gè)變量沒(méi)有用相同單位測(cè)量,我們來(lái)分析標(biāo)準(zhǔn)化后的系數(shù)(見輸出3)。來(lái)自生理指標(biāo)的第一典型變量V1為(右上角帶“*”的變量表示標(biāo)準(zhǔn)化變量): V1=-

17、0.7754WEIGHT* + 1.5793WAIST* - 00591PULSE* 它近似地是WAIST*和4WEIGHT*的加權(quán)差,在WAIST*上的權(quán)數(shù)更大些。V1在 PULSE上系數(shù)近似為0 來(lái)自訓(xùn)練指標(biāo)的第一典型變量W1為 W1=-0.3495CHINS* - 1054SITUPS* + O7164JUMPS*它在SITUPS*上的系數(shù)最大 這一對(duì)典型變量主要是反映腰圍(WAIST*)和仰臥起坐(SITUPS)的負(fù)相關(guān)關(guān)系。輸出4 典型結(jié)構(gòu)原始變量和典型變量的相關(guān)系數(shù)陣 由輸出4可看出來(lái)自生理指標(biāo)的第一典型變量v1與腰圍(WAIST)的相關(guān)系數(shù)為0.92,V與體重(WEIGHT)的相

18、關(guān)為0.6206,它們都是正的。但典型變量V1在體重上的系數(shù)為負(fù)的(-0.7754),即體重在V1的系數(shù)和它與V1的相關(guān)反號(hào)。來(lái)自訓(xùn)練指標(biāo)的第一典型變量Wl與三個(gè)訓(xùn)練指標(biāo)的相關(guān)都是負(fù)值,其中跳高(JUMPS)在W1的系數(shù)(0.7164)和它與Wl的相關(guān)(-0.1622)也是反號(hào)。因此,體重和跳高在這兩組變量中是一個(gè)校正(或抑制)變量。 一個(gè)變量同典型變量的相關(guān)與在典型變量上的系數(shù)符號(hào)相反似乎是矛盾的。下面以體重為例來(lái)說(shuō)明這一現(xiàn)象,我們知道肥胖性同腰圍和體重之間的關(guān)系很密切的。一般說(shuō)來(lái),有理由認(rèn)為胖的人比瘦的人仰臥起坐的次數(shù)少。假定這組樣本中沒(méi)有身高非常高的人,因此體重和腰圍之間的相關(guān)(0870

19、2)是很強(qiáng)的。 腰圍大的人傾向于比腰圍小的人胖。因此腰圍與仰臥起坐為負(fù)相關(guān)(-0.6456)。 體重大的人傾向于比體重小的人胖。于是體重與仰臥起坐為負(fù)相關(guān)(-0.4931)。 考慮用多元回歸方法由WAIST* (腰圍)和WEIGHT* (體重)來(lái)預(yù)測(cè)SITUPS* (仰臥起坐),得到的回歸式為:SITUPS* =0.2833 WEIGHT* 0.8921 WAIST* ,回歸式中WEIGHT* 系數(shù)的符號(hào)為正似乎不合理,關(guān)于系數(shù)的符號(hào)可解釋如下: 若固定體重的值,腰圍大的人傾向于較強(qiáng)壯和較胖,故而仰臥起坐次數(shù)少,于是腰圍的多元回歸系數(shù)(-0.8921)應(yīng)是負(fù)的。 若固定腰圍的值,體重大的人傾向于比較高和比較瘦,故而仰臥起坐次數(shù)多;因此體重的多元回歸系數(shù)(0.2833)應(yīng)為正的。這里體重與仰臥起坐的相關(guān)同體重的回歸系數(shù)符號(hào)相反。因此,第一典型相關(guān)一般解釋為以體重(WEIGHT)和跳高(JUMPS)作為校正(或抑制)變量來(lái)強(qiáng)化腰圍(WAIST)和抑臥起坐(SITUPS)之間的負(fù)相關(guān)關(guān)系。輸

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論