多變量數(shù)據(jù)的統(tǒng)計(jì)描述與統(tǒng)計(jì)推斷_第1頁(yè)
多變量數(shù)據(jù)的統(tǒng)計(jì)描述與統(tǒng)計(jì)推斷_第2頁(yè)
多變量數(shù)據(jù)的統(tǒng)計(jì)描述與統(tǒng)計(jì)推斷_第3頁(yè)
多變量數(shù)據(jù)的統(tǒng)計(jì)描述與統(tǒng)計(jì)推斷_第4頁(yè)
多變量數(shù)據(jù)的統(tǒng)計(jì)描述與統(tǒng)計(jì)推斷_第5頁(yè)
已閱讀5頁(yè),還剩58頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

多變量數(shù)據(jù)的統(tǒng)計(jì)描述與統(tǒng)計(jì)推斷

在醫(yī)學(xué)研究中,尤其在臨床試驗(yàn)中,每個(gè)觀察對(duì)象記錄的觀察結(jié)果通常有多個(gè)反應(yīng)變量(responsiblevariable)。例如,血壓記錄有收縮壓、舒張壓、脈壓等;血脂記錄有膽固醇脂、甘油三酯、磷脂、未脂化脂肪酸等;心功能、肺功能、微循環(huán)的檢測(cè)記錄項(xiàng)目則可多達(dá)十幾個(gè)乃至幾十個(gè),這種有多個(gè)反應(yīng)變量的數(shù)據(jù)稱(chēng)為多變量數(shù)據(jù)(multivariatedata)。在數(shù)據(jù)處理時(shí),如果只有一個(gè)反應(yīng)變量但有多個(gè)解釋變量,有時(shí)也稱(chēng)為多變量數(shù)據(jù)。要注意多變量數(shù)據(jù)與多因素試驗(yàn)的區(qū)別:多因素試驗(yàn)指的是有多個(gè)干預(yù)因素(分組因素)的試驗(yàn),盡管析因設(shè)計(jì)方差分析和正交設(shè)計(jì)方差分析可以分析多個(gè)試驗(yàn)因素的作用,但試驗(yàn)結(jié)果只有一個(gè)反應(yīng)變量,仍然是單變量方差分析。本章的所有統(tǒng)計(jì)描述與統(tǒng)計(jì)推斷都是建立在單變量分析的基礎(chǔ)之上,如單變量均數(shù)、單變量方差、單變量t檢驗(yàn)、單變量方差分析等,只是在描述和表達(dá)時(shí)采用了適合多變量的向量和矩陣的表示方法。第一節(jié)描述統(tǒng)計(jì)量一、均數(shù)向量與離差矩陣

1.均數(shù)向量設(shè)有n個(gè)觀察對(duì)象,每個(gè)觀察對(duì)象記錄了m個(gè)反應(yīng)變量,

X’i=(xilxi2

???xim),i=1,2,???,nm個(gè)反應(yīng)變量的樣本均數(shù)構(gòu)成均數(shù)向量,記為

2.離差矩陣任意兩個(gè)反應(yīng)變量Xj,Xk離均差積和ljk構(gòu)成一個(gè)m×m矩陣,稱(chēng)為離差矩陣,記為

其中,ljj是第j個(gè)反應(yīng)變量的離均差平方和,ljk是第j個(gè)反應(yīng)變量與第k個(gè)反應(yīng)變量的離均差積和,并且有l(wèi)jk=lkj。離差矩陣L不僅是多變量數(shù)據(jù)統(tǒng)計(jì)描述的重要統(tǒng)計(jì)量,更是多變量數(shù)據(jù)統(tǒng)計(jì)分析最重要的中間結(jié)果。下面介紹的協(xié)方差矩陣和相關(guān)矩陣的計(jì)算都依賴(lài)離差矩陣L,第以后的多元分析,如多元回歸、判別分析、聚類(lèi)分析等也要用到L矩陣。

二、協(xié)方差矩陣任意兩個(gè)反應(yīng)變量Xj,XK的樣本方差Sjk構(gòu)成一個(gè)m×m矩陣,稱(chēng)為樣本方差—協(xié)方差矩陣,簡(jiǎn)稱(chēng)樣本矩陣,記為

三、相關(guān)矩陣任意兩個(gè)反應(yīng)變量Xj,XK的樣本相關(guān)系數(shù)rjk構(gòu)成一個(gè)m×m樣本相關(guān)矩陣(correlationmatrix),記為

例14-1在一項(xiàng)健康調(diào)查中,隨機(jī)抽取某單位15名正常成年男性測(cè)量血脂,記錄甘油三酯(mmol/L)、總膽固醇(mmol/L)和高密度脂蛋白膽固醇(mmol/L),結(jié)果見(jiàn)表14-1。試對(duì)這三個(gè)反應(yīng)變量進(jìn)行多變量描述。

以上三個(gè)多元描述統(tǒng)計(jì)量,描述三個(gè)測(cè)量指標(biāo)的平均水平,S描述這三個(gè)指標(biāo)的變異程度,R描述這三個(gè)指標(biāo)的相關(guān)性。由R可知,甘油三酯與總膽固醇的相關(guān)系數(shù)為0.456(p=0.088),甘油三酯與高密度脂蛋白膽固醇的相關(guān)系為0.284(P=0.305),總膽固醇與高密度脂蛋白膽固醇的相關(guān)系數(shù)為0.623(p=0.013)。

四、多元正態(tài)分布

在單變量統(tǒng)計(jì)描述和推斷中,通常假定數(shù)據(jù)服從正態(tài)分布。同理,在多變量統(tǒng)計(jì)描述和推斷中,通常假定數(shù)據(jù)服從多元正態(tài)分布。設(shè)μ為m個(gè)反應(yīng)變量的總體均數(shù)向量,σjk為第j個(gè)反應(yīng)變量與第k

個(gè)反應(yīng)變量的總體協(xié)方差,σjk(j,k=1,2,???,m)構(gòu)成m×m的總體協(xié)方差矩陣Σ。m維正態(tài)分布的密度函數(shù)為

第二節(jié)組間差別比較

一、單組資料對(duì)于單變量資料,假定樣本觀察值X服從正態(tài)分布N(μ,σ2),樣本均數(shù)服從正態(tài)分N(μ,σ2/n),可采作t檢驗(yàn)(H0:μ=μ0)

已知當(dāng)m=1時(shí),在H0:μ=μ0成立條件下,檢驗(yàn)統(tǒng)計(jì)量t2=F。當(dāng)m>1時(shí),在H0:μ=μ0成立條件下,HotellingT2與F有如下關(guān)系

因此,根據(jù)一個(gè)樣本均數(shù)向量檢驗(yàn)其總體均數(shù)向量是否為μ0

,可采用公式(14-10)定義的F值作為檢驗(yàn)統(tǒng)計(jì)量。在H0:μ=μ0成立條件下該統(tǒng)計(jì)量服從F分布,當(dāng)n較大時(shí),近似地服從自由度為m的χ2分布。

例14-2隨機(jī)抽取某單位5名懷疑有冠心病的成年男性,測(cè)量其甘油三酯(mmol/L)、總膽固醇(mmol/L)和高密度脂蛋白膽固醇(mmol/L)含量。根據(jù)例14-1已知,該單位正常成年男性的甘油三酯、總膽固醇和高密度脂蛋白膽固醇均數(shù)分別為1.02mmo1/L、2.73mmol/mmol/L和2.04mmol/L。問(wèn)該單位懷疑冠心病成年男性的血脂與正常成年男性有無(wú)差別?

表14-2中列出了懷疑冠心病成年男性的血脂三個(gè)指標(biāo)與正常成年男性血脂均數(shù)的差異,如果其總體均數(shù)向量不等于,則可認(rèn)為懷疑冠心病成年男性的血脂與正常成年男性有差別。

查F界值表,F(xiàn)0.05(3,2)=19.16,F(xiàn)0.01(3,2)=99.17,0.01<p<0.05,拒絕H0,接受H1,可認(rèn)為懷疑冠心病成年男性的血脂與正常成年男性有差別。由樣本均數(shù)向量=(0.776,0.780,-0.574)可知(經(jīng)單變量統(tǒng)計(jì)檢驗(yàn)),可認(rèn)為該單位懷疑冠心病成年男性甘油三酯和總膽固醇高于正常成年男性,高密度脂蛋白膽固醇低于正常成年男性。二、兩組比較

例14-3某婦幼保健院將孕婦隨機(jī)分兩組,一組接受孕期保健教育,另一組作為對(duì)照。表14-3是同一日出生的13名順產(chǎn)嬰兒的體重和身長(zhǎng),問(wèn)孕期保健教育對(duì)嬰兒生長(zhǎng)發(fā)育有無(wú)促進(jìn)作用?表14-3中用兩個(gè)指標(biāo)反映嬰兒的生長(zhǎng)發(fā)育狀況,通過(guò)孕期保健教育組和對(duì)照組嬰兒樣本均數(shù)向量和的比較,推論兩組總體均數(shù)向量μ1和μ2是否相等,進(jìn)而得出孕期保健教育對(duì)嬰兒體格發(fā)育有無(wú)影響的結(jié)論。查F值表,F(xiàn)0.05(2,10)=4.10,F(xiàn)0.01(2,10)=7.56,0.01<P<0.05,拒絕H0,接受H1,可以認(rèn)為孕期保健教育組出生嬰兒的生長(zhǎng)以育優(yōu)于對(duì)照組,即孕婦孕期的保健教育對(duì)嬰兒生長(zhǎng)發(fā)育有促進(jìn)作用。

三、多組比較

1.多變量方差分析單變量多個(gè)均數(shù)假設(shè)檢驗(yàn),假定g(≥2)組樣本觀察值分別來(lái)自正態(tài)總體N(μ1,σ2),N(μ2,σ2),…,N(μ

g,σ2

),根據(jù)樣本均數(shù)推論H0:μ1

=μ2=???μ

g是否成立,采用多個(gè)均數(shù)比較的方差分析的方法(見(jiàn)第一講)。同理,當(dāng)有多個(gè)反應(yīng)變量時(shí),是通過(guò)g個(gè)均數(shù)向量推論H0:μ1

=μ2=???μ

g是否成立,相應(yīng)的假設(shè)檢驗(yàn)方法采用多變量方差分析。

多變量方差分析與單變量方差分析原理完全相同,即將實(shí)驗(yàn)結(jié)果的總離差平方和SS總分解為SS組間和SS組內(nèi)兩部分,只不過(guò)多變量方差分析的SS總、SS組間、SS組內(nèi)用矩陣表示。設(shè)分別表示第i組的例數(shù)、均數(shù)向量和協(xié)方差矩陣,表示全體總均數(shù)向量,g個(gè)均數(shù)向量差別比較的多變量方差分析見(jiàn)表14-4,其中H組間相當(dāng)于單變量方差分析中的SS組間,E組內(nèi)相當(dāng)于SS組內(nèi)。

例14-4將患慢性胃炎的兒童隨機(jī)分為3組,其中I組、II組為治療組,另一組作為對(duì)照組,試比較治療藥物對(duì)T細(xì)胞免疫功能(外周血T3,T4,T8細(xì)胞百分比)的影響。表14-5是其中部分兒童的T細(xì)胞免疫功能的測(cè)量結(jié)果,試按表14-4計(jì)算H組間,E組內(nèi)。將以上計(jì)算結(jié)果按表14-4的形式匯總,得表14-6。

2.*統(tǒng)計(jì)量與F值*統(tǒng)計(jì)量是Wilks于1932年提出的一種廣義方差比,也稱(chēng)WilksLambda統(tǒng)計(jì)量。

其中,分子、分母都是行列式。當(dāng)*很小時(shí),說(shuō)明組間差H異大于隨機(jī)效應(yīng)E,應(yīng)懷疑零假設(shè)H0:μ1

=μ2=???μ

g是否正確。表14-6中的H和E通過(guò)*值可轉(zhuǎn)變?yōu)镕值(見(jiàn)表14-7),實(shí)現(xiàn)多變量的方差分析。

由表14-7可知,對(duì)兩組均數(shù)向量作假設(shè)檢驗(yàn)時(shí),除HotellingT2外,還可用多變量方差分析。正如單變量?jī)山M均數(shù)假設(shè)檢驗(yàn)既可用t檢驗(yàn)也可用方差分析一樣。多變量方差分析的計(jì)算十分繁瑣,但用SPSS或SAS軟件計(jì)算則非常簡(jiǎn)單,而且可以分析多因素設(shè)計(jì)時(shí)均數(shù)向量間的差別。在SPSS或SAS輸出結(jié)果中,各種情況下的*以及本節(jié)介紹的單組、兩組和多組比較的HotellingT2統(tǒng)計(jì)量,都可自動(dòng)轉(zhuǎn)換為我們熟悉的F值。

例14-5根據(jù)表14-6計(jì)算結(jié)果,比較3組慢性胃炎兒童T細(xì)胞免疫功能有無(wú)差別。按公式(14-16)計(jì)算檢驗(yàn)統(tǒng)計(jì)量

四、多變量分析與單變量分析

多變量分析是對(duì)m個(gè)反應(yīng)變量進(jìn)行一次假設(shè)檢驗(yàn)(HotellingT2檢驗(yàn)或MANOVA),對(duì)組間差別作出推斷。在大多數(shù)情況下,多變量假設(shè)檢驗(yàn)結(jié)論與對(duì)m個(gè)反應(yīng)變量進(jìn)行m次單變量假設(shè)檢驗(yàn)(t檢驗(yàn)或ANOVA)的結(jié)論是一致的,即多變量假設(shè)檢驗(yàn)拒絕H0,m次單變量假設(shè)檢驗(yàn)至少有一次拒絕H0,SPSS、SAS等統(tǒng)計(jì)軟件也是先給出多變量假設(shè)檢驗(yàn)結(jié)果,再給出單變量假設(shè)檢驗(yàn)結(jié)果,作為多變量分析的補(bǔ)充。

但理論上單變量假設(shè)檢驗(yàn)不能代替多變量假設(shè)檢驗(yàn),主要理由:①m次單變量假設(shè)檢驗(yàn)增加假陽(yáng)性錯(cuò)誤的概率,設(shè)每次單變量假設(shè)檢驗(yàn)的檢驗(yàn)水準(zhǔn)定為a,做完m次檢驗(yàn)I類(lèi)錯(cuò)誤的概率增加為am=1-(1-a)m。②單變量假設(shè)檢驗(yàn)只說(shuō)明某一變量在數(shù)軸分布上的組間差別,不能反映多個(gè)變量在平面或空間上的差別,兩者的意義不同,各自說(shuō)明各自的問(wèn)題,不能相互代替。如表14-8的兩組數(shù)據(jù),分別對(duì)兩組新生兒出生時(shí)的體重與身長(zhǎng)做單變量t檢驗(yàn):體重t=1.62,p=0.13,身長(zhǎng)t=0.04,p=0.97,都不能拒絕H0。但雙變量的HotellingT2檢驗(yàn):T2=9.87,F(xiàn)=4.58,P=0.03,拒絕H0:μ1=μ2,兩組在平面分布上差別如圖14-1所示。第三節(jié)重復(fù)測(cè)量資料的多變量分析

前面已經(jīng)介紹了重復(fù)測(cè)量資料的單變量ANOVA分析方法。如果不考慮重復(fù)測(cè)量數(shù)據(jù)是否滿足“球?qū)ΨQ(chēng)”假設(shè),可將每個(gè)觀察對(duì)象的m次重復(fù)測(cè)量結(jié)果看作一個(gè)向量,直接采用多變量的HotellingT2檢驗(yàn)。例14-610名肥胖患者在醫(yī)生指導(dǎo)下服用藥物減肥,按統(tǒng)一標(biāo)準(zhǔn)記錄服藥前和服藥后1~4周的體重,見(jiàn)表14-9,試分析減肥效果。

1.建立檢驗(yàn)假設(shè)如果減肥藥物無(wú)效,各時(shí)間點(diǎn)體重的總體均數(shù)相等,即μ1=μ2=μ3=μ4=μ5。所以有H0:Cμ=0,H1:Cμ≠

0,其中3.分析服藥后1~4周的體重降低的變化趨勢(shì)本例可將10名患者組內(nèi)變異SS組內(nèi)(自由度為υ=4)分解為多項(xiàng)式的1次項(xiàng)(liner)、2次項(xiàng)(quadratic)、3次項(xiàng)(cubic)、4次項(xiàng)(order4),描述體重隨時(shí)間變化的曲線趨勢(shì)。SPSS10.0的輸出結(jié)果為:

只有1次項(xiàng)有意義(P<0.01),說(shuō)明服藥后患者體重降低是線性變化趨勢(shì),見(jiàn)圖14-2.

例14-6是對(duì)10名肥胖患者各自體重變化(組內(nèi)變異)的分析。如果設(shè)立對(duì)照組,比較藥物療效要在患者間進(jìn)行,即分析處理組和對(duì)照組的體重差異和變化趨勢(shì)(組間變異),分析方法同組內(nèi)變異。第四節(jié)輪廓分析

輪廓分析是比較兩組或多組多變量均數(shù)向量的輪廓是否相等。如將表12-20中A,B,C三組不同麻醉誘導(dǎo)時(shí)相的平均收縮壓作圖,A,B,C三組均數(shù)的折線稱(chēng)為輪廓(profile),見(jiàn)圖14-3。輪廓分析(profileanalysis)是兩個(gè)或多個(gè)均數(shù)向量比較的一個(gè)特例。m個(gè)變量可以是同一個(gè)處理的m次重復(fù)測(cè)量結(jié)果(圖14-3),也可以是m次處理的觀察結(jié)果(圖14-4),但m次處理的觀察結(jié)果必須屬于同一類(lèi)型的指標(biāo)且計(jì)量單位相同。本節(jié)介紹兩組多變量均數(shù)比較的輪廓分析。

例14-7分別對(duì)50名碩士生和30名博士生進(jìn)行健康狀況抽樣調(diào)查。調(diào)查問(wèn)卷設(shè)計(jì)了如下七個(gè)問(wèn)題:①對(duì)自己健康狀況的滿意程度(X1);②是否需要調(diào)養(yǎng)身體(X2);③身體有不適或不舒服的感覺(jué)(X3);④有生病的感覺(jué)(X4);⑤有緊張情緒和壓力感(X5);⑥晚間休息感到不能很快入睡(X6);⑦吃飯有時(shí)覺(jué)得胃口不好(X7)。每個(gè)問(wèn)題的回答從好到差按4個(gè)等級(jí)記分(分別賦值1、2、3、4),調(diào)查結(jié)果見(jiàn)表14-10,7個(gè)問(wèn)題的平均得分的輪廓圖見(jiàn)圖14-4,問(wèn)每個(gè)問(wèn)題碩士生和博士生的回答結(jié)果是否相同?

2.相合檢驗(yàn)檢驗(yàn)兩個(gè)總體的輪廓否為重合輪廓(coincidentprofile)。如果兩個(gè)總體的輪廓相互平行,Σμ1i=Σμ2i(i=1,2,…,m)相等時(shí)兩個(gè)總體的輪廓重合。因此,檢驗(yàn)假設(shè)H0:Σμ1i=Σμ2i,H1:Σμ1i

Σμ2i

,檢驗(yàn)方法用單變量t檢驗(yàn)

3.水平輪廓檢驗(yàn)檢驗(yàn)兩個(gè)總體的輪廓是否為水平直線輪廓(levelprofile)。在兩個(gè)總體的輪廓重合的假定下,兩組多變量數(shù)據(jù)視為一個(gè)總體,合并后的總體均μˊ=(μ1,μ2,μ3,μ4,μ5,μ6,μ7),并且有μ1-μ2=μ1-μ3=μ1-μ4=μ1-μ5=μ1-μ6

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論