應用統(tǒng)計學相關與回歸_第1頁
應用統(tǒng)計學相關與回歸_第2頁
應用統(tǒng)計學相關與回歸_第3頁
應用統(tǒng)計學相關與回歸_第4頁
應用統(tǒng)計學相關與回歸_第5頁
已閱讀5頁,還剩38頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

應用統(tǒng)計學相關與回歸第一頁,共四十三頁,2022年,8月28日

內容提要相關分析簡介簡單相關分析偏相關分析Distance過程簡單回歸分析小結第二頁,共四十三頁,2022年,8月28日相關分析簡介

在醫(yī)學科學研究中,常常要分析兩個變量之間的關系,例如身高和體重、年齡和血壓、體溫和脈搏、藥物劑量和療效等問題,因此涉及到研究兩個變量的相互關系。這時就涉及到兩個變量之間的相關與回歸。第三頁,共四十三頁,2022年,8月28日積差相關系數,又稱Pearson相關系數:定量描述線性相關程度好壞的常用指標,只適用于兩變量呈線性相關時。特點:相關系數r

是一個無單位的量值,且-1<r<1;

r>0為正相關,r<0為負相關;

r越接近于1,說明相關性越好;越接近于0,相關性越差。Spearman等級相關系數:當數據不滿足條件雙變量正態(tài)時。相關分析簡介

連續(xù)變量的相關指標(最常見)第四頁,共四十三頁,2022年,8月28日Gamma統(tǒng)計量:描述有序分類變量數據聯系強度的指標,以下指標都是基于Gamma統(tǒng)計量衍生出來的。Kendall‘sTau-b:反映兩個有序分類變量的一致性。Kendall‘sTau-c:對Kendall‘sTau-b進行了校正。相關分析簡介

有序變量的相關指標第五頁,共四十三頁,2022年,8月28日列聯系數:基于2值得出PhiandCramer‘sV:也是基于2值得出Lambda系數:用于反映自變量對因變量的預測效果不確定系數相關分析簡介

名義變量的相關指標第六頁,共四十三頁,2022年,8月28日EtaKappa值OR、RR等相關分析簡介

其他相關指標第七頁,共四十三頁,2022年,8月28日相關分析簡介

實際上,在Crosstabs過程的statistics子對話框中提供了非常整齊的相關分析指標體系,如左圖。第八頁,共四十三頁,2022年,8月28日

除了Crosstab過程的statistics子對話框外,SPSS還在statistics菜單的correlation中提供了幾個更專業(yè)的相關分析過程:Bivariate過程:最常用Partial過程:專門進行偏相關分析Distances過程:一般不單獨使用,而用于因子分析、聚類分析和多維尺度分析的預分析相關分析簡介第九頁,共四十三頁,2022年,8月28日

例1

某醫(yī)院研究某種代乳粉的營養(yǎng)價值是用大白鼠做試驗,得大鼠進食量和體重增量間的關系的原始數據如下,試分析兩者有無直線相關關系。(數據文件見corr.sav)動物編號12345678910進食量feed820780720867690787934679639820體重增量weight165158130180134167186145120158進食量和體重增量的數據簡單相關分析第十頁,共四十三頁,2022年,8月28日首先繪制散點圖,結果如下:簡單相關分析①兩變量間存在線性相關趨勢②沒有發(fā)現明顯的異常值第十一頁,共四十三頁,2022年,8月28日簡單相關分析第十二頁,共四十三頁,2022年,8月28日選入希望進行相關分析的變量選擇相關分析指標簡單相關分析第十三頁,共四十三頁,2022年,8月28日簡單相關分析結果分析Pearson相關系數為0.940,且具有統(tǒng)計學意義,表明feed和weight有非常密切的關系,隨著feed的增加,weight也隨之增加。第十四頁,共四十三頁,2022年,8月28日簡單相關分析

利用上述對話框可以計算秩相關系數,即spearman相關系數,對原始數據分布不作要求,利用兩變量的秩次關系作線性相關分析,適用范圍更廣,但效能也較低。第十五頁,共四十三頁,2022年,8月28日簡單相關分析結果分析

對上面的例子計算秩相關系數的結果顯示,秩相關系數為0.899,P值<0.001。第十六頁,共四十三頁,2022年,8月28日簡單相關分析

上述對話框可用于計算kendall’s等級相關系數,適用于兩變量均為有序分類的情況。第十七頁,共四十三頁,2022年,8月28日簡單相關分析結果分析

對上面的例子計算等級相關系數,結果顯示,等級相關系數為0.750,P值=0.003。注意本例并未違反計算積差相關系數的適用條件,這里僅僅是作為演示用。第十八頁,共四十三頁,2022年,8月28日

大家可以發(fā)現,對相同的數據,秩相關系數和等級相關系數的絕對值均比積差相關系數小,為什么?簡單相關分析

顯然,這是由于在秩變換或數據按有序分類處理時損失信息所導致的。第十九頁,共四十三頁,2022年,8月28日

前面介紹的相關分析是分析兩個計量資料間的關系,在計算積差相關系數、Spearman相關系數和Kendall’s相關系數的時候,都沒有考慮第三方的影響,這就導致可能對事物的解釋出現偏差。下面以一個例子對此作進一步的說明。偏相關分析第二十頁,共四十三頁,2022年,8月28日

例2

某地29名13歲男童身高(x1,cm)、體重(x2,kg)及肺活量的實測數據文件為partial.sav。試計算其簡單相關系數。當體重固定時,計算身高與肺活量的偏相關系數,并做假設檢驗。偏相關分析第二十一頁,共四十三頁,2022年,8月28日偏相關分析第二十二頁,共四十三頁,2022年,8月28日偏相關分析選擇需要在偏相關分析時進行控制的變量。第二十三頁,共四十三頁,2022年,8月28日

選擇Zero-ordercorrelations復選框,則可以給出包括協(xié)變量在內所有變量兩兩相關的系數陣。偏相關分析第二十四頁,共四十三頁,2022年,8月28日偏相關分析結果分析

可見,控制了體重的影響后,身高和肺活量之間的關系無統(tǒng)計學意義。包括協(xié)變量在內所有變量兩兩相關的系數陣。第二十五頁,共四十三頁,2022年,8月28日Distance過程

簡單相關和偏相關有一個共同點,那就是對所分析的數據背景應當有一定程度的了解。但有時會遇到一種情況,在分析之前對數據所代表的專業(yè)背景知識了解尚不充分,本身就屬于探索性的研究,這時往往就需要先對幾個指標或者案例的差異性、相似程度進行考察,以先對數據有一個初步的了解,然后再根據結果考慮如何進行深入的分析。第二十六頁,共四十三頁,2022年,8月28日

Distance過程用于計算記錄或變量間的距離(或相似程度),根據變量的不同類型可以有許多距離、相似程度測量指標供用戶選擇。但由于本模塊只是一個預分析過程,因此距離分析并不會給出常用的P值,而只給出距離大小,以供用戶自行判斷相似性。Distance過程第二十七頁,共四十三頁,2022年,8月28日

例3

某實驗室制作了一張基因芯片,上面一共檢測了上萬個基因,現在從數據庫中提取出7個基因的數據,由于對這7個基因的生物學功能現在一無所知,因此首先想對其進行距離測量,看看哪幾個基因“距離”比較接近,然后可以通過臨床或實驗室進一步驗證。(數據見distance.sav。)Distance過程第二十八頁,共四十三頁,2022年,8月28日Distance過程第二十九頁,共四十三頁,2022年,8月28日Distance過程注意選擇該項第三十頁,共四十三頁,2022年,8月28日Distance過程結果分析

可見,代號為CDK2AP1,TCEB1和IRF2三個基因比較接近,可以粗略的劃為一類,而FPGS,ELF3和GFRA2可以劃為另一類,而NFE2可能作為單獨一類,這樣就可以進一步研究了。第三十一頁,共四十三頁,2022年,8月28日

例4

仍以數據corr.sav為例,進一步作回歸分析,計算進食量與體重增量之間的回歸方程。

分析:

與相關分析類似,在回歸分析之前首先要考慮的問題是兩變量是否存在某種趨勢,通過前面的散點圖已經得到了肯定的結論,因此直接進行回歸分析。簡單回歸分析第三十二頁,共四十三頁,2022年,8月28日繪制散點圖如下:簡單回歸分析①兩變量間存在線性相關趨勢②沒有發(fā)現明顯的異常值第三十三頁,共四十三頁,2022年,8月28日簡單回歸分析第三十四頁,共四十三頁,2022年,8月28日選擇應變量選擇自變量簡單回歸分析第三十五頁,共四十三頁,2022年,8月28日簡單回歸分析結果分析

對各自變量納入模型情況的匯總,本例只有一個自變量。第三十六頁,共四十三頁,2022年,8月28日簡單回歸分析結果分析

對模型的簡單匯總,即對回歸方程擬合情況的描述。本例決定系數為0.883。第三十七頁,共四十三頁,2022年,8月28日簡單回歸分析結果分析

對模型進行方差分析的結果,說明模型具有統(tǒng)計學意義。第三十八頁,共四十三頁,2022年,8月28日最重要簡單回歸分析結果分析

給出了回歸方程中的常數項、回歸系數的估計值和檢驗結果,可寫出回歸方程如下:體重增量=-17.357+0.222×進食量第三十九頁,共四十三頁,2022年,8月28日小結

相關系數r表示兩變量間的直線相關程度,r值的范圍為-1~1。r為正表示X與Y之間為正相關,r為負表示負相關。r接近于0表示兩變量間關系不密切。但r

有抽樣誤差,故算得相關系數之后,必須檢驗相應的總體相關系數是否為0。第四十頁,共四十三頁,2022年,8月28日小結

研究中一般只涉及直線相關關系,但從理論上講,可以進行變量間的曲線相關分析;如果希望扣除其他變量的影響,可以進行偏相關分析;如果變量不滿足線性相關分析的適用條件,則可以進行Spearman秩相關分析。第四十一頁,共四十三頁,2022年,8月28日小結

①在意義和應用上,回歸反映兩變量間的依存關系,相關反映兩變量間的相互關系。

②在資料要求上,相關要求X與Y都是隨機變量,而且服從雙變量正態(tài)分布,這種資料若進行回歸分析,一般稱為Ⅱ型回歸模型。而回歸要求應變量Y是隨機變量,服從正態(tài)分布,自變量是固定的非隨機變量,建立的模型稱為Ⅰ型回歸模型。

相關與回歸既有區(qū)別又有聯系。第四十二頁,共四十三頁,2022年,8月28日

③相關系數和回歸系數的正負號相同,假設

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論