醫(yī)學統(tǒng)計學課件-主成分分析與因子分析(第20章)_第1頁
醫(yī)學統(tǒng)計學課件-主成分分析與因子分析(第20章)_第2頁
醫(yī)學統(tǒng)計學課件-主成分分析與因子分析(第20章)_第3頁
醫(yī)學統(tǒng)計學課件-主成分分析與因子分析(第20章)_第4頁
醫(yī)學統(tǒng)計學課件-主成分分析與因子分析(第20章)_第5頁
已閱讀5頁,還剩63頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

主成分分析與因子分析PrincipalComponentsAnalysis&FactorAnalysis2020/12/191醫(yī)學統(tǒng)計學講課內(nèi)容:第一節(jié)主成分分析第二節(jié)因子分析2020/12/192醫(yī)學統(tǒng)計學第一節(jié)主成分分析PrincipalComponentsAnalysis2020/12/193醫(yī)學統(tǒng)計學一、基本思想數(shù)據(jù)的降維、數(shù)據(jù)的解釋將原來眾多具有一定相關性的指標,組合成一組新的相互無關的綜合指標。

從中選取幾個較少的綜合指標盡可能多的反映原來眾多指標的信息。這種既減少了指標的數(shù)目又抓住了主要矛盾的做法有利于問題的分析和處理。2020/12/194醫(yī)學統(tǒng)計學2020/12/195醫(yī)學統(tǒng)計學

如何利用這些指標對每一兒童的生長發(fā)育作出正確評價?僅用單一指標:結(jié)論片面;沒有充分利用原有數(shù)據(jù)信息。利用所有指標:各指標評價的結(jié)論可能不一致,使綜合評價困難;工作量大。2020/12/196醫(yī)學統(tǒng)計學找出幾個綜合指標(長度、圍度、特體),這些綜合指標是原始指標的線性組合,既保留了原始指標的信息,且互不相關。各綜合指標提供的“信息”量大小用其方差來衡量。衡量一個指標的好壞除了正確性與精確性外,還必須能充分反映個體間的變異,一項指標在個體間的變異越大,提供的信息量越多。2020/12/197醫(yī)學統(tǒng)計學二、數(shù)學模型及幾何意義2020/12/198醫(yī)學統(tǒng)計學Z=AX2020/12/199醫(yī)學統(tǒng)計學第一主成分在所有Zi中最大2020/12/1910醫(yī)學統(tǒng)計學第二主成分……理論上主成分個數(shù)最多為m個(指標個數(shù))實際工作中確定的主成分個數(shù)總是小于m個在所有Zi中為第2大。無關,互相垂直:2020/12/1911醫(yī)學統(tǒng)計學X1X2112-2-2-1-120相關變異2020/12/1912醫(yī)學統(tǒng)計學X1X2Z1Z2112-2-2-2-211-1-1-1-122202020/12/1913醫(yī)學統(tǒng)計學Z1Z2-2-211-1-1220相關變異2020/12/1914醫(yī)學統(tǒng)計學三、主成分的求法及性質(zhì)2020/12/1915醫(yī)學統(tǒng)計學(一)主成分的求法

1.對各原始指標值進行標準化為了方便,仍用Xij表示Xij’。2020/12/1916醫(yī)學統(tǒng)計學標準化后的數(shù)據(jù)矩陣X=2020/12/1917醫(yī)學統(tǒng)計學2.

求出X1,X2,…,Xm

的相關矩陣RR=Cov(X)

=2020/12/1918醫(yī)學統(tǒng)計學Pearson相關系數(shù)標準化后的協(xié)方差協(xié)方差2020/12/1919醫(yī)學統(tǒng)計學3.

求出矩陣R的全部特征值(eigenvalue)i,

第i個主成分的組合系數(shù)ai1,ai2,,aim滿足方程組:(r11-i)ai1+r12ai2++r1maim=0r21ai1+(r22-i)ai2++r2maim=0

rm1ai1+rm2ai2++(rmm-i)aim=0

2020/12/1920醫(yī)學統(tǒng)計學(r11-i)ai1+r12ai2++r1maim=0r21ai1+(r22-i)ai2++r2maim=0

rm1ai1+rm2ai2++(rmm-i)aim=0i為矩陣R的第i個特征值,共有m個非負特征值,由大到小的順序排列為:1≥2≥≥m≥0i=Var(Zi)2020/12/1921醫(yī)學統(tǒng)計學4.由以上方程組,求出相應于特征值i的特征向量(eigenvector)(ai1,ai2,,aim)’2020/12/1922醫(yī)學統(tǒng)計學(二)主成分的性質(zhì)

1.各主成分互不相關

2020/12/1923醫(yī)學統(tǒng)計學2.主成分的貢獻率與累積貢獻率

(原始指標值標準化)(指標個數(shù))貢獻率累積貢獻率2020/12/1924醫(yī)學統(tǒng)計學3.主成分個數(shù)的選取(1)前k個主成分的累積貢獻率>70%。(2)主成分Zi的特征值i≥

1。4.因子載荷(第i主成分Zi與第j原始指標Xi間相關系數(shù))2020/12/1925醫(yī)學統(tǒng)計學5.樣品的主成分得分2020/12/1926醫(yī)學統(tǒng)計學四、實例2020/12/1927醫(yī)學統(tǒng)計學2020/12/1928醫(yī)學統(tǒng)計學2020/12/1929醫(yī)學統(tǒng)計學2020/12/1930醫(yī)學統(tǒng)計學1.主成分個數(shù)的選取

3很接近于1;

3

與2的貢獻率相差不大,為25%左右,若舍去3不合理。取前三個主成分。2020/12/1931醫(yī)學統(tǒng)計學2.列出主成分表達式Z1為急性炎癥成分(X1轉(zhuǎn)氨酶、X2肝大指數(shù))Z2為慢性炎癥成分(X3硫酸鋅濁度)Z3為癌變成分(X4甲胎球蛋白)2020/12/1932醫(yī)學統(tǒng)計學3.求出因子載荷陣2020/12/1933醫(yī)學統(tǒng)計學4.主成分得分2020/12/1934醫(yī)學統(tǒng)計學標準化指標主成分還原為原始指標主成分2020/12/1935醫(yī)學統(tǒng)計學

將該肝病患者的四項肝功能指標代入原始指標主成分表達式:

Z1=2.50865Z2=-1.06626Z3=-1.22943

該肝病患者可能為急性炎癥。2020/12/1936醫(yī)學統(tǒng)計學五、主成分分析的應用

1.對原始指標進行綜合以互不相關的較少個綜合指標反應眾多原始指標提供的信息。

主成分回歸(解決多元共線問題)。

2.進行綜合評價

2020/12/1937醫(yī)學統(tǒng)計學3.進行探索性分析利用因子載荷陣,找出影響各綜合指標的主要原始指標。

4.對樣品進行分類利用主成分得分對樣品進行分類:

Z1為急性炎癥成分

Z2為慢性炎癥成分

Z3為癌變成分2020/12/1938醫(yī)學統(tǒng)計學第二節(jié)因子分析FactorAnalysis2020/12/1939醫(yī)學統(tǒng)計學一、因子分析基本思想從分析多個可觀測的原始指標的相關關系入手,找到支配這種相關關系的有限個不可觀測的潛在變量。是多元分析中處理降維的一種統(tǒng)計方法。如:腦部疾病患者的意識清醒狀態(tài)可由語言能力、辯識能力、記憶能力、理解能力與思維邏輯能力等可觀測的指標反映。2020/12/1940醫(yī)學統(tǒng)計學二、因子分析數(shù)學模型

X1:收縮壓X2:舒張壓X3:心跳間隔X4:呼吸間隔X5:舌下溫度F1:交感神經(jīng)F2:副交感神經(jīng)commonfactor2020/12/1941醫(yī)學統(tǒng)計學specificfactorcommonfactor2020/12/1942醫(yī)學統(tǒng)計學Xi:觀測指標(標準化數(shù)據(jù))Fi:公因子ei:特殊因子aij:因子載荷(計算關鍵項)2020/12/1943醫(yī)學統(tǒng)計學X=AF+e2020/12/1944醫(yī)學統(tǒng)計學2020/12/1945醫(yī)學統(tǒng)計學2020/12/1946醫(yī)學統(tǒng)計學三、因子模型的性質(zhì)

矩陣A的統(tǒng)計意義1.公共度(共性方差)2020/12/1947醫(yī)學統(tǒng)計學因子的共性方差2020/12/1948醫(yī)學統(tǒng)計學2.因子貢獻與因子貢獻率矩陣A第j列元素反映了第j個公因子Fj對所有原始指標的影響;數(shù)據(jù)標準化后全部原始指標的總方差為指標個數(shù)m。Fj對原始指標的方差貢獻率2020/12/1949醫(yī)學統(tǒng)計學各因子的貢獻2020/12/1950醫(yī)學統(tǒng)計學3.因子載荷及因子載荷陣A2020/12/1951醫(yī)學統(tǒng)計學四、因子載荷陣的求解及計算步驟

1.

收集原始數(shù)據(jù)并整理為下表2020/12/1952醫(yī)學統(tǒng)計學2.對各指標進行標準化3.求指標間的相關系數(shù)矩陣RX4.求指標間的約相關系數(shù)矩陣R*

(1)R*的非對角線元素與相關矩陣RX的非對角線元素相等

(2)R*的對角線元素為共性方差2020/12/1953醫(yī)學統(tǒng)計學5.求出約關系數(shù)矩陣R*所有大于零的特征值及相應的特征向量6.寫出因子載荷陣A,得出原始指標X的公因子表達式2020/12/1954醫(yī)學統(tǒng)計學要求:1.

保留公因子個數(shù)q小于指標個數(shù)m,原則:

j≥1

前k個公因子累積貢獻率≥70%2.

各共性方差接近于1。3.

各原始指標在同一公因子Fj上的因子載荷之間的差別應盡可能大。2020/12/1955醫(yī)學統(tǒng)計學五、實例2020/12/1956醫(yī)學統(tǒng)計學1.主成分解2020/12/1957醫(yī)學統(tǒng)計學2020/12/1958醫(yī)學統(tǒng)計學2020/12/1959醫(yī)學統(tǒng)計學主成分解:除因子1可初步認定為綜合因子外,其余3個因子的專業(yè)意義不明顯。2.主因子解:除因子1可初步認定為綜合因子外,其余3個因子的專業(yè)意義不明顯。2020/12/1960醫(yī)學統(tǒng)計學六、因子旋轉(zhuǎn)當各公因子的專業(yè)意義難以解釋時,可以通過因子旋轉(zhuǎn)來解決。如求得的因子載荷陣A不甚理想,可右乘一個正交陣T,使AT有更好的實際意義,

使各原始指標在同一公因子上之間差別盡可能增大。稱因子正交旋轉(zhuǎn)。正交旋轉(zhuǎn)可保持各指標的共性方差不變;各公因子互不相關。常用方差最大旋轉(zhuǎn)法等。2020/12/1961醫(yī)學統(tǒng)計學2020/12/1962醫(yī)學統(tǒng)計學2020/12/1963醫(yī)學統(tǒng)計學七、幾點注意

1.因子分析的解不唯一(1)同一問題可以有不同的因子分析解:主成分解、主因子解、極大似然解(2)進行因子旋轉(zhuǎn)以獲得更為滿意的解。2.因子得分不能直接進行計算,但可以估計。2020/12/1964醫(yī)學統(tǒng)計學3.主成分分析與因子分析間的關系(1)兩者的分析重點不一致

Z=AX主成分為原始變量線性組合,重點在綜合原始變量信息。

X=AF+e原始變量為公因子與特殊因子線性組合,公因子重點反映支配原始變量的不可觀測的潛在因素。重

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論