生物數(shù)據(jù)統(tǒng)計(jì)分析方法——第六章2_第1頁(yè)
生物數(shù)據(jù)統(tǒng)計(jì)分析方法——第六章2_第2頁(yè)
生物數(shù)據(jù)統(tǒng)計(jì)分析方法——第六章2_第3頁(yè)
生物數(shù)據(jù)統(tǒng)計(jì)分析方法——第六章2_第4頁(yè)
生物數(shù)據(jù)統(tǒng)計(jì)分析方法——第六章2_第5頁(yè)
已閱讀5頁(yè),還剩78頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、主要內(nèi)容主要內(nèi)容緒論緒論統(tǒng)計(jì)量、統(tǒng)計(jì)分布與統(tǒng)計(jì)比較統(tǒng)計(jì)量、統(tǒng)計(jì)分布與統(tǒng)計(jì)比較回歸與最小二乘分析回歸與最小二乘分析比較試驗(yàn)設(shè)計(jì)與分析比較試驗(yàn)設(shè)計(jì)與分析回歸試驗(yàn)設(shè)計(jì)與分析回歸試驗(yàn)設(shè)計(jì)與分析動(dòng)態(tài)試驗(yàn)指標(biāo)的統(tǒng)計(jì)推斷動(dòng)態(tài)試驗(yàn)指標(biāo)的統(tǒng)計(jì)推斷綜合試驗(yàn)指標(biāo)的統(tǒng)計(jì)推斷綜合試驗(yàn)指標(biāo)的統(tǒng)計(jì)推斷Cluster Analysis 一、一、 簡(jiǎn)介簡(jiǎn)介 聚類(lèi)分析也是一種分類(lèi)聚類(lèi)分析也是一種分類(lèi)技術(shù)。與多元分析的其他方法相技術(shù)。與多元分析的其他方法相比,該方法較為粗糙,理論上還比,該方法較為粗糙,理論上還不完善,但應(yīng)用方面取得了很大不完善,但應(yīng)用方面取得了很大成功。與回歸分析、判別分析一成功。與回歸分析、判別分析一起被稱(chēng)為多

2、元分析的三大方法。起被稱(chēng)為多元分析的三大方法。1. 聚類(lèi)的目的 根據(jù)已知數(shù)據(jù),計(jì)算各觀察個(gè)體或變量之間親疏關(guān)系的統(tǒng)計(jì)量(距離或相關(guān)系數(shù))。根據(jù)某種準(zhǔn)則(最短距離法、最長(zhǎng)距離法、中間距離法、重心法),使同一類(lèi)內(nèi)的差別較小,而類(lèi)與類(lèi)之間的差別較大,最終將觀察個(gè)體或變量分為若干類(lèi)。 同一種疾病(如肝炎),根據(jù)臨床表現(xiàn)等將病人分成若干類(lèi)(甲、乙、丙、丁、戊型肝炎) 根據(jù)疾病的若干臨床表現(xiàn),將病人分成輕、中、重三型 在兒童生長(zhǎng)發(fā)育研究中,把以形態(tài)學(xué)為主的指標(biāo)歸于一類(lèi),以機(jī)能為主的指標(biāo)歸于另一類(lèi)根據(jù)分類(lèi)的原理可將聚類(lèi)分析分為: 系統(tǒng)聚類(lèi)與快速聚類(lèi)根據(jù)分類(lèi)的對(duì)象可將聚類(lèi)分析分為: 系統(tǒng)Q型與R型(即樣品聚類(lèi)

3、clustering for individuals 與與指標(biāo)聚類(lèi)clustering for variables)k 先采用聚類(lèi)分析獲得各個(gè)個(gè)體的類(lèi)別(classification );然后采用判別分析建立判別函數(shù),對(duì)新個(gè)體進(jìn)行類(lèi)型識(shí)別((identification ) 假使每個(gè)樣品有每個(gè)樣品有p個(gè)變量,則個(gè)變量,則每個(gè)樣品都可以看成每個(gè)樣品都可以看成p維空間中的維空間中的一個(gè)點(diǎn),一個(gè)點(diǎn),n個(gè)樣品就是個(gè)樣品就是p維空間中維空間中的的n個(gè)點(diǎn),則第個(gè)點(diǎn),則第i樣品與第樣品與第j樣品之樣品之間的距離記為間的距離記為dij SPSS稱(chēng)為BLOCK品品作用:消除量綱的影響作用:消除量綱的影響 優(yōu)點(diǎn)優(yōu)

4、點(diǎn):馬氏距離既排除了各指標(biāo)間的相關(guān)性干擾,又消除了各指標(biāo)的量綱缺點(diǎn)缺點(diǎn):樣品協(xié)方差矩陣不變不合理。 斜交空間21112)(1pkplklljlikjkirXXXXp可考慮變量間相關(guān)性問(wèn)題 配合適用于分類(lèi)變量,尤其是名義尺度變量52322),(),(2121221配合數(shù)不配合數(shù)配合數(shù)mmmdKFSMVXKTSQVX 研究樣品間的關(guān)系研究樣品間的關(guān)系常用常用距離,研究指標(biāo)間的關(guān)系距離,研究指標(biāo)間的關(guān)系常常用用相似系數(shù)。相似系數(shù)。 相似系數(shù)常用的有:夾角相似系數(shù)常用的有:夾角余弦與相關(guān)系數(shù)余弦與相關(guān)系數(shù)1.1.最短距離法最短距離法(single linkage) (single linkage) 2

5、.2.最長(zhǎng)距離法最長(zhǎng)距離法(complete linkage) (complete linkage) 3.3.中間距離法中間距離法(median method)(median method)4.4.類(lèi)平均法類(lèi)平均法(average linkage)(average linkage)5.5.可變類(lèi)平均法可變類(lèi)平均法(flexible-beta method)(flexible-beta method)6.6.重心法重心法(centroid method)(centroid method)7.Ward7.Ward離差平方和法離差平方和法(Wards minimum-(Wards minimum-v

6、ariance method)variance method)8.Mcquitty8.Mcquitty的相似分析法的相似分析法(Mcquittys (Mcquittys similarity analysis)similarity analysis)9.9.最大似然估計(jì)法最大似然估計(jì)法(EML)(EML)10.10.密度估計(jì)密度估計(jì)(density linkage)(density linkage)11.11.兩階段密度估計(jì)法兩階段密度估計(jì)法(two-stage (two-stage density linkage)density linkage)等。等。 B2A2 * B1 A1 * * B

7、3 *樣品間樣品間:歐氏距離類(lèi)類(lèi)間類(lèi)類(lèi)間:兩類(lèi)間兩兩樣品距離最短。即圖中樣品A2和B1之間的距離 ),min(LJKJMJDDD6個(gè)民族的粗死亡率與期望壽命 B2A2 * B1 A1 * * B3 *樣品間樣品間:歐氏距離類(lèi)類(lèi)間類(lèi)類(lèi)間:兩類(lèi)間樣品兩兩距離最長(zhǎng)。即圖中樣品A2和B3之間的距離 ),max(LJKJMJDDD最長(zhǎng)距離夸大了類(lèi)間距離,最短距離低估了類(lèi)間距離。介于兩者間的距離即為中間距離KLJM2222412121KLLJKJMJDDDD222221KLLJKJMJDDDD之間的數(shù)通常情況下取01, 1SPSS作為默認(rèn)方法,稱(chēng)為 between-groups linkage KLJM為

8、各類(lèi)中所含樣品數(shù)為歐氏距離的平方其中.2.222nDDnnDnnDLJMLKJMKMJ類(lèi)平均法的變型 KLJM25. 0; 1)1 (2222軟件預(yù)置為SASDDnnDnnDKLLJMLKJMKMJ B2A2 * B1 A1 * * B3 *類(lèi)類(lèi)間的距離用各自類(lèi)類(lèi)間的距離用各自重心間的距離表示重心間的距離表示 )(222222KLMLKKLMLKLJMLKJMKMJDnnnDnnnDnnDnnD比中間距離多 先將n個(gè)樣品各自成一類(lèi),然后每次每縮小一類(lèi),每縮小一類(lèi)離差平方和就要增加,選擇使離差平方和增加(SSMSSKSSL)最小的兩類(lèi)合并,直至所有的樣品歸為一類(lèi)為止。2222KLMJJLJMJL

9、JKJMJKJMJDnnnDnnnnDnnnnD 以上聚類(lèi)方法的計(jì)算步驟完全相同,僅類(lèi)與類(lèi)之間的定義不同。Lance和Williams于1967年將其統(tǒng)一為:222222LJKJKLLJLKJKMJDDDDDD 單調(diào)性 中間距離法、重心法不具有單調(diào)性 空間的濃縮與擴(kuò)張 不同聚類(lèi)法作圖,橫坐標(biāo)的范圍可相差很大。最短距離法與重心法比較濃縮;可變類(lèi)平均比較擴(kuò)張;類(lèi)平均法類(lèi)平均法比較適中。 幾種聚類(lèi)方法獲得的結(jié)果不一定相同 指標(biāo)聚類(lèi)采用相似系數(shù),相似系數(shù)大或距離小則表示類(lèi)間關(guān)系密切,為了統(tǒng)一,可采用以下公式變換。 221ijijrd 樣本量很大,用系統(tǒng)聚類(lèi)法樣本量很大,用系統(tǒng)聚類(lèi)法計(jì)算的工計(jì)算的工作量

10、作量極大,作出的極大,作出的樹(shù)狀圖樹(shù)狀圖也十分復(fù)雜也十分復(fù)雜, , 不不便于分析便于分析 原理選擇初始凝聚點(diǎn)根據(jù)歐氏距離將每個(gè)樣品歸類(lèi)各類(lèi)的重心代替初始凝聚點(diǎn)根據(jù)歐氏距離將每個(gè)樣品歸類(lèi), 直至分類(lèi)達(dá)到穩(wěn)定初始凝聚點(diǎn)initial cluster seeds ;cluster centers自動(dòng)選擇 必須給出允許分類(lèi)的最大個(gè)數(shù)k( SASSAS中用中用MAXCLUSTERS=k(或MAXC=k) )憑經(jīng)驗(yàn)選擇 以初始凝聚點(diǎn)建立一個(gè)數(shù)據(jù)文件,在SAS的FASTCLUS過(guò)程的SEED=選擇項(xiàng)中輸入該數(shù)據(jù)文件 原理與以上聚類(lèi)法類(lèi)似原理與以上聚類(lèi)法類(lèi)似, , 只是將只是將標(biāo)準(zhǔn)化后的變量視為標(biāo)準(zhǔn)化后的變量

11、視為“個(gè)體個(gè)體”,變,變量間的相關(guān)系數(shù)描述量間的相關(guān)系數(shù)描述“個(gè)體個(gè)體”間的間的相似程度。相似程度。 SASSAS中采用中采用VARCLUSVARCLUS過(guò)程過(guò)程。與判別分析的區(qū)別(作用,數(shù)據(jù)要求?)與判別分析的區(qū)別(作用,數(shù)據(jù)要求?)聚類(lèi)分析是一種探索性技術(shù),對(duì)于同一問(wèn)聚類(lèi)分析是一種探索性技術(shù),對(duì)于同一問(wèn)題,可獲得多種結(jié)果,解釋需要結(jié)合專(zhuān)業(yè)知題,可獲得多種結(jié)果,解釋需要結(jié)合專(zhuān)業(yè)知識(shí)識(shí)樣品量大可采用快速聚類(lèi)方法樣品量大可采用快速聚類(lèi)方法變量的形式?距離與相似系數(shù)?變量的形式?距離與相似系數(shù)?系統(tǒng)聚類(lèi)常用方法?系統(tǒng)聚類(lèi)常用方法?分類(lèi)數(shù)的確定分類(lèi)數(shù)的確定 專(zhuān)業(yè)知識(shí)專(zhuān)業(yè)知識(shí)聚類(lèi)方法的選擇聚類(lèi)方法的選

12、擇試用多種方法,系統(tǒng)聚類(lèi)與快速聚類(lèi)相結(jié)合試用多種方法,系統(tǒng)聚類(lèi)與快速聚類(lèi)相結(jié)合聚類(lèi)進(jìn)度表相似矩陣樣品或變量的分類(lèi)情況樹(shù)狀結(jié)構(gòu)圖冰柱圖冰柱的方向聚類(lèi)方法標(biāo)準(zhǔn)化變換親疏關(guān)系指標(biāo)將分類(lèi)結(jié)果存入數(shù)據(jù)文件中讀寫(xiě)凝聚點(diǎn)人為固定分類(lèi)數(shù)ANOVA表,初始凝聚點(diǎn)等樣品聚類(lèi)樣品聚類(lèi):PROC CLUSTER pseudo RSQUARE STD METHOD=(AVE, AVERAGE, CEN, CENTROID, COM, COMPLETE, DEN, DENSITY, EML, FLE, FLEXIBLE, MCQ, MCQUITTY, MED, MEDIAN, SIN, SINGLE, TWO, TWOSTAGE, WAR, WARD);ID national;PROC TREE HORIZONTAL; ID national;變量聚類(lèi)變量聚類(lèi):PROC VARCLUS CORR CENTROID HIERARCHY MAXC=4;快速聚類(lèi):快速聚類(lèi):PROC FASTCLUS MAXC=4 MAXITER=100 ; ID national;資料預(yù)處理:資料預(yù)處理:PROC ACECLUS ;(ACECLUS (App

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論