版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
判別分析與聚類分析多元統(tǒng)計方法之二1實際應用問題1、蠓蟲的分類問題兩種蠓蟲——Af和Apf,根據(jù)它們觸角長度和翼長加以區(qū)分。假定已知類別的部分樣本數(shù)據(jù),即9只Af蠓蟲和6只Apf蠓蟲的數(shù)據(jù)。若給定一只蠓蟲,如何正確地區(qū)分它屬于哪一類?2已知蠓蟲類別的數(shù)據(jù)Af觸角1.241.361.381.381.381.41.481.541.56翼長1.721.741.641.821.91.71.821.822.08未知類別的三個樣本數(shù)據(jù):(1.24,1.8)、(1.28,1.84)、(1.4,2.04)32、乳腺癌的診斷問題通過某種醫(yī)學手段——利用細針穿刺進行采樣,可以確定哪些乳房腫瘤為良性(benign)哪些為惡性(malignant)。醫(yī)學研究發(fā)現(xiàn)乳房腫瘤病灶組織的細胞核顯微圖像的10個量化特征:細胞核直徑x1,質(zhì)地x2,周長x3,面積x4,光滑度x5,緊密度x6,凹陷度x7,凹陷點數(shù)x8,對稱度x9,斷裂度x10。42、乳腺癌的診斷問題現(xiàn)需要根據(jù)已獲得的實驗數(shù)據(jù)建立起一種診斷乳房腫瘤是良性還是惡性的方法。假設已經(jīng)確診了500個病例,利用這組數(shù)據(jù)建立一種分類模型,由此診斷另外69名已做穿刺采樣的患者。53、DNA序列的分類模型
假定已知兩組人工已分類的DNA序列(20個已知類別的人工制造的序列),其中序列標號1—10為A類,11-20為B類。要求我們從中提取已經(jīng)分類了的DNA序列片段的特征和構造分類方法,并且還要衡量所用分類方法的好壞,從而構造或選擇一種較好的分類方法。測試對象是20個未標明類別的人工序列(標號21—40)和182個自然DNA序列。例如A類:6a1='aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg';b1='gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatatttatt';……需要進行特征提取,將字符轉(zhuǎn)換成數(shù)據(jù)。上述兩個問題極其相似,都屬于分類問題。有關的分類方法有:判別分析、聚類分析、神經(jīng)網(wǎng)絡分析、粗集理論……7方法概述判別分析主成分分析因子分析聚類分析現(xiàn)代統(tǒng)計分析方法與應用8判別分析目的:對某一種研究對象的歸屬作出判斷。例如:在經(jīng)濟學中,根據(jù)人均國民收入、人均消費水平、人均住房面積等多種指標去判定一個國家的經(jīng)濟發(fā)展程度所屬類型(高、中、低等)。9設有k個類別G1,G2,…,Gk(總體),對任意樣品x,希望建立一個準則能判定它屬于哪個總體?G1G2Gkx關鍵是建立什么樣的判別準則,判斷x的歸屬問題。要求建立的準則在某中意義下是最優(yōu)的。例如誤判概率最小或錯判損失最小等。判別分析的統(tǒng)計模型描述待判點10μ1=(μ11,μ12,…,μ1p)數(shù)據(jù)結構G1G2μ2=(μ21,μ22,…,μ2p)待判數(shù)據(jù)的數(shù)據(jù)結構與G1,G2的數(shù)據(jù)結構一致。111、距離判別xμ1μ2X={x1,x2,…,xn}μ1={a1,…,an},μ2={b1,…,bn}d2(x,G1)=(x-μ1)’∑1-1(x-μ1)d2(x,G2)=(x-μ2)’∑2-1(x-μ2)其中∑1,∑2分別為協(xié)方差矩陣注意:正態(tài)性假定馬氏距離12判別規(guī)則如下:①當w(x)>0時,則x∈G1
②當w(x)<0時,則x∈G2
③當w(x)=0時,則x待判(線性判別法)假設∑1=∑2=∑,可以證明d2(x,G1)-d2(x,G2)=-2(x-(μ1+μ2)/2)’∑-1(μ1-μ2)記為w(x),顯然w(x)是x的線性函數(shù)。一般地,13x=[1.24,1.8];M1=[1.241.361.381.381.381.41.481.541.56;1.721.741.641.821.91.71.821.822.08];M2=[1.141.181.21.261.281.3;1.78 1.961.862.02.01.96];G1=M1';G2=M2';u1=mean(G1);u2=mean(G2);S1=COV(G1);S2=COV(G2);S=(9*S1+6*S2)/15;NS=inv(S);W=-2*(x-(u1+u2)/2)*NS*(u1-u2)';ifW>0n=1;elsen=-1;endnplot(G1(:,1),G1(:,2),'*',G2(:,1),G2(:,2),'*',x(1),x(2),'*')這是蠓蟲分類的算例mcfl.m14mcfl.m15當判別準則提出后,還應該研究其優(yōu)良性。這里我們主要考慮誤判概率。注意:μ1,μ2,∑1,∑2往往是未知的,它們可以用各總體的訓練樣本作估計。判別準則的評價16判別情況分析在正態(tài)性的假定下,誤判概率為圖中陰影部分的面積。如何計算?閾值閾值點的選擇極為重要。注意:如果兩個總體靠得很近,則無論用何種辦法,誤判的概率都很大。17誤判率回代估計法設G1,G2為兩個總體,x(1),x(2)分別是來自兩個總體的樣本,其樣本容量分別是n1,n2。以全體訓練樣本,逐個代入已建立的判別準則中判別其歸屬,這個過程稱為回判?;嘏薪Y果如下表:其中n12表示屬于G1的樣品誤判為G2的個數(shù),則總的誤判個數(shù)為n12+n21。誤判率回代估計:回判情況實際歸類G1G2G1G2n11
n12n21n22n1n2頻率18誤判率的交叉確認估計1)從總體G1的容量為n1的訓練樣本中,剔除其中一個樣品,用剩余的n1-1的訓練樣本和總體G2的n2個訓練樣本一起建立判別函數(shù);2)用建立的判別函數(shù)對刪除的樣本作判別;3)重復以上步驟,直到n1個訓練樣本依次被剔除,又進行判別,其誤判樣品個數(shù)記為n12*。4)對總體G2的訓練樣本重復1)2)3),其誤判樣品個數(shù)為n21*。192、Fisher判別判別思想:通過將多維數(shù)據(jù)投影到某個方向上。投影的原則是將總體與總體之間盡可能分開,再選擇合適的判別規(guī)則,將待判的樣品進行分類判別。20Fisher判別方法的圖形解釋******y=0.8883x+0.6930y=-1.126x蠓蟲分類的散點圖mAfApf21Fisher判別方法概述G1,μ1,∑1G2,μ2,∑2欲尋找線性函數(shù)y=a’x,使得來自兩個總體的數(shù)據(jù)間的距離大,而來自同一個總體數(shù)據(jù)間的變異小??梢宰C明:a=(μ1-μ2)’∑-1,其中∑1=∑2=∑22Fisher判別方法概述判別規(guī)則:當y≥m時,判x∈G1當y<m時,判x∈G2其中,m是兩個總體均值在投影方向上的中點即以蠓蟲分類問題,用Fisher判別方法編程如:fisher1.m(結果:三個新的數(shù)據(jù)屬于Af類)23Af=[1.24,1.36,1.38,1.38,1.38,1.4,1.48,1.54,1.56;1.72,1.74,1.64,1.82,1.90,1.7,1.82,1.82,2.08]';Apf=[1.14,1.18,1.2,1.26,1.28,1.3;1.78,1.96,1.86,2.0,2.0,1.96]';mu1=mean(Af);mu2=mean(Apf);stdr1=std(Af);stdr2=std(Apf);sr1=zscore(Af);sr2=zscore(Apf);xiefc1=cov(sr1);xiefc2=cov(sr2);sim=0.5*(xiefc1+xiefc2);nsim=inv(sim);a=(mu1-mu2)*nsimm=0.5*(mu1-mu2)*nsim*(mu1+mu2)'w=[1.241.281.4;1.8,1.84,2.04];y=a*wplot(Af(:,1),Af(:,2),'o',Apf(:,1),Apf(:,2),'*',w(1,:),w(2,:),'*');計算結果:m=-0.2267y=-0.2371-0.2356-0.271624AfApf25聚類分析基本概念聚類分析(ClusterAnalysis)是研究“物以類聚”的一種方法。根據(jù)一批樣品的多個觀測指標,具體找出能夠度量樣品或指標之間相似程度的統(tǒng)計量,以這些統(tǒng)計量為劃分類型的依據(jù),將相似程度較大的樣品(指標)聚合為一類。26方法概述系統(tǒng)聚類法動態(tài)聚類法圖論聚類法模糊聚類法有序聚類法√27數(shù)據(jù)結構P個指標x1,x2,…,xpn個樣本28系統(tǒng)聚類法1、對樣品進行聚類將樣品間的“靠近”程度由某種距離來刻畫。常見的距離有歐氏、馬氏等,如:Minkowski馬氏292、對指標進行聚類對指標之間的“靠近‘程度往往用相似系數(shù)來刻畫。30系統(tǒng)聚類法(HierarchicalClustering)的計算步驟:1)計算n個樣品兩兩間的距離{dij},記D2)構造n個類,每個類只包含一個樣品;3)合并距離最近的兩類為一新類;4)計算新類與當前各類的距離;若類的個數(shù)等于1,轉(zhuǎn)到5);否則回3);5)畫聚類圖;6)決定類的個數(shù)和類;31Matlab軟件對系統(tǒng)聚類法的實現(xiàn)cluster從連接輸出(linkage)中創(chuàng)建聚類clusterdata從數(shù)據(jù)集合(x)中創(chuàng)建聚類dendrogram畫系統(tǒng)樹狀圖linkage連接數(shù)據(jù)集中的目標為二元群的層次樹pdist計算數(shù)據(jù)集合中兩兩元素間的距離(向量)squareform將距離的輸出向量形式定格為矩陣形式zscore對數(shù)據(jù)矩陣X進行標準化處理321、T=clusterdata(X,cutoff)其中X為數(shù)據(jù)矩陣,cutoff是創(chuàng)建聚類的臨界值。即表示欲分成幾類。以上語句等價與以下幾句命令:Y=pdist(X,’euclid’)Z=linkage(Y,’single’)T=cluster(Z,cutoff)以上三組命令更加靈活,可以自由選擇各種方法!各種命令解釋332、T=cluster(Z,cutoff)從逐級聚類樹中構造聚類,其中Z是由語句likage產(chǎn)生的(n-1)×3階矩陣,cutoff是創(chuàng)建聚類的臨界值。3、Z=linkage(Y)Z=linkage(Y,'method')
創(chuàng)建逐級聚類樹,其中Y是由語句pdist產(chǎn)生的n(n-1)/2階向量,’method’表示用何方法,默認值是歐氏距離(single)。有’complete’——最長距離法;‘a(chǎn)verage’——類平均距離;‘centroid’——重心法;‘ward‘——遞增平方和等。
344、Y=pdist(X)Y=pdist(X,'metric')計算數(shù)據(jù)集X中兩兩元素間的距離,‘metric’表示使用特定的方法,有歐氏距離‘euclid’
、標準歐氏距離‘SEuclid’
、馬氏距離‘mahal’、明可夫斯基距離'Minkowski‘
等5、H=dendrogram(Z)H=dendrogram(Z,p)由
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 1997年注冊會計師考試試題及答案
- 2025年幼兒園墻面壁紙采購合同范本2篇
- 2025年度體育賽事贊助合作合同樣本3篇
- 2024茶葉電商平臺銷售協(xié)議范本版B版
- 2024毛石擋墻光伏支架安裝施工合同模板下載3篇
- 2024首付分期付款合同協(xié)議書范本
- 2025年度便利店品牌獨家承包合作協(xié)議書3篇
- 2025年城市綠地系統(tǒng)規(guī)劃與測繪合同范本3篇
- 2025年度建筑原材料采購合同與訂單履行約定3篇
- 2024鎳礦行業(yè)風險評估與內(nèi)部控制合同3篇
- 老年冠心病慢病管理指南(2023版)解讀
- 2024年-2025年全民“科學素養(yǎng)提升行動”競賽考試題庫(含各題型)
- 實習護士匯報
- 4R危機管理理論
- FANUC機器人培訓教程(完成版)
- 中醫(yī)診療技術操作規(guī)程
- 樂理知識考試題庫130題(含答案)
- 2024年《多媒體技術與應用》 考試題庫及答案
- (完整)北京版小學英語1至6年級詞匯(帶音標)
- 終止合同告知函 委婉
- 0-3歲嬰幼兒基礎護理智慧樹知到期末考試答案章節(jié)答案2024年杭州師范大學
評論
0/150
提交評論