聚類(lèi)分析的關(guān)鍵依據(jù)_第1頁(yè)
聚類(lèi)分析的關(guān)鍵依據(jù)_第2頁(yè)
聚類(lèi)分析的關(guān)鍵依據(jù)_第3頁(yè)
聚類(lèi)分析的關(guān)鍵依據(jù)_第4頁(yè)
聚類(lèi)分析的關(guān)鍵依據(jù)_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

聚類(lèi)分析的關(guān)鍵依據(jù)

聚類(lèi)分析是三種元統(tǒng)計(jì)分析方法之一,在許多領(lǐng)域都得到了廣泛應(yīng)用。聚類(lèi)分析不僅具有活力,而且還有許多分支。首先有樣品聚類(lèi)與變量聚類(lèi)之分,其中樣品聚類(lèi)又有面向大樣本量情形的快速聚類(lèi)與面向樣本量不大情形的常規(guī)聚類(lèi)兩個(gè)分支。對(duì)于這其中的常規(guī)聚類(lèi),還可細(xì)分為有序樣品聚類(lèi)與非有序樣品聚類(lèi),而對(duì)于非有序樣品聚類(lèi),有聚類(lèi)類(lèi)數(shù)由少而多的分解法與由多而少的歸并法的區(qū)別。歸并法最為常用,也稱(chēng)譜系聚類(lèi)。聚類(lèi)家族人丁興旺,其共同的基因可以歸納為兩個(gè):一是“模型”限于處理數(shù)值型變量尤其是非離散變量;二是“模型”的基礎(chǔ)除變量聚類(lèi)少數(shù)場(chǎng)合外其余概為距離計(jì)算。不妨回顧一下聚類(lèi)分析的過(guò)程與細(xì)節(jié),容易知道無(wú)論是譜系聚類(lèi)還是快速聚類(lèi),任何場(chǎng)合的距離計(jì)算不外乎三種:樣品之間的距離、樣品到類(lèi)的距離以及類(lèi)與類(lèi)之間的距離。而這些計(jì)算的唯一依據(jù)是樣品之間的距離,簡(jiǎn)稱(chēng)樣品間距,只有譜系聚類(lèi)的ward方法例外。距離首先是一個(gè)幾何概念,其中最為人熟悉的是二維和三維幾何空間的歐幾里德距離。在其后的發(fā)展中,距離在維數(shù)、冪次數(shù)等方面被推廣了,距離被抽象為滿足下列性質(zhì)的一個(gè)函數(shù)族:(1)非負(fù)性;(2)對(duì)稱(chēng)性;(3)三角可加性。值得提醒人們特別關(guān)注的是,三角可加性雖然是一種特殊的可加性,但畢竟還是可加性,而可加性意味著幾何距離中向量的各分量量綱必須一致;至于可加性前面要加上“三角”做修飾,則意味著幾何距離中向量的各分量在笛卡爾坐標(biāo)系里必須正交。這是幾何距離定義中所隱含的兩個(gè)重要特性。樣品間距完全脫胎于幾何中的距離概念,這是毋庸置疑的,但樣品間距在幾何距離隱含的上述兩個(gè)關(guān)鍵特性上或許是被人們有意或許是不經(jīng)意地被模糊了。假如詢問(wèn)學(xué)過(guò)回歸分析的學(xué)生,需要進(jìn)行多重共線性的診斷嗎?回答肯定的。而假如詢問(wèn)學(xué)過(guò)聚類(lèi)分析的學(xué)生,聚類(lèi)分析需要進(jìn)行量綱不一致和變量不正交的診斷嗎?回答“是”的恐屬鳳毛麟角。還有一個(gè)明證是統(tǒng)計(jì)軟件的聚類(lèi)分析程序中既無(wú)量綱一致和變量正交化的獨(dú)立模塊,在內(nèi)容相關(guān)的模塊里,缺省設(shè)置也不是能使量綱一致和變量正交化的手段選項(xiàng)。在迄今所見(jiàn)的文獻(xiàn)中未見(jiàn)任何有關(guān)主題研究的文獻(xiàn)。被人們有意或許是不經(jīng)意地被模糊的兩個(gè)關(guān)鍵特性,一是幾何距離中向量的各分量量綱是一致的,故各分量的量值是可加的,可樣品距離中各個(gè)變量許多場(chǎng)合量綱并非一致。多元統(tǒng)計(jì)分析中關(guān)于消除量綱的方法是比較豐富的,主要有標(biāo)準(zhǔn)化變換、極差標(biāo)準(zhǔn)化變換和極差規(guī)格化變換三種。但人們往往將這些方法與中心化變換和對(duì)數(shù)變換之類(lèi)變換方法并列,且對(duì)三種消除量綱影響的方法孰優(yōu)孰劣只字不提,其結(jié)果是量綱一致化的必要性被嚴(yán)重地淡化了,以致聚類(lèi)分析里完全缺少判別分析那種將馬氏距離作為距離判別唯一選項(xiàng)的明快。何況,若記兩個(gè)p維樣品x=[x1,?,xp]′和y=[y1,?,yp]′之間的歐氏距離為:而相同的兩個(gè)p維樣品之間的統(tǒng)計(jì)距離或馬氏距離為:q其中S為樣本協(xié)方差矩陣,則正如RichardA.Johnson和DeanW.Wichern所說(shuō):“但是,沒(méi)有關(guān)于不同類(lèi)的先驗(yàn)知識(shí)。這些樣本量就無(wú)法計(jì)算。由于這個(gè)原因,在聚類(lèi)問(wèn)題中更傾向于采用歐氏距離”。也就是說(shuō),由于“類(lèi)”在聚類(lèi)開(kāi)始的階段尚不存在,類(lèi)內(nèi)的方差S無(wú)從談起,所以歐氏距離就替代了似乎更合理的統(tǒng)計(jì)距離或馬氏距離。被人們有意或許是不經(jīng)意地被模糊兩個(gè)關(guān)鍵特性之二,是幾何距離中向量的各分量在笛卡爾坐標(biāo)系里都是正交的,而樣品距離中各變量間往往存在一定程度的相關(guān),很多場(chǎng)合不能滿足正交條件,費(fèi)歇爾感覺(jué)到了這一點(diǎn),在與聚類(lèi)分析關(guān)聯(lián)緊密的姊妹方法判別分析中提出了著名的費(fèi)歇爾變換。費(fèi)歇爾變換是一種正交變換,可以很好解決不同變量不正交的問(wèn)題??上У氖?迄今并未有人嘗試將此移植到聚類(lèi)分析。當(dāng)然有必要指出的是,即使移植了,量綱一致及可加性的要求并不能因此獲得滿足。樣品間距迄今存在的量綱不一致和變量不正交這兩個(gè)固有缺陷,第一個(gè)缺陷量綱不一致無(wú)法真正消除,例如試圖將血壓與身高的量綱差異消除的努力在科學(xué)的范疇里恐怕永遠(yuǎn)不會(huì)成功。通過(guò)標(biāo)準(zhǔn)化進(jìn)行矯正也許是人們能夠想到的理想方法,只有規(guī)格化可能與其相比。第二個(gè)缺陷變量不正交或變量間存在相關(guān)性,假如不考慮量綱不一致的影響,其實(shí)完全可以真正消除,而且矯正的手段非常簡(jiǎn)單:正交化。有些多元統(tǒng)計(jì)分析教科書(shū)非常重視變量不正交或變量相關(guān)性問(wèn)題,并提供了馬氏距離、斜交空間距離兩種解決方法,但也未明確宣示正交化不可或缺的必要性。本文的主旨在于研究?jī)蓚€(gè)問(wèn)題,一是從聚類(lèi)分析結(jié)果(取決于樣品間距)看,是否有必要進(jìn)行正交化矯正;二是假如需要,那么應(yīng)該如何進(jìn)行正交化。對(duì)于第一個(gè)問(wèn)題,可以通過(guò)證偽的方法輕易得到解決。本文選取兩個(gè)熟悉度很高的且各變量量綱可以看作相同的案例,按未正交化的一般方法計(jì)算樣品距離陣,再按正交化的方法重新計(jì)算距離陣,正交化的方法是對(duì)p個(gè)變量求主成分,模型為:這樣得到的各主成分是相互正交的,即以各主成分的值Y1,?,Yp作為新的變量,重新計(jì)算距離。計(jì)算比對(duì)兩種結(jié)果。由于聚類(lèi)分析的原理是先將樣品距離小的樣品聚在一起,因此距離的絕對(duì)數(shù)沒(méi)有實(shí)際意義,本文主要通過(guò)比較距離的大小和排序(秩)來(lái)比對(duì)兩種距離。比對(duì)的具體做法是:(1)如果有n個(gè)樣品,則可得到原始距離和正交后距離各Cn2個(gè)。將兩個(gè)距離矩陣分別按列排成Cn2維的向量,分別求兩個(gè)向量的秩xi,yi(i=1,?,Cn2),計(jì)算兩種方法的距離之間的斯皮爾曼相關(guān)系數(shù)rd:其中,di=xi-yi,m為距離向量維數(shù)。假如不正交不影響樣品間距的順序和聚類(lèi)分析結(jié)果,兩者應(yīng)該正相關(guān),且斯皮爾曼相關(guān)系數(shù)rd為1,因此1-rd可以視為兩者差異大小的一個(gè)量度。(2)比較兩種距離的秩xi,yi的差異。如果正交不影響樣品間距的順序和聚類(lèi)分析結(jié)果,那么兩種應(yīng)該是完全一致的。(3)按照矩陣先行后列的順序計(jì)算樣品間距,將兩種方法計(jì)算的樣品間距的大小順序進(jìn)行比較。若正交不影響樣品間距的順序和聚類(lèi)分析結(jié)果,那么樣品間距的大小順序應(yīng)該是一致的。例如,不正交計(jì)算的樣品間距d1,2大于d3,5,若正交不影響樣品間距的順序和聚類(lèi)分析結(jié)果,那么正交化變換后的樣品間距d1,2也應(yīng)該大于d3,5。這里引入逆序?qū)?differentorderedpair)的概念來(lái)進(jìn)行比較。設(shè)原始距離秩為向量x,正交后的距離秩為向量y,第i個(gè)距離秩為(xi,yi),第j個(gè)距離秩為(xi,yi),i,j=1,?Cn2,如果xi>xj,而yi<yj;或者xi<xj,而yi>yj,則稱(chēng)i和j是逆序?qū)?逆序?qū)χ灰髕變化方向和y變化方向相反,并不要求i和j中x的變化量|xi-xj|與y的變化量|xi-xj|相等。類(lèi)似的,同序?qū)?sameorderedpair)的概念為如果xi>xj,且yi>yj;或者xi<xj,而yi<yj,則稱(chēng)i和j是同序?qū)?。另?若i和j,有xi=xj或yi=yj的情況,則i和j是同分對(duì)(tiedpair)。若原始距離和正交后的距離各Cn2個(gè),則可計(jì)算出逆序?qū)Α⑼驅(qū)?、同分?duì)的個(gè)數(shù)共C2Cn2個(gè),計(jì)算逆序?qū)Φ谋壤梢院饬績(jī)煞N距離差異大小。例1:鳶尾花數(shù)據(jù)鑒于全部150個(gè)樣品的樣品間距陣的元素總數(shù)為149*75,過(guò)于冗長(zhǎng),既不容易突出問(wèn)題也不便于表達(dá),為此只隨機(jī)選出10個(gè)樣品(表1)的計(jì)算結(jié)果列在表2中,這樣足以清晰地反映問(wèn)題的實(shí)質(zhì)所在。(1)依斯皮爾曼相關(guān)系數(shù)得到兩者的套算差異率為9.53%;(2)按間距順序變化情況衡量,45個(gè)間距中正交與否未產(chǎn)生影響的有8個(gè),未正交排序后移的有23個(gè),前移的有14個(gè)。(3)兩者存在明顯差異以致順序顛倒的也不鮮見(jiàn),如表中帶陰影的3對(duì)6個(gè)樣品即是如此,此即為逆序?qū)Α?5個(gè)間距計(jì)算出的逆序?qū)?、同序?qū)?、同分?duì)見(jiàn)表3。例2:頭蓋骨數(shù)據(jù)針對(duì)32個(gè)頭蓋骨樣品數(shù)據(jù)計(jì)算的(1)斯皮爾曼系數(shù)為97.9%,兩者的套算差異率為2.1%;(2)按間距順序變化情況衡量,496個(gè)間距中正交與否未產(chǎn)生影響的有12個(gè),正交排序后移的有266個(gè),前移的有218個(gè)。(3)496個(gè)間距計(jì)算出的逆序?qū)Α⑼驅(qū)?、同分?duì)見(jiàn)表4。兩個(gè)例子的比對(duì)結(jié)果表明,不僅未正交化與正交化的兩種樣品間距自身的數(shù)值不同,而且樣品間距的大小順序也存在明顯的差異。盡管表中所展示的只是不正交與采用主成分法正交化的兩者的樣品間距順序發(fā)生變化的結(jié)果,但由于這種順序變化必然導(dǎo)致聚類(lèi)分析結(jié)果產(chǎn)生差異,所以進(jìn)行正交化矯正完全是有必要的。那么應(yīng)該如何進(jìn)行正交化呢?關(guān)于正交化的實(shí)施途徑有許多現(xiàn)成方案可供選擇,最直接兩個(gè)正交化方法——主成分分析與格蘭姆—施密特方法。前者與聚類(lèi)分析同屬多元統(tǒng)計(jì)分析;后者較少統(tǒng)計(jì)色彩但更具一般性。主成分的正交方法前文已述,格蘭姆—施密特方法具體計(jì)算方法為:先取Y1=X1,然后令Y2=X2-h21Y1使(Y2,Y1)=0,即選h21使(X2-h21Y1,Y1)=0,即h21=(X2,Y1)/(Y1,Y1),再令Y3=X3-h32X2-h31X1使(Y3,Y2)=(Y3,Y1)=0,定出系數(shù)h32,h31;一般地,令Yi=Xi-hi(i-1)Yi-1-?-hi1Y1使(Yi,Yi-1)=(Yi,Yi-1)=?=(Yi,Y1)=0,這樣就可以求出一組兩兩正交的向量。有必要指出的是:雖然施密特正交化方法似乎因更具一般性而容易令人產(chǎn)生其統(tǒng)計(jì)色彩比較淡些的印象,從而會(huì)使人們忽視格蘭姆——施密特正交化方法在統(tǒng)計(jì)分析中的作用。格蘭姆——施密特正交化方法不同于主成分的最重要的地方在于,主成分變換是粉碎性的,變換后原有變量幾乎面目全非(除非再進(jìn)行因子旋轉(zhuǎn)),而格蘭姆——施密特正交化方法是將原有變量中一個(gè)原封不動(dòng)予以保留,以此作為變換的主軸。正如格蘭姆——施密特正交化方法在統(tǒng)計(jì)學(xué)中受到忽視一樣,這一點(diǎn)也是容易被視為當(dāng)然如此而最終滑過(guò)人們的視野。其實(shí),正是這微不足道的一點(diǎn),在統(tǒng)計(jì)中可能甚為有用。例如可將某個(gè)最重要的變量作為主軸予以保留,這樣至少可以部分達(dá)到因子旋轉(zhuǎn)的目標(biāo),一定程度上減少主成分難以解釋之弊。以上幾種方式都是普通的或成熟的正交化方法,不必懷疑是否能夠達(dá)成我們的初衷。疑問(wèn)也許在于,依據(jù)這幾種方法計(jì)算的樣品距離與馬氏距離和斜交空間距離是否具有一致性,會(huì)不會(huì)因不具一致性導(dǎo)致?lián)诉M(jìn)行的聚類(lèi)結(jié)果也不一致。使用上面提到的兩個(gè)案例,計(jì)算結(jié)果發(fā)現(xiàn),格蘭姆——施密特方法與主成分分析的結(jié)果完全一致,并無(wú)例外。這在理論上也是有根據(jù)的。對(duì)一個(gè)向量空間而言,標(biāo)準(zhǔn)正交基的變換相當(dāng)于坐標(biāo)軸的平移與旋轉(zhuǎn),平移對(duì)距離沒(méi)有任何影響,而壓縮與膨脹都是線性的和成比例的,會(huì)改變距離的大小而不會(huì)改變距離的順序。另外,格蘭姆——施密特方法和主成分分析與馬氏距離和斜交空間距離的結(jié)果(指距離的順序)也是完全一致的。因而我們需要決定的是,究竟應(yīng)優(yōu)先考慮哪種方法為好;或者說(shuō)各有千秋,只是場(chǎng)合不同。單從公式或表達(dá)方式看,馬氏距離最為簡(jiǎn)單,且與統(tǒng)計(jì)淵源最深,既然效果一樣,似乎應(yīng)優(yōu)先選擇。有些文獻(xiàn)對(duì)馬氏距離的指責(zé)系因馬氏距離不具穿透性,即樣品間距的結(jié)果無(wú)法用于樣品與類(lèi)之間的距離。斜交空間距離比馬氏距離比較復(fù)雜,但具有所謂穿透性,即可兼顧樣品間距與樣品與類(lèi)之間的距離。相比之下,格蘭姆——施密特方法和主成分分析明顯要復(fù)雜很多,看似必定出局。然而,公式或表達(dá)方式的復(fù)雜不等于計(jì)算復(fù)雜。事實(shí)上,格蘭姆——施密特方法和主成分分析只是進(jìn)行變量的正交化,并不直接涉及樣品間距的計(jì)算。在其基礎(chǔ)上的樣品間距完全是獨(dú)立進(jìn)行的,允許多種選擇。反觀馬氏距離和斜交空間距離,正交化與距離計(jì)算是融合進(jìn)行的,總的計(jì)算量實(shí)際要大于施密特方法和主成分分析兩種方法。因此,綜合考慮聚類(lèi)結(jié)果、總的計(jì)算量大小、統(tǒng)計(jì)學(xué)者的熟悉程度以及對(duì)樣品與類(lèi)之間距離的潛在影響,主成分分析是應(yīng)該優(yōu)先選擇的。也就是說(shuō),正交化在程序中宜作為必選項(xiàng)而非普通備選項(xiàng),而主成分分析應(yīng)作為正交化的缺省設(shè)置。不選擇馬氏距離或統(tǒng)計(jì)距離作為樣品間距標(biāo)準(zhǔn)方法的理由還在于其為樣品到類(lèi)之間距離的廣義距離構(gòu)成中的一項(xiàng),而這一項(xiàng)的協(xié)差陣是各類(lèi)的而非總體的,換言之,如此要涉及兩種意義不同的馬氏距離計(jì)算,容易混淆,且實(shí)際計(jì)算量會(huì)增大。斜交空間距離與此相類(lèi)似,無(wú)法避免廣義距離計(jì)算中要重新計(jì)算馬氏距離的浪費(fèi)現(xiàn)象。與此相對(duì)照的是主成分分析,由于變量已經(jīng)正交,各類(lèi)馬氏距離的計(jì)算過(guò)程變得非常簡(jiǎn)單,且不存在混淆的可能,當(dāng)然應(yīng)被視為最佳選擇。格蘭姆——施密特方法與主成分分析十

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論