誤差分析課件聚類分析之快速聚類法_第1頁
誤差分析課件聚類分析之快速聚類法_第2頁
誤差分析課件聚類分析之快速聚類法_第3頁
誤差分析課件聚類分析之快速聚類法_第4頁
誤差分析課件聚類分析之快速聚類法_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

誤差分析課件聚類分析之快速聚類法第一頁,共二十六頁,2022年,8月28日聚類分析樣品間相似性的度量快速聚類分析及實例目錄第二頁,共二十六頁,2022年,8月28日分類俗語說,物以類聚、人以群分。但什么是分類的根據(jù)呢?比如,要想把中國的縣分成若干類,就有很多種分類法;可以按照自然條件來分,比如考慮降水、土地、日照、濕度等各方面;也可以考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo);既可以用某一項來分類,也可以同時考慮多項指標(biāo)來分類。第三頁,共二十六頁,2022年,8月28日基本思想是:通過定義樣品或變量間“接近程度”的度量,以此為基礎(chǔ),將“相近”的樣品或變量歸為一類。聚類分析的介紹第四頁,共二十六頁,2022年,8月28日聚類分析和判別分析是研究分類問題的數(shù)據(jù)分析方法。聚類分析和判別分析的比較聚類分析判別分析區(qū)別進(jìn)行聚類分析前對總體有幾種類型并不知道總體分類已給定,在總體分布或來自總體訓(xùn)練樣本基礎(chǔ)上,對新樣品判定屬于哪個總體聯(lián)系判別分析中的訓(xùn)練樣本往往是從聚類分析中得到的第五頁,共二十六頁,2022年,8月28日引入:如何度量遠(yuǎn)近?如果想要對100個學(xué)生進(jìn)行分類,如果僅僅知道他們的數(shù)學(xué)成績,則只好按照數(shù)學(xué)成績來分類;這些成績在直線上形成100個點。這樣就可以把接近的點放到一類。如果還知道他們的物理成績,這樣數(shù)學(xué)和物理成績就形成二維平面上的100個點,也可以按照距離遠(yuǎn)近來分類。三維或者更高維的情況也是類似;只不過三維以上的圖形無法直觀地畫出來而已。第六頁,共二十六頁,2022年,8月28日設(shè)X=為所關(guān)心的p個指標(biāo),對此指標(biāo)作n次觀測得n組觀測值稱這n組觀測數(shù)據(jù)為n個樣品。這樣,每個樣品可看成p維空間的一個點,n個樣品組成p維空間的n個點,我們可以用各點之間的距離來衡量個樣品點之間的靠近程度。樣品間相似性的度量第七頁,共二十六頁,2022年,8月28日1歐氏距離2絕對距離3Minkowski距離其中m≥1,又稱為Lm距離。4Chebyshev距離是Minkowski距離當(dāng)m→+∞時的極限。廣義的“距離”:第八頁,共二十六頁,2022年,8月28日由于不同指標(biāo)通常有不同的量綱,這會引起各取值的分散程度差異較大,有時會造成很不合理的結(jié)果,為了消除此種影響,常需要在分析前對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。5方差加權(quán)距離

標(biāo)準(zhǔn)化數(shù)據(jù)的歐氏距離就是方差加權(quán)距離。第九頁,共二十六頁,2022年,8月28日?6馬氏距離通常都是嘗試各種不同距離分析,最終采用最有利于分類的距離定義。[]??==-=---=--=-niiTniiinjiTjijixnxxxxxnSxxxSxxSxxxxd11212111))((11,,,)()()(其中算得的協(xié)方差矩陣:是由樣品其中L第十頁,共二十六頁,2022年,8月28日令形成n個樣品兩兩之間的距離矩陣:

其中第十一頁,共二十六頁,2022年,8月28日

思想:首先將樣品粗糙得分類,然后再依據(jù)樣品間的距離按一定規(guī)則逐步調(diào)整,直至不能再調(diào)整為止。

適合于:樣本數(shù)目較大的數(shù)據(jù)集的聚類分析

局限性:需要事先指定分類的數(shù)目,而且此數(shù)目對最終分類結(jié)果有較大影響。解決辦法:實際中一般要對多個分類的數(shù)目進(jìn)行嘗試,以找出合理的分類結(jié)果快速聚類分析及實例第十二頁,共二十六頁,2022年,8月28日1選擇聚點(聚類中心點)

經(jīng)驗選擇將n個樣品人為地(或隨機(jī)地)分為k類,以每類的均值向量(稱為重心)作為聚點。最大最小原則先選擇所有樣品中相距最遠(yuǎn)的兩個樣品為初始的兩個聚點,然后,選擇第3個聚點(與前兩個聚點的距離最小者),按相同的原則依次選取下去,直至選出k個聚點。第十三頁,共二十六頁,2022年,8月28日(1)隨機(jī)選擇聚類種子點或中心點;(2)將每個觀察樣本分配給最近的種子;(3)重新把每個聚集中的中心點作為種子;(4)不斷重復(fù)上述過程直到種子的變化足夠小為止。

快速聚類法的步驟第十四頁,共二十六頁,2022年,8月28日快速聚類法的步驟設(shè)k個初始聚點的集合是用下列原則實現(xiàn)初始分類:這樣,將樣品分成不相交的k類,以上初始分類的原則是每個樣品以最近的初始聚點歸類,這樣得到一個初始分類第十五頁,共二十六頁,2022年,8月28日2.從出發(fā),計算新的聚點集合,以的重心作為新的聚點:其中是類中的樣品數(shù)。這樣,得到新的聚點集合從出發(fā),將樣品作新的分類。記得到分類這樣依次進(jìn)行下去。第十六頁,共二十六頁,2022年,8月28日在以上遞推計算過程中,不一定是樣品,又一般不是的重心。當(dāng)m逐漸增大,分類趨于穩(wěn)定,此時,就會近似為的重心,從而算法即可結(jié)束。實際計算時,從某一步m開始,分類與完全相同,計算即告結(jié)束。3.設(shè)在第m步得到分類第十七頁,共二十六頁,2022年,8月28日實例:國產(chǎn)轎車市場競爭格局的快速聚類分析

通過幾個主要的汽車網(wǎng)站,收集2006年11月6-12日目前汽車產(chǎn)品的車型主要參數(shù)和廠家指導(dǎo)價.利用SPSS軟件,采用聚類分析的方法,對目前主要的轎車產(chǎn)品進(jìn)行了聚類處理。第十八頁,共二十六頁,2022年,8月28日車型的生產(chǎn)企業(yè)和企業(yè)所屬集團(tuán)代碼的說明

1-中國(自主品牌)2-歐洲3-日本4-美國5-韓國第十九頁,共二十六頁,2022年,8月28日按照上述的方法和分類原則進(jìn)行數(shù)據(jù)收集,共產(chǎn)生了158個車型及其相關(guān)數(shù)據(jù)涵蓋了轎車市場絕大部分生產(chǎn)企業(yè)和車型,可視為國產(chǎn)轎車的總體,所以該研究能反映出目前國產(chǎn)轎車競爭的全貌。第二十頁,共二十六頁,2022年,8月28日聚類分析過程及結(jié)果由研究者指定聚類成多少類(如k個)SPSS確定k個初始類中心點迭代過程(IterationHistory)聚類結(jié)果在確定聚類數(shù)目的過程中,嘗試了聚類數(shù)為8-15個共8個聚類方案,以有助于識別相競爭的車型,并盡可能與轎車級別的劃分相一致為判斷依據(jù),13個聚類數(shù)所得到的結(jié)果是最為令人滿意的。SPSS根據(jù)樣本數(shù)據(jù)的情況選擇k個有代表性的樣本數(shù)據(jù)作為初始類中心,初始類中心也可以由用戶自行指定。SPSS逐一計算每一個記錄到各個類別中心點的歐氏距離,把各個記錄按照距離最近的原則歸入各個類別,并計算新形成的類別中心點;按照新的中心位置,重新計算每一記錄距離新的類別中心點的距離,并重新進(jìn)行歸類,更新類別中心點;重復(fù),直到達(dá)到終止迭代的判斷要求為止。第二十一頁,共二十六頁,2022年,8月28日聚類結(jié)果低端產(chǎn)品高端產(chǎn)品第二十二頁,共二十六頁,2022年,8月28日直觀上我們可以發(fā)現(xiàn):11類和12類間距離最小,說明低端產(chǎn)品的差異相對較小10類和7類類間的距離最大,說明高端產(chǎn)品之間差異增大第11類主要為普及型轎車,這類產(chǎn)品是市場競爭最為激烈的領(lǐng)域,為進(jìn)一步展示各車型間的競爭關(guān)系,應(yīng)對其進(jìn)行再次聚類。第二十三頁,共二十六頁,2022年,8月28日排量(毫升)價格(元)整備質(zhì)量(千克

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論