財(cái)經(jīng)管理統(tǒng)計(jì)學(xué)與外匯管理知識(shí)分析課件_第1頁(yè)
財(cái)經(jīng)管理統(tǒng)計(jì)學(xué)與外匯管理知識(shí)分析課件_第2頁(yè)
財(cái)經(jīng)管理統(tǒng)計(jì)學(xué)與外匯管理知識(shí)分析課件_第3頁(yè)
財(cái)經(jīng)管理統(tǒng)計(jì)學(xué)與外匯管理知識(shí)分析課件_第4頁(yè)
財(cái)經(jīng)管理統(tǒng)計(jì)學(xué)與外匯管理知識(shí)分析課件_第5頁(yè)
已閱讀5頁(yè),還剩87頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

聚類(lèi)方法(Clustering)統(tǒng)研會(huì)學(xué)術(shù)交流篇之——演講人:上海財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)系 呂江平聚類(lèi)方法(Clustering)統(tǒng)研會(huì)學(xué)術(shù)交流篇之——演講人1主講內(nèi)容聚類(lèi)方法原理介紹案例分析(SAS/EnterpriseMiner)推薦參考書(shū)目主講內(nèi)容聚類(lèi)方法原理介紹2什么是聚類(lèi)聚類(lèi)(Clustering)就是將數(shù)據(jù)分組成為多個(gè)類(lèi)(Cluster)。在同一個(gè)類(lèi)內(nèi)對(duì)象之間具有較高的相似度,不同類(lèi)之間的對(duì)象差別較大。什么是聚類(lèi)3什么是聚類(lèi)早在孩提時(shí)代,人就通過(guò)不斷改進(jìn)下意識(shí)中的聚類(lèi)模式來(lái)學(xué)會(huì)如何區(qū)分貓和狗,動(dòng)物和植物什么是聚類(lèi)早在孩提時(shí)代,人就通過(guò)不斷改進(jìn)下意識(shí)中的聚類(lèi)模式來(lái)4聚類(lèi)分析無(wú)處不在誰(shuí)經(jīng)常光顧商店,誰(shuí)買(mǎi)什么東西,買(mǎi)多少?按忠誠(chéng)卡記錄的光臨次數(shù)、光臨時(shí)間、性別、年齡、職業(yè)、購(gòu)物種類(lèi)、金額等變量分類(lèi)這樣商店可以….識(shí)別顧客購(gòu)買(mǎi)模式(如喜歡一大早來(lái)買(mǎi)酸奶和鮮肉,習(xí)慣周末時(shí)一次性大采購(gòu))刻畫(huà)不同的客戶群的特征(用變量來(lái)刻畫(huà),就象刻畫(huà)貓和狗的特征一樣)聚類(lèi)分析無(wú)處不在誰(shuí)經(jīng)常光顧商店,誰(shuí)買(mǎi)什么東西,買(mǎi)多少?5什么情況下需要聚類(lèi)為什么這樣分類(lèi)?因?yàn)槊恳粋€(gè)類(lèi)別里面的人消費(fèi)方式都不一樣,需要針對(duì)不同的人群,制定不同的關(guān)系管理方式,以提高客戶對(duì)公司商業(yè)活動(dòng)的相應(yīng)率。什么情況下需要聚類(lèi)為什么這樣分類(lèi)?6聚類(lèi)分析無(wú)處不在挖掘有價(jià)值的客戶,并制定相應(yīng)的促銷(xiāo)策略:如,對(duì)經(jīng)常購(gòu)買(mǎi)酸奶的客戶對(duì)累計(jì)消費(fèi)達(dá)到12個(gè)月的老客戶針對(duì)潛在客戶派發(fā)廣告,比在大街上亂發(fā)傳單命中率更高,成本更低!聚類(lèi)分析無(wú)處不在挖掘有價(jià)值的客戶,并制定相應(yīng)的促銷(xiāo)策略:7聚類(lèi)分析無(wú)處不在誰(shuí)是銀行信用卡的黃金客戶?利用儲(chǔ)蓄額、刷卡消費(fèi)金額、誠(chéng)信度等變量對(duì)客戶分類(lèi),找出“黃金客戶”!這樣銀行可以……制定更吸引的服務(wù),留住客戶!比如:一定額度和期限的免息透資服務(wù)!百盛的貴賓打折卡!在他或她生日的時(shí)候送上一個(gè)小蛋糕!聚類(lèi)分析無(wú)處不在誰(shuí)是銀行信用卡的黃金客戶?8聚類(lèi)的應(yīng)用領(lǐng)域經(jīng)濟(jì)領(lǐng)域:幫助市場(chǎng)分析人員從客戶數(shù)據(jù)庫(kù)中發(fā)現(xiàn)不同的客戶群,并且用購(gòu)買(mǎi)模式來(lái)刻畫(huà)不同的客戶群的特征。誰(shuí)喜歡打國(guó)際長(zhǎng)途,在什么時(shí)間,打到那里?對(duì)住宅區(qū)進(jìn)行聚類(lèi),確定自動(dòng)提款機(jī)ATM的安放位置股票市場(chǎng)板塊分析,找出最具活力的板塊龍頭股企業(yè)信用等級(jí)分類(lèi)……生物學(xué)領(lǐng)域推導(dǎo)植物和動(dòng)物的分類(lèi);對(duì)基因分類(lèi),獲得對(duì)種群的認(rèn)識(shí)數(shù)據(jù)挖掘領(lǐng)域作為其他數(shù)學(xué)算法的預(yù)處理步驟,獲得數(shù)據(jù)分布狀況,集中對(duì)特定的類(lèi)做進(jìn)一步的研究聚類(lèi)的應(yīng)用領(lǐng)域經(jīng)濟(jì)領(lǐng)域:9有貢獻(xiàn)的研究領(lǐng)域數(shù)據(jù)挖掘聚類(lèi)可伸縮性、各種各種復(fù)雜形狀類(lèi)的識(shí)別,高維聚類(lèi)等統(tǒng)計(jì)學(xué)主要集中在基于距離的聚類(lèi)分析,發(fā)現(xiàn)球狀類(lèi)機(jī)器學(xué)習(xí)無(wú)指導(dǎo)學(xué)習(xí)(聚類(lèi)不依賴預(yù)先定義的類(lèi),不等同于分類(lèi))空間數(shù)據(jù)技術(shù)生物學(xué)市場(chǎng)營(yíng)銷(xiāo)學(xué)有貢獻(xiàn)的研究領(lǐng)域數(shù)據(jù)挖掘10什么情況下需要聚類(lèi)以上分析,沒(méi)有大量的數(shù)據(jù)去支持,DataMining就什么都挖不出來(lái)。大量的數(shù)據(jù)不等于大量的垃圾,我們需要針對(duì)客戶市場(chǎng)細(xì)分所需要的資料。如需要知道白金持卡人和金卡持卡人的流動(dòng)率,各自平均消費(fèi)水平有多少,等;聚類(lèi)分析可以輔助企業(yè)進(jìn)行客戶細(xì)分,但是Datamining的客戶細(xì)分不等同于商業(yè)領(lǐng)域的細(xì)分,看不懂結(jié)果,也可能造成企業(yè)管理層無(wú)法對(duì)結(jié)果善加利用。什么情況下需要聚類(lèi)以上分析,沒(méi)有大量的數(shù)據(jù)去支持,Data11聚類(lèi)分析原理介紹聚類(lèi)分析中“類(lèi)”的特征:聚類(lèi)所說(shuō)的類(lèi)不是事先給定的,而是根據(jù)數(shù)據(jù)的相似性和距離來(lái)劃分聚類(lèi)的數(shù)目和結(jié)構(gòu)都沒(méi)有事先假定聚類(lèi)分析原理介紹聚類(lèi)分析中“類(lèi)”的特征:12聚類(lèi)分析原理介紹聚類(lèi)方法的目的是尋找數(shù)據(jù)中:潛在的自然分組結(jié)構(gòu)astructureof“natural”grouping感興趣的關(guān)系relationship聚類(lèi)分析原理介紹聚類(lèi)方法的目的是尋找數(shù)據(jù)中:13聚類(lèi)分析原理介紹什么是自然分組結(jié)構(gòu)Naturalgrouping?我們看看以下的例子:有16張牌如何將他們分為一組一組的牌呢?AKQJ聚類(lèi)分析原理介紹什么是自然分組結(jié)構(gòu)Naturalgroup14聚類(lèi)分析原理介紹分成四組每組里花色相同組與組之間花色相異AKQJ花色相同的牌為一副Individualsuits聚類(lèi)分析原理介紹分成四組AKQJ花色相同的牌為一副15聚類(lèi)分析原理介紹分成四組符號(hào)相同的牌為一組AKQJ符號(hào)相同的的牌Likefacecards聚類(lèi)分析原理介紹分成四組AKQJ符號(hào)相同的的牌16聚類(lèi)分析原理介紹分成兩組顏色相同的牌為一組AKQJ顏色相同的配對(duì)Blackandredsuits聚類(lèi)分析原理介紹分成兩組AKQJ顏色相同的配對(duì)17聚類(lèi)分析原理介紹分成兩組大小程度相近的牌分到一組AKQJ大配對(duì)和小配對(duì)Majorandminorsuits聚類(lèi)分析原理介紹分成兩組AKQJ大配對(duì)和小配對(duì)18聚類(lèi)分析原理介紹這個(gè)例子告訴我們,分組的意義在于我們?cè)趺炊x并度量“相似性”Similar因此衍生出一系列度量相似性的算法AKQJ大配對(duì)和小配對(duì)Majorandminorsuits聚類(lèi)分析原理介紹這個(gè)例子告訴我們,分組的意義在于我們?cè)趺炊x19聚類(lèi)分析原理介紹相似性Similar的度量(統(tǒng)計(jì)學(xué)角度)距離Q型聚類(lèi)(主要討論)主要用于對(duì)樣本分類(lèi)常用的距離有(只適用于具有間隔尺度變量的聚類(lèi)):明考夫斯基距離(包括:絕對(duì)距離、歐式距離、切比雪夫距離)蘭氏距離馬氏距離斜交空間距離此不詳述,有興趣可參考《應(yīng)用多元分析》(第二版)王學(xué)民相似系數(shù)R型聚類(lèi)用于對(duì)變量分類(lèi),可以用變量之間的相似系數(shù)的變形如1-rij定義距離這里不詳細(xì)介紹這種聚類(lèi)度量方法聚類(lèi)分析原理介紹相似性Similar的度量(統(tǒng)計(jì)學(xué)角度)20聚類(lèi)分析原理介紹變量按測(cè)量尺度(MeasurementLevel)分類(lèi)間隔(Interval)尺度變量連續(xù)變量,如長(zhǎng)度、重量、速度、溫度等有序(Ordinal)尺度變量等級(jí)變量,不可加,但可比,如一等、二等、三等獎(jiǎng)學(xué)金名義(Nominal)尺度變量類(lèi)別變量,不可加也不可比,如性別、職業(yè)等聚類(lèi)分析原理介紹變量按測(cè)量尺度(MeasurementLe21當(dāng)對(duì)象是同時(shí)被各種類(lèi)型的變量描述時(shí),怎樣描述對(duì)象之間的相異度呢?一種可取的辦法是把所有變量一起處理,將不同類(lèi)型的變量組合在單個(gè)相異矩陣中,把所有有意義的變量轉(zhuǎn)換到【0,1】的區(qū)間上,只進(jìn)行一次聚類(lèi)分析。詳見(jiàn)參考書(shū)當(dāng)對(duì)象是同時(shí)被各種類(lèi)型的變量描述時(shí),怎樣描述對(duì)象之間的相異度22主要聚類(lèi)算法的分類(lèi)層次的方法(也稱(chēng)系統(tǒng)聚類(lèi)法)(hierarchicalmethod)劃分方法(partitioningmethod)基于密度的方法(density-basedmethod)基于網(wǎng)格的方法(grid-basedmethod)基于模型的方法(model-basedmethod)……其中,前兩種算法是利用統(tǒng)計(jì)學(xué)定義的距離進(jìn)行度量主要聚類(lèi)算法的分類(lèi)層次的方法(也稱(chēng)系統(tǒng)聚類(lèi)法)(hierar23層次的方法(也稱(chēng)系統(tǒng)聚類(lèi)法)(hierarchicalmethod)定義:對(duì)給定的數(shù)據(jù)進(jìn)行層次的分解:分類(lèi):凝聚的(agglomerative)方法(自底向上)(案例介紹)

思想:一開(kāi)始將每個(gè)對(duì)象作為單獨(dú)的一組,然后根據(jù)同類(lèi)相近,異類(lèi)相異的原則,合并對(duì)象,直到所有的組合并成一個(gè),或達(dá)到一個(gè)終止條件為止。分裂的方法(divisive)(自頂向下)

思想:一開(kāi)始將所有的對(duì)象置于一類(lèi),在迭代的每一步中,一個(gè)類(lèi)不斷地分為更小的類(lèi),直到每個(gè)對(duì)象在單獨(dú)的一個(gè)類(lèi)中,或達(dá)到一個(gè)終止條件。

層次的方法(也稱(chēng)系統(tǒng)聚類(lèi)法)(hierarchicalme24層次的方法(也稱(chēng)系統(tǒng)聚類(lèi)法)(hierarchicalmethod)特點(diǎn):類(lèi)的個(gè)數(shù)不需事先定好需確定距離矩陣運(yùn)算量要大,適用于處理小樣本數(shù)據(jù)

層次的方法(也稱(chēng)系統(tǒng)聚類(lèi)法)(hierarchicalme25廣泛采用的類(lèi)間距離:最小距離法(singlelinkagemethod)極小異常值在實(shí)際中不多出現(xiàn),避免極大值的影響廣泛采用的類(lèi)間距離:26廣泛采用的類(lèi)間距離:最大距離法(completelinkagemethod)可能被極大值扭曲,刪除這些值之后再聚類(lèi)廣泛采用的類(lèi)間距離:最大距離法(completelinka27廣泛采用的類(lèi)間距離:類(lèi)平均距離法(averagelinkagemethod)類(lèi)間所有樣本點(diǎn)的平均距離該法利用了所有樣本的信息,被認(rèn)為是較好的系統(tǒng)聚類(lèi)法廣泛采用的類(lèi)間距離:28廣泛采用的類(lèi)間距離:重心法(centroidhierarchicalmethod)類(lèi)的重心之間的距離對(duì)異常值不敏感,結(jié)果更穩(wěn)定

廣泛采用的類(lèi)間距離:重心法(centroidhierarc29廣泛采用的類(lèi)間距離離差平方和法(wardmethod)D2=WM-WK-WL即對(duì)異常值很敏感;對(duì)較大的類(lèi)傾向產(chǎn)生較大的距離,從而不易合并,較符合實(shí)際需要。ClusterKClusterLClusterM廣泛采用的類(lèi)間距離離差平方和法(wardmethod)Cl30層次的方法缺陷:

一旦一個(gè)步驟(合并或分裂)完成,就不能被撤銷(xiāo)或修正,因此產(chǎn)生了改進(jìn)的層次聚類(lèi)方法,如BRICH,BURE,ROCK,Chameleon。詳見(jiàn)參考書(shū)層次的方法缺陷:

一旦一個(gè)步驟(合并或分裂)完成,就不能被撤31劃分方法(Partitioningmethod)較流行的方法有:動(dòng)態(tài)聚類(lèi)法(也稱(chēng)逐步聚類(lèi)法),如k-均值算法、k-中心點(diǎn)算法思想:隨機(jī)選擇k個(gè)對(duì)象,每個(gè)對(duì)象初始地代表一個(gè)類(lèi)的平均值或中心,對(duì)剩余每個(gè)對(duì)象,根據(jù)其到類(lèi)中心的距離,被劃分到最近的類(lèi);然后重新計(jì)算每個(gè)類(lèi)的平均值。不斷重復(fù)這個(gè)過(guò)程,直到所有的樣本都不能再分配為止。(圖解)劃分方法(Partitioningmethod)較流行的方32劃分方法(Partitioningmethod)特點(diǎn):k事先定好創(chuàng)建一個(gè)初始劃分,再采用迭代的重定位技術(shù)不必確定距離矩陣比系統(tǒng)聚類(lèi)法運(yùn)算量要小,適用于處理龐大的樣本數(shù)據(jù)適用于發(fā)現(xiàn)球狀類(lèi)劃分方法(Partitioningmethod)特點(diǎn):33劃分方法(Partitioningmethod)缺陷:不同的初始值,結(jié)果可能不同有些k均值算法的結(jié)果與數(shù)據(jù)輸入順序有關(guān),如在線k均值算法用爬山式技術(shù)(hill-climbing)來(lái)尋找最優(yōu)解,容易陷入局部極小值劃分方法(Partitioningmethod)缺陷:34基于距離的方法進(jìn)行聚類(lèi)只能發(fā)現(xiàn)球狀類(lèi),當(dāng)類(lèi)的形狀是任意的時(shí)候怎么識(shí)別?(黑板圖示)下面介紹其中一種常用的算法:基于距離的方法進(jìn)行聚類(lèi)只能發(fā)現(xiàn)球狀類(lèi),當(dāng)類(lèi)的形狀是任意的時(shí)候35基于密度的方法

(density-basedmethod)主要有DBSCAN,OPTICS法思想:只要臨近區(qū)域的密度超過(guò)一定的閥值,就繼續(xù)聚類(lèi)特點(diǎn):可以過(guò)濾噪聲和孤立點(diǎn)outlier,發(fā)現(xiàn)任意形狀的類(lèi)基于密度的方法

(density-basedmethod)36基于網(wǎng)格的方法

(grid-basedmethod)把樣本空間量化為有限數(shù)目的單元,形成一個(gè)網(wǎng)絡(luò)結(jié)構(gòu),聚類(lèi)操作都在這個(gè)網(wǎng)格結(jié)構(gòu)(即量化空間)上進(jìn)行基于網(wǎng)格的方法

(grid-basedmethod)把樣本37基于模型的方法

(model-basedmethod)為每個(gè)類(lèi)假定一個(gè)模型,尋找數(shù)據(jù)對(duì)給定模型的最佳擬合。此不詳述,有興趣可以參考《DataMingConceptsandTechniques》即《數(shù)據(jù)挖掘概念于技術(shù)》JiaweiHanMichelineKamber機(jī)械工業(yè)出版社基于模型的方法

(model-basedmethod)為每38不穩(wěn)定的聚類(lèi)方法受所選擇變量的影響如果去掉或者增加一些變量,結(jié)果會(huì)很不同.因此,聚類(lèi)之前一定要明確目標(biāo),選擇有意義的變量。變量之間的相關(guān)性也會(huì)影響聚類(lèi)結(jié)果,因此可以先用主成分或因子分析法把眾多變量壓縮為若干個(gè)相互獨(dú)立的并包含大部分信息的指標(biāo),然后再進(jìn)行聚類(lèi)。不穩(wěn)定的聚類(lèi)方法受所選擇變量的影響39不穩(wěn)定的聚類(lèi)方法輸入?yún)?shù)憑主觀導(dǎo)致難以控制聚類(lèi)的質(zhì)量很多聚類(lèi)算法要求輸入一定的參數(shù),如希望產(chǎn)生的類(lèi)的數(shù)目,使得聚類(lèi)的質(zhì)量難以控制,尤其是對(duì)于高維的,沒(méi)有先驗(yàn)信息的龐大數(shù)據(jù)。首先要明確聚類(lèi)的目的,就是要使各個(gè)類(lèi)之間的距離盡可能遠(yuǎn),類(lèi)中的距離盡可能近,聚類(lèi)算法可以根據(jù)研究目的確定類(lèi)的數(shù)目,但分類(lèi)的結(jié)果要有令人信服的解釋。在實(shí)際操作中,更多的是憑經(jīng)驗(yàn)來(lái)確定類(lèi)的數(shù)目,測(cè)試不同類(lèi)數(shù)的聚類(lèi)效果,直到選擇較理想的分類(lèi)。不穩(wěn)定的聚類(lèi)方法輸入?yún)?shù)憑主觀導(dǎo)致難以控制聚類(lèi)的質(zhì)量40不穩(wěn)定的聚類(lèi)方法算法的選擇沒(méi)有絕對(duì)當(dāng)聚類(lèi)結(jié)果被用作描述或探查工具時(shí),可以對(duì)同樣的數(shù)據(jù)嘗試多種算法,以發(fā)現(xiàn)數(shù)據(jù)可能揭示的結(jié)果。

不穩(wěn)定的聚類(lèi)方法算法的選擇沒(méi)有絕對(duì)41不穩(wěn)定的聚類(lèi)方法聚類(lèi)分析中權(quán)重的確定當(dāng)各指標(biāo)重要性不同的時(shí)候,需要根據(jù)需要調(diào)整權(quán)重。如加權(quán)歐式距離,權(quán)重可以用專(zhuān)家法確定。

不穩(wěn)定的聚類(lèi)方法聚類(lèi)分析中權(quán)重的確定42案例演示有一個(gè)電信公司的數(shù)據(jù),變量為:ID:用戶電話號(hào)碼Mobile:移動(dòng)電話通話時(shí)間Fixed:固定電話通話時(shí)間DDD:長(zhǎng)途直撥通話時(shí)間IP:IP電話通話時(shí)間研究目的:挖掘不同人群撥打電話的特征下面用SAS/EnterpriseMiner演示案例演示有一個(gè)電信公司的數(shù)據(jù),變量為:43Q&AQ&A44推薦參考書(shū)目《應(yīng)用多元分析》(第二版)王學(xué)民上海財(cái)經(jīng)大學(xué)出版社《應(yīng)用多元統(tǒng)計(jì)分析》即《AppiedMultivariateSatistics》5thEdRichardA.Johnson,DeanW.Wichern中國(guó)統(tǒng)計(jì)出版社《數(shù)據(jù)倉(cāng)庫(kù)》即《BuildingtheDataWarehouse》3thEd,W.H.Inman機(jī)械工業(yè)出版社《數(shù)據(jù)挖掘原理》《PrinciplesofDataMining》DavidHandHeikkiMannilaPadhraicSmgth機(jī)械工業(yè)出版社《DataMiningIntroductionandAdvancedTopics》MargaretH.Dunham《數(shù)據(jù)挖掘概念于技術(shù)》即《DataMingConceptsandTechniques》JiaweiHanMichelineKamber機(jī)械工業(yè)出版社《數(shù)據(jù)挖掘——客戶關(guān)系管理的科學(xué)與藝術(shù)》即《MasteringDataMiningTheArtandScienceofCustermerRelationshipManagement》MichaelJ.A.Berry,GordonS.Linoff中國(guó)財(cái)政經(jīng)濟(jì)出版社《統(tǒng)計(jì)學(xué)教學(xué)案例》王吉利,何書(shū)元,吳喜之,中國(guó)統(tǒng)計(jì)出版社推薦參考書(shū)目《應(yīng)用多元分析》(第二版)王學(xué)民上海財(cái)經(jīng)大學(xué)出45謝謝大家!謝謝大家!46聚類(lèi)方法(Clustering)統(tǒng)研會(huì)學(xué)術(shù)交流篇之——演講人:上海財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)系 呂江平聚類(lèi)方法(Clustering)統(tǒng)研會(huì)學(xué)術(shù)交流篇之——演講人47主講內(nèi)容聚類(lèi)方法原理介紹案例分析(SAS/EnterpriseMiner)推薦參考書(shū)目主講內(nèi)容聚類(lèi)方法原理介紹48什么是聚類(lèi)聚類(lèi)(Clustering)就是將數(shù)據(jù)分組成為多個(gè)類(lèi)(Cluster)。在同一個(gè)類(lèi)內(nèi)對(duì)象之間具有較高的相似度,不同類(lèi)之間的對(duì)象差別較大。什么是聚類(lèi)49什么是聚類(lèi)早在孩提時(shí)代,人就通過(guò)不斷改進(jìn)下意識(shí)中的聚類(lèi)模式來(lái)學(xué)會(huì)如何區(qū)分貓和狗,動(dòng)物和植物什么是聚類(lèi)早在孩提時(shí)代,人就通過(guò)不斷改進(jìn)下意識(shí)中的聚類(lèi)模式來(lái)50聚類(lèi)分析無(wú)處不在誰(shuí)經(jīng)常光顧商店,誰(shuí)買(mǎi)什么東西,買(mǎi)多少?按忠誠(chéng)卡記錄的光臨次數(shù)、光臨時(shí)間、性別、年齡、職業(yè)、購(gòu)物種類(lèi)、金額等變量分類(lèi)這樣商店可以….識(shí)別顧客購(gòu)買(mǎi)模式(如喜歡一大早來(lái)買(mǎi)酸奶和鮮肉,習(xí)慣周末時(shí)一次性大采購(gòu))刻畫(huà)不同的客戶群的特征(用變量來(lái)刻畫(huà),就象刻畫(huà)貓和狗的特征一樣)聚類(lèi)分析無(wú)處不在誰(shuí)經(jīng)常光顧商店,誰(shuí)買(mǎi)什么東西,買(mǎi)多少?51什么情況下需要聚類(lèi)為什么這樣分類(lèi)?因?yàn)槊恳粋€(gè)類(lèi)別里面的人消費(fèi)方式都不一樣,需要針對(duì)不同的人群,制定不同的關(guān)系管理方式,以提高客戶對(duì)公司商業(yè)活動(dòng)的相應(yīng)率。什么情況下需要聚類(lèi)為什么這樣分類(lèi)?52聚類(lèi)分析無(wú)處不在挖掘有價(jià)值的客戶,并制定相應(yīng)的促銷(xiāo)策略:如,對(duì)經(jīng)常購(gòu)買(mǎi)酸奶的客戶對(duì)累計(jì)消費(fèi)達(dá)到12個(gè)月的老客戶針對(duì)潛在客戶派發(fā)廣告,比在大街上亂發(fā)傳單命中率更高,成本更低!聚類(lèi)分析無(wú)處不在挖掘有價(jià)值的客戶,并制定相應(yīng)的促銷(xiāo)策略:53聚類(lèi)分析無(wú)處不在誰(shuí)是銀行信用卡的黃金客戶?利用儲(chǔ)蓄額、刷卡消費(fèi)金額、誠(chéng)信度等變量對(duì)客戶分類(lèi),找出“黃金客戶”!這樣銀行可以……制定更吸引的服務(wù),留住客戶!比如:一定額度和期限的免息透資服務(wù)!百盛的貴賓打折卡!在他或她生日的時(shí)候送上一個(gè)小蛋糕!聚類(lèi)分析無(wú)處不在誰(shuí)是銀行信用卡的黃金客戶?54聚類(lèi)的應(yīng)用領(lǐng)域經(jīng)濟(jì)領(lǐng)域:幫助市場(chǎng)分析人員從客戶數(shù)據(jù)庫(kù)中發(fā)現(xiàn)不同的客戶群,并且用購(gòu)買(mǎi)模式來(lái)刻畫(huà)不同的客戶群的特征。誰(shuí)喜歡打國(guó)際長(zhǎng)途,在什么時(shí)間,打到那里?對(duì)住宅區(qū)進(jìn)行聚類(lèi),確定自動(dòng)提款機(jī)ATM的安放位置股票市場(chǎng)板塊分析,找出最具活力的板塊龍頭股企業(yè)信用等級(jí)分類(lèi)……生物學(xué)領(lǐng)域推導(dǎo)植物和動(dòng)物的分類(lèi);對(duì)基因分類(lèi),獲得對(duì)種群的認(rèn)識(shí)數(shù)據(jù)挖掘領(lǐng)域作為其他數(shù)學(xué)算法的預(yù)處理步驟,獲得數(shù)據(jù)分布狀況,集中對(duì)特定的類(lèi)做進(jìn)一步的研究聚類(lèi)的應(yīng)用領(lǐng)域經(jīng)濟(jì)領(lǐng)域:55有貢獻(xiàn)的研究領(lǐng)域數(shù)據(jù)挖掘聚類(lèi)可伸縮性、各種各種復(fù)雜形狀類(lèi)的識(shí)別,高維聚類(lèi)等統(tǒng)計(jì)學(xué)主要集中在基于距離的聚類(lèi)分析,發(fā)現(xiàn)球狀類(lèi)機(jī)器學(xué)習(xí)無(wú)指導(dǎo)學(xué)習(xí)(聚類(lèi)不依賴預(yù)先定義的類(lèi),不等同于分類(lèi))空間數(shù)據(jù)技術(shù)生物學(xué)市場(chǎng)營(yíng)銷(xiāo)學(xué)有貢獻(xiàn)的研究領(lǐng)域數(shù)據(jù)挖掘56什么情況下需要聚類(lèi)以上分析,沒(méi)有大量的數(shù)據(jù)去支持,DataMining就什么都挖不出來(lái)。大量的數(shù)據(jù)不等于大量的垃圾,我們需要針對(duì)客戶市場(chǎng)細(xì)分所需要的資料。如需要知道白金持卡人和金卡持卡人的流動(dòng)率,各自平均消費(fèi)水平有多少,等;聚類(lèi)分析可以輔助企業(yè)進(jìn)行客戶細(xì)分,但是Datamining的客戶細(xì)分不等同于商業(yè)領(lǐng)域的細(xì)分,看不懂結(jié)果,也可能造成企業(yè)管理層無(wú)法對(duì)結(jié)果善加利用。什么情況下需要聚類(lèi)以上分析,沒(méi)有大量的數(shù)據(jù)去支持,Data57聚類(lèi)分析原理介紹聚類(lèi)分析中“類(lèi)”的特征:聚類(lèi)所說(shuō)的類(lèi)不是事先給定的,而是根據(jù)數(shù)據(jù)的相似性和距離來(lái)劃分聚類(lèi)的數(shù)目和結(jié)構(gòu)都沒(méi)有事先假定聚類(lèi)分析原理介紹聚類(lèi)分析中“類(lèi)”的特征:58聚類(lèi)分析原理介紹聚類(lèi)方法的目的是尋找數(shù)據(jù)中:潛在的自然分組結(jié)構(gòu)astructureof“natural”grouping感興趣的關(guān)系relationship聚類(lèi)分析原理介紹聚類(lèi)方法的目的是尋找數(shù)據(jù)中:59聚類(lèi)分析原理介紹什么是自然分組結(jié)構(gòu)Naturalgrouping?我們看看以下的例子:有16張牌如何將他們分為一組一組的牌呢?AKQJ聚類(lèi)分析原理介紹什么是自然分組結(jié)構(gòu)Naturalgroup60聚類(lèi)分析原理介紹分成四組每組里花色相同組與組之間花色相異AKQJ花色相同的牌為一副Individualsuits聚類(lèi)分析原理介紹分成四組AKQJ花色相同的牌為一副61聚類(lèi)分析原理介紹分成四組符號(hào)相同的牌為一組AKQJ符號(hào)相同的的牌Likefacecards聚類(lèi)分析原理介紹分成四組AKQJ符號(hào)相同的的牌62聚類(lèi)分析原理介紹分成兩組顏色相同的牌為一組AKQJ顏色相同的配對(duì)Blackandredsuits聚類(lèi)分析原理介紹分成兩組AKQJ顏色相同的配對(duì)63聚類(lèi)分析原理介紹分成兩組大小程度相近的牌分到一組AKQJ大配對(duì)和小配對(duì)Majorandminorsuits聚類(lèi)分析原理介紹分成兩組AKQJ大配對(duì)和小配對(duì)64聚類(lèi)分析原理介紹這個(gè)例子告訴我們,分組的意義在于我們?cè)趺炊x并度量“相似性”Similar因此衍生出一系列度量相似性的算法AKQJ大配對(duì)和小配對(duì)Majorandminorsuits聚類(lèi)分析原理介紹這個(gè)例子告訴我們,分組的意義在于我們?cè)趺炊x65聚類(lèi)分析原理介紹相似性Similar的度量(統(tǒng)計(jì)學(xué)角度)距離Q型聚類(lèi)(主要討論)主要用于對(duì)樣本分類(lèi)常用的距離有(只適用于具有間隔尺度變量的聚類(lèi)):明考夫斯基距離(包括:絕對(duì)距離、歐式距離、切比雪夫距離)蘭氏距離馬氏距離斜交空間距離此不詳述,有興趣可參考《應(yīng)用多元分析》(第二版)王學(xué)民相似系數(shù)R型聚類(lèi)用于對(duì)變量分類(lèi),可以用變量之間的相似系數(shù)的變形如1-rij定義距離這里不詳細(xì)介紹這種聚類(lèi)度量方法聚類(lèi)分析原理介紹相似性Similar的度量(統(tǒng)計(jì)學(xué)角度)66聚類(lèi)分析原理介紹變量按測(cè)量尺度(MeasurementLevel)分類(lèi)間隔(Interval)尺度變量連續(xù)變量,如長(zhǎng)度、重量、速度、溫度等有序(Ordinal)尺度變量等級(jí)變量,不可加,但可比,如一等、二等、三等獎(jiǎng)學(xué)金名義(Nominal)尺度變量類(lèi)別變量,不可加也不可比,如性別、職業(yè)等聚類(lèi)分析原理介紹變量按測(cè)量尺度(MeasurementLe67當(dāng)對(duì)象是同時(shí)被各種類(lèi)型的變量描述時(shí),怎樣描述對(duì)象之間的相異度呢?一種可取的辦法是把所有變量一起處理,將不同類(lèi)型的變量組合在單個(gè)相異矩陣中,把所有有意義的變量轉(zhuǎn)換到【0,1】的區(qū)間上,只進(jìn)行一次聚類(lèi)分析。詳見(jiàn)參考書(shū)當(dāng)對(duì)象是同時(shí)被各種類(lèi)型的變量描述時(shí),怎樣描述對(duì)象之間的相異度68主要聚類(lèi)算法的分類(lèi)層次的方法(也稱(chēng)系統(tǒng)聚類(lèi)法)(hierarchicalmethod)劃分方法(partitioningmethod)基于密度的方法(density-basedmethod)基于網(wǎng)格的方法(grid-basedmethod)基于模型的方法(model-basedmethod)……其中,前兩種算法是利用統(tǒng)計(jì)學(xué)定義的距離進(jìn)行度量主要聚類(lèi)算法的分類(lèi)層次的方法(也稱(chēng)系統(tǒng)聚類(lèi)法)(hierar69層次的方法(也稱(chēng)系統(tǒng)聚類(lèi)法)(hierarchicalmethod)定義:對(duì)給定的數(shù)據(jù)進(jìn)行層次的分解:分類(lèi):凝聚的(agglomerative)方法(自底向上)(案例介紹)

思想:一開(kāi)始將每個(gè)對(duì)象作為單獨(dú)的一組,然后根據(jù)同類(lèi)相近,異類(lèi)相異的原則,合并對(duì)象,直到所有的組合并成一個(gè),或達(dá)到一個(gè)終止條件為止。分裂的方法(divisive)(自頂向下)

思想:一開(kāi)始將所有的對(duì)象置于一類(lèi),在迭代的每一步中,一個(gè)類(lèi)不斷地分為更小的類(lèi),直到每個(gè)對(duì)象在單獨(dú)的一個(gè)類(lèi)中,或達(dá)到一個(gè)終止條件。

層次的方法(也稱(chēng)系統(tǒng)聚類(lèi)法)(hierarchicalme70層次的方法(也稱(chēng)系統(tǒng)聚類(lèi)法)(hierarchicalmethod)特點(diǎn):類(lèi)的個(gè)數(shù)不需事先定好需確定距離矩陣運(yùn)算量要大,適用于處理小樣本數(shù)據(jù)

層次的方法(也稱(chēng)系統(tǒng)聚類(lèi)法)(hierarchicalme71廣泛采用的類(lèi)間距離:最小距離法(singlelinkagemethod)極小異常值在實(shí)際中不多出現(xiàn),避免極大值的影響廣泛采用的類(lèi)間距離:72廣泛采用的類(lèi)間距離:最大距離法(completelinkagemethod)可能被極大值扭曲,刪除這些值之后再聚類(lèi)廣泛采用的類(lèi)間距離:最大距離法(completelinka73廣泛采用的類(lèi)間距離:類(lèi)平均距離法(averagelinkagemethod)類(lèi)間所有樣本點(diǎn)的平均距離該法利用了所有樣本的信息,被認(rèn)為是較好的系統(tǒng)聚類(lèi)法廣泛采用的類(lèi)間距離:74廣泛采用的類(lèi)間距離:重心法(centroidhierarchicalmethod)類(lèi)的重心之間的距離對(duì)異常值不敏感,結(jié)果更穩(wěn)定

廣泛采用的類(lèi)間距離:重心法(centroidhierarc75廣泛采用的類(lèi)間距離離差平方和法(wardmethod)D2=WM-WK-WL即對(duì)異常值很敏感;對(duì)較大的類(lèi)傾向產(chǎn)生較大的距離,從而不易合并,較符合實(shí)際需要。ClusterKClusterLClusterM廣泛采用的類(lèi)間距離離差平方和法(wardmethod)Cl76層次的方法缺陷:

一旦一個(gè)步驟(合并或分裂)完成,就不能被撤銷(xiāo)或修正,因此產(chǎn)生了改進(jìn)的層次聚類(lèi)方法,如BRICH,BURE,ROCK,Chameleon。詳見(jiàn)參考書(shū)層次的方法缺陷:

一旦一個(gè)步驟(合并或分裂)完成,就不能被撤77劃分方法(Partitioningmethod)較流行的方法有:動(dòng)態(tài)聚類(lèi)法(也稱(chēng)逐步聚類(lèi)法),如k-均值算法、k-中心點(diǎn)算法思想:隨機(jī)選擇k個(gè)對(duì)象,每個(gè)對(duì)象初始地代表一個(gè)類(lèi)的平均值或中心,對(duì)剩余每個(gè)對(duì)象,根據(jù)其到類(lèi)中心的距離,被劃分到最近的類(lèi);然后重新計(jì)算每個(gè)類(lèi)的平均值。不斷重復(fù)這個(gè)過(guò)程,直到所有的樣本都不能再分配為止。(圖解)劃分方法(Partitioningmethod)較流行的方78劃分方法(Partitioningmethod)特點(diǎn):k事先定好創(chuàng)建一個(gè)初始劃分,再采用迭代的重定位技術(shù)不必確定距離矩陣比系統(tǒng)聚類(lèi)法運(yùn)算量要小,適用于處理龐大的樣本數(shù)據(jù)適用于發(fā)現(xiàn)球狀類(lèi)劃分方法(Partitioningmethod)特點(diǎn):79劃分方法(Partitioningmethod)缺陷:不同的初始值,結(jié)果可能不同有些k均值算法的結(jié)果與數(shù)據(jù)輸入順序有關(guān),如在線k均值算法用爬山式技術(shù)(hill-climbing)來(lái)尋找最優(yōu)解,容易陷入局部極小值劃分方法(Partitioningmethod)缺陷:80基于距離的方法進(jìn)行聚類(lèi)只能發(fā)現(xiàn)球狀類(lèi),當(dāng)類(lèi)的形狀是任意的時(shí)候怎么識(shí)別?(黑板圖示)下面介紹其中一種常用的算法:基于距離的方法進(jìn)行聚類(lèi)只能發(fā)現(xiàn)球狀類(lèi),當(dāng)類(lèi)的形狀是任意的時(shí)候81基于密度的方法

(density-basedmethod)主要有DBSCAN,OPTICS法思想:只要臨近區(qū)域的密度超過(guò)一定的閥值,就繼續(xù)聚類(lèi)特點(diǎn):可以過(guò)濾噪聲和孤立點(diǎn)outlier,發(fā)現(xiàn)任意形狀的類(lèi)基于密度的方法

(density-basedmethod)82基于網(wǎng)格的方法

(grid-basedmethod)把樣本空間量化為有限數(shù)目的單元,形成一個(gè)網(wǎng)絡(luò)結(jié)構(gòu),聚類(lèi)操作都在這個(gè)網(wǎng)格結(jié)構(gòu)(即量化空間)上進(jìn)行基于網(wǎng)格的方法

(grid-basedmethod)把樣本83基于模型的方法

(model-basedmethod)為每個(gè)類(lèi)假定一個(gè)模型,尋找數(shù)據(jù)對(duì)給定模型的最佳擬合。此不詳述,有興趣可以參考《DataMingConceptsandTechniques》即《數(shù)據(jù)挖掘概念于技術(shù)》JiaweiHanMichelineKamber機(jī)械工業(yè)出版社基于模型的方法

(model-basedmethod)為每84不穩(wěn)定的聚類(lèi)方法受所選擇變量的影響如果去掉或者增加一些變量,結(jié)果會(huì)很不同.因此,聚類(lèi)之前一定要明確目標(biāo),選擇有意義的變量。變量之間的相關(guān)性也會(huì)影響聚類(lèi)結(jié)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論