SPSS數(shù)據(jù)挖掘方法概述_第1頁(yè)
SPSS數(shù)據(jù)挖掘方法概述_第2頁(yè)
SPSS數(shù)據(jù)挖掘方法概述_第3頁(yè)
SPSS數(shù)據(jù)挖掘方法概述_第4頁(yè)
SPSS數(shù)據(jù)挖掘方法概述_第5頁(yè)
已閱讀5頁(yè),還剩24頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、精選文檔數(shù)據(jù)挖掘方法概述一、主要概念1二、主要方法概述11、神經(jīng)網(wǎng)絡(luò)方法概述12、聚類(lèi)方法概述93、主成分分析144、決策樹(shù)概述175、關(guān)聯(lián)分析216、遺傳算法概述23一、主要概念1、數(shù)據(jù)挖掘(data mining,簡(jiǎn)記DM):實(shí)行特地算法對(duì)數(shù)據(jù)庫(kù)中潛在的、不明顯的數(shù)據(jù)關(guān)系進(jìn)行分析與建模。2、CRISP-DM(CRoss-Industry Standard Process for Data Mining):各企業(yè)中被廣泛接受的數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程。包括6個(gè)步驟:商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)預(yù)備、模型建立、結(jié)果評(píng)估、應(yīng)用部署。3、Clementine:SPSS公司推出的企業(yè)級(jí)數(shù)據(jù)挖掘軟件產(chǎn)品,其包括的

2、數(shù)據(jù)挖掘主要方法為:神經(jīng)網(wǎng)絡(luò)、聚類(lèi)分析、主因子分析、決策樹(shù)分析、關(guān)聯(lián)分析、回歸分析。二、主要方法概述1、神經(jīng)網(wǎng)絡(luò)方法概述 主要問(wèn)題:(1)什么是神經(jīng)網(wǎng)絡(luò)? (2)神經(jīng)網(wǎng)絡(luò)有什么用? (3)如何建立神經(jīng)網(wǎng)絡(luò)? (4)如何應(yīng)用神經(jīng)網(wǎng)絡(luò)?(1)人工神經(jīng)網(wǎng)絡(luò)“人工神經(jīng)網(wǎng)絡(luò)”(ARTIFICIAL NEURAL NETWORK,簡(jiǎn)稱(chēng)A.N.N.)是基于仿照大腦神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能而建立的一種信息處理系統(tǒng)。神經(jīng)網(wǎng)絡(luò)在肯定學(xué)習(xí)規(guī)章下,對(duì)供應(yīng)的學(xué)習(xí)樣本進(jìn)行學(xué)習(xí),從中獵取特征信息,并存儲(chǔ)(記憶)在相應(yīng)的權(quán)值及參數(shù)上。學(xué)習(xí)后,對(duì)于新的輸入數(shù)據(jù),網(wǎng)絡(luò)可通過(guò)已獵取的權(quán)值及參數(shù),計(jì)算網(wǎng)絡(luò)的輸出。神經(jīng)網(wǎng)絡(luò)具有高度的非線性、

3、容錯(cuò)性與自學(xué)習(xí)、自適應(yīng)更新等功能,能夠進(jìn)行簡(jiǎn)單的規(guī)律操作和非線性關(guān)系實(shí)現(xiàn)。目前神經(jīng)網(wǎng)絡(luò)模型在幫助管理與決策中,應(yīng)用廣泛。(2)神經(jīng)網(wǎng)絡(luò)的作用已證明結(jié)論:對(duì)于函數(shù),在滿(mǎn)足肯定條件下,可以找到函數(shù)和實(shí)常數(shù)和,構(gòu)造函數(shù): 使對(duì)于任意小的,滿(mǎn)足 (3)簡(jiǎn)潔神經(jīng)網(wǎng)絡(luò)模型(感知機(jī)模型)的建立問(wèn)題引入:設(shè)想對(duì)購(gòu)買(mǎi)手機(jī)的顧客制定銷(xiāo)售方案,用購(gòu)買(mǎi)量與購(gòu)買(mǎi)頻率兩個(gè)指標(biāo)來(lái)判別,即: 購(gòu)買(mǎi)量大, 購(gòu)買(mǎi)頻率大,則賜予優(yōu)待折扣 ; 購(gòu)買(mǎi)量大, 購(gòu)買(mǎi)頻率小,則賜予優(yōu)待折扣 ; 購(gòu)買(mǎi)量小, 購(gòu)買(mǎi)頻率大,則賜予優(yōu)待折扣 ; 購(gòu)買(mǎi)量小, 購(gòu)買(mǎi)頻率小,則不賜予優(yōu)待折扣 問(wèn)題:這樣的銷(xiāo)售方案判別是否可以建立模型表示?設(shè)想:分別對(duì)購(gòu)買(mǎi)

4、量、購(gòu)買(mǎi)頻率以及是否優(yōu)待的兩種取值定義為1,0,則上述四種方案可以用四個(gè)樣本表示,設(shè)每一樣本具有兩個(gè)評(píng)價(jià)指標(biāo)X1,X2,一個(gè)評(píng)價(jià)結(jié)果Y: 樣本號(hào) X1, X2 Y 1 1 1 1 2 1 0 1 3 0 1 1 4 0 0 0構(gòu)造兩個(gè)輸入節(jié)點(diǎn)、一個(gè)輸出節(jié)點(diǎn)、二層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型:(*) O1=f( xj取值1或0, w1j(j=1,2)待求 作用函數(shù):f(x)= 1 x>0 0 x0結(jié)構(gòu):X1 W11 X1 Y X2 W12 X2 學(xué)習(xí)樣本:( x1(k),x2(k), Y1(k) ) , k是樣本數(shù), k=1,2,3,4關(guān)鍵問(wèn)題:如何獵取模型(*)中的權(quán)數(shù)w1j,使計(jì)算結(jié)果與樣本的評(píng)

5、價(jià)結(jié)果的誤差最???計(jì)算w1j方法:隨機(jī)賜予w1j初始值,通過(guò)對(duì)每一樣本的學(xué)習(xí),獵取計(jì)算結(jié)果與樣本評(píng)價(jià)結(jié)果的誤差,修正w1j的取值,使經(jīng)過(guò)肯定次數(shù)的學(xué)習(xí)后,總誤差能達(dá)到期望值,此時(shí)修正得到的w1j就是所要獵取的權(quán)數(shù),即設(shè)(k)=Y k -O k , Y k是第k個(gè)樣本評(píng)價(jià)結(jié)果(稱(chēng)期望輸出或?qū)嶋H輸出),O k是計(jì)算結(jié)果。通過(guò)第k個(gè)樣本的輸出誤差修正權(quán)數(shù)的公式為:(k +1)=(k)+( k), =(k)Xj 其中, >0 , 稱(chēng)收斂因子。 第k個(gè)樣本的誤差為: 誤差 ek=|(k) |, 總誤差 E(k)=E(k-1)+ ek計(jì)算過(guò)程:1)設(shè)=1,隨機(jī)賜予w1j的初始值為0,即w11(k=1

6、)=0,w12(k=1)=02) 對(duì)第一個(gè)樣本進(jìn)行學(xué)習(xí):把X1=1,X2=1代入(*),有 O= f(w11×X1+ w12×X2)=f(0×1+0×1)= f(0)=0 (k=1)= Y k -O k=1修正權(quán)數(shù):w1j= (k) X j = (k=1) X 1=1×1=1w12 = (k=1) X 2=1×1=1(k=2)=(k=1)+=0+1=1, w12(k=2)= w12(k=1)+w12=0+1=1 總誤差 E(K=1)= E(K=0)+ek=0+(k=1)=13)對(duì)第2個(gè)樣本:X1=1 , X2=0, O=f(1

7、5;1+1×0)= f(1)=1 (k=2)= Y k -O k=0修正權(quán)數(shù):w1j= (k) X j = (k=2) X 1=0×1=0w12 = (k=2) X 2=0×0=0(k=2)=(k=1)+=1+0=1, w12(k=2)= w12(k=1)+w12=1+0=1 總誤差 E(K=2)= E(K=1)+ek=1+(k=2)=14)對(duì)于獵取的權(quán)數(shù) =1,w12=1,有對(duì)第3個(gè)樣本:X1=0,X2=1, O=f(1×0+1×1)= f(1)=1=Y對(duì)第4個(gè)樣本:X1=0,X2=0, O=f(1×0+1×0)= f(0

8、)=0=Y5)結(jié)論:=1,w12=1是使計(jì)算結(jié)果與樣本的評(píng)價(jià)結(jié)果誤差最小的權(quán)數(shù)。將=1,w12=代入模型(*),則模型建立完畢。可以利用這個(gè)建立的模型,對(duì)任一組輸入的X1,X2,在未知其輸出(評(píng)價(jià)結(jié)果)時(shí),通過(guò)(*)計(jì)算得到結(jié)果。(4)誤差逆?zhèn)鞑ド窠?jīng)網(wǎng)絡(luò)模型(Error Back-Propagation ,簡(jiǎn)記BP模型) 在簡(jiǎn)潔神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,進(jìn)行形式推廣,對(duì)多個(gè)輸入、多個(gè)輸出、多層結(jié)構(gòu),不同作用函數(shù)的狀況進(jìn)行建模分析。最常用的是BP神經(jīng)網(wǎng)絡(luò)。BP神經(jīng)網(wǎng)絡(luò)基本原理 BP神經(jīng)網(wǎng)絡(luò)模型是一種具有三層或三層以上的前饋型的、按梯度算法使計(jì)算輸出與實(shí)際輸出的誤差沿逆?zhèn)鞑バ拚鬟B接權(quán)的神經(jīng)網(wǎng)絡(luò)模型。網(wǎng)絡(luò)

9、按有老師示教的方式進(jìn)行學(xué)習(xí),當(dāng)一對(duì)學(xué)習(xí)模式供應(yīng)應(yīng)網(wǎng)絡(luò)后,神經(jīng)元的激活值,從輸入層經(jīng)各中間層向輸出層傳播,在輸出層的各神經(jīng)元獲得網(wǎng)絡(luò)的輸入響應(yīng),并按削減期望輸出與實(shí)際輸出偏差的方向,從輸出層經(jīng)各中間層逐層修正各連接權(quán),最終回到輸入層,隨著這種誤差逆?zhèn)鞑バ拚牟粩噙M(jìn)行,網(wǎng)絡(luò)對(duì)輸入模式響應(yīng)的正確率不斷上升。 x1 wi1 1 vti x2 wi2 i t 節(jié)點(diǎn) x3 節(jié)點(diǎn) vtm win M xn 輸入信息 正向傳播反向傳播 實(shí)際輸出與網(wǎng)絡(luò)輸出誤差BP網(wǎng)絡(luò)模型的特點(diǎn):模型表示:Yi=f( i=1,2,3,m , xi取值(,) Ot= f ( t=1,2,3,q, Ot取值(0,1)模型結(jié)構(gòu):至少三

10、層(至少有一隱層),多個(gè)輸入,一個(gè)或多個(gè)輸出 作用函數(shù)(Sigmoid型函數(shù)) :f(x)= 1/(1+e) x(-,+) f(x)(0,1)學(xué)習(xí)樣本:( x1(k),x2(k),x3(k),xm(k), D1(k), D2(k), D3(k), Dq(k) ) , k是樣本數(shù), k=1,2,3,P權(quán)值修正公式:設(shè) i=Di-Oi , Di是期望輸出(實(shí)際輸出),Oi是網(wǎng)絡(luò)計(jì)算輸出1) 隱層與輸出層連接權(quán)的修正:(K+1)=(K)+ , 是隱節(jié)點(diǎn)輸出 2) 輸入層與輸出層連接權(quán)的修正:(K+1)=(K)+, ,是輸入節(jié)點(diǎn)輸入。 3) 第K個(gè)樣本誤差 總誤差 E=(5)基于神經(jīng)網(wǎng)絡(luò)幫助醫(yī)療績(jī)效的

11、評(píng)定案例:為了對(duì)城市醫(yī)療力量進(jìn)行評(píng)價(jià),收集一批有代表性的城市醫(yī)療數(shù)據(jù),評(píng)價(jià)指標(biāo)為病床數(shù)、醫(yī)生數(shù)、工作人員數(shù)、診所數(shù)、死亡率,并給出了專(zhuān)家的評(píng)價(jià)結(jié)果,旨在建立評(píng)價(jià)城市的醫(yī)療建設(shè)績(jī)效的模型,應(yīng)用于評(píng)價(jià)任意城市的醫(yī)療建設(shè)績(jī)效。收集數(shù)據(jù)見(jiàn)表1.1(單位:萬(wàn)人)。 表1.1樣本病床數(shù)醫(yī)生數(shù)工作人員數(shù)診所數(shù)死亡率專(zhuān)家評(píng)價(jià)的醫(yī)療力量上海gvvvbv北京avvvgv沈陽(yáng)bbbagb武漢gggaba哈爾濱vgabaa重慶ggbbbb成都aggaaa蘭州vgagvv青島gbvvag鞍山gaabvg其中,v格外好, g好, a 一般, b差需要評(píng)價(jià)的城市數(shù)據(jù)見(jiàn)表1.2。 表1.2樣本病床數(shù)醫(yī)生數(shù)工作人員數(shù)診所數(shù)死亡

12、率專(zhuān)家評(píng)價(jià)的醫(yī)療力量天津bgbga廣州aggga南京bgggb西安ggagg長(zhǎng)春gggag太原vgggv大連babag濟(jì)南vvvga撫順gbbbg建立評(píng)價(jià)的BP神經(jīng)網(wǎng)絡(luò)模型:1)將取得的10個(gè)樣本分別量化:定義v、g、a、b的取值為v=1.5,g=0.5,a=-0.5,b=-1.5 (1)也可以定義: v=3,g=1,a= -1,b= -3 v=6,g=2,a=-2,b=-6 v=10,g=7,a=4,b=1由 (1)定義可得上海等10個(gè)城市樣本取值見(jiàn)表1.3。 表1.3樣本病床數(shù)醫(yī)生數(shù)工作人員數(shù)診所數(shù)死亡率專(zhuān)家評(píng)價(jià)的醫(yī)療力量轉(zhuǎn)換值網(wǎng)絡(luò)輸出上海0.51.51.51.5-1.51.50.90.8

13、885北京-0.51.51.51.50.51.50.90.9581沈陽(yáng)-1.5-1.5-1.5-0.50.5-1.50.10.1215武漢0.50.50.5-0.5-1.5-0.50.370.38266哈爾濱1.50.5-0.5-1.5-0.5-0.50.370.369重慶0.50.5-1.5-1.5-1.5-1.50.10.1168成都-0.50.50.5-0.5-0.5-0.50.370.34697蘭州1.50.5-0.50.51.51.50.90.8998青島0.5-1.51.51.5-0.50.50.6330.6419鞍山0.5-0.5-0.5-1.51.50.50.6330.6560

14、2)設(shè)計(jì)具有三層、五個(gè)輸入節(jié)點(diǎn)、8個(gè)隱節(jié)點(diǎn)、一個(gè)輸出節(jié)點(diǎn)的BP模型,輸入為萬(wàn)人擁有病床數(shù)、醫(yī)生數(shù)、工作人員數(shù)、診所數(shù)、死亡率,輸出為評(píng)價(jià)的醫(yī)療力量。3)由于選擇的映射函數(shù)是S型函數(shù): f(x)= 1/(1+e) , x(-,+) , f(x)(0,1)需要把樣本輸出轉(zhuǎn)換為(0,1)之間的值。定義:輸出轉(zhuǎn)換值=0.1+0.8(樣本輸出值-最小值)/(最大值-最小值), 其中,這里最大值=1.5,最小值=-1.5, 轉(zhuǎn)換后的樣本輸出見(jiàn)表1.3. 4) 網(wǎng)絡(luò)學(xué)習(xí)35萬(wàn)次后,網(wǎng)絡(luò)收斂,總誤差為0.16,網(wǎng)絡(luò)輸出見(jiàn)表1.3所示,存儲(chǔ)網(wǎng)絡(luò)學(xué)習(xí)后的有關(guān)權(quán)數(shù)與參數(shù)。5)用學(xué)習(xí)后的網(wǎng)絡(luò),建立的城市醫(yī)療力量評(píng)價(jià)模

15、型:Yi=f(, i=1,2,3,8 xi取值(,),j=1,25Ot=f( , t=1 , Ot取值(0,1)其中,wij、Vti、rt已在學(xué)習(xí)中獵取,評(píng)價(jià)表2城市的醫(yī)療力量,評(píng)價(jià)結(jié)果見(jiàn)表1.4。 表1.4樣本病床數(shù)醫(yī)生數(shù)工作人員數(shù)診所數(shù)死亡率網(wǎng)絡(luò)輸出網(wǎng)絡(luò)評(píng)價(jià)的醫(yī)療力量天津-1.50.5-1.50.5-0.50.122b廣州-0.50.50.50.5-0.50.6687g南京-1.50.50.50.5-0.50.6423g西安0.50.5-0.50.50.50.6011g長(zhǎng)春0.50.50.5-0.50.50.6333g太原1.50.50.50.51.50.8851v大連-1.5-0.5-1

16、.5-0.50.50.1134b濟(jì)南1.51.51.50.5-0.50.8996v撫順0.5-1.5-1.5-1.50.50.3869a思考問(wèn)題:(1)如何利用神經(jīng)網(wǎng)絡(luò)幫助客戶(hù)分類(lèi),以制定相應(yīng)的促銷(xiāo)或銷(xiāo)售策略?(2)如何利用神經(jīng)網(wǎng)絡(luò)對(duì)客戶(hù)信譽(yù)等級(jí)進(jìn)行評(píng)價(jià)?(3)在城市醫(yī)療力量評(píng)價(jià)中,直接用收集的五個(gè)指標(biāo)的定量數(shù)據(jù)作為神經(jīng)網(wǎng)絡(luò)輸入,是否可以?(4)在城市醫(yī)療力量評(píng)價(jià)中,評(píng)價(jià)結(jié)果有四個(gè)可能的取值,可否設(shè)計(jì)四個(gè)節(jié)點(diǎn)的輸出?如何定義?作業(yè): 擬建立神經(jīng)網(wǎng)絡(luò)進(jìn)行肺病診斷,設(shè)每個(gè)病例有有五種癥狀:發(fā)燒(無(wú)、低、中度、高),咳嗽(稍微、中度、猛烈),X光所見(jiàn)陰影(點(diǎn)狀、索條狀、片狀、空洞),血沉(正常、快)

17、,聽(tīng)診(正常、干鳴音、水泡音),肺炎和肺結(jié)合餓部分病例集見(jiàn)下表: 肺病實(shí)示例集 病狀病例號(hào)發(fā)燒咳嗽 X光所見(jiàn)血沉聽(tīng)診肺炎1高猛烈片狀正常水泡音2中度猛烈片狀正常水泡音3低稍微點(diǎn)狀正常干鳴音4高中度片狀正常水泡音5中度稍微片狀正常水泡音肺結(jié)核1無(wú)稍微索條狀正常正常2高猛烈空洞快干鳴音3低稍微索條狀正常正常4無(wú)稍微點(diǎn)狀快干鳴音5低中度片狀快正常2、聚類(lèi)方法概述 主要問(wèn)題:(1)如何定義兩類(lèi)之間的距離? (2)如何進(jìn)行類(lèi)歸并? (3)如何表出譜系圖? (4)聚類(lèi)分析的應(yīng)用? 聚類(lèi):依據(jù)事物的某些屬性,把事物聚集成類(lèi),使類(lèi)間相像性盡量少,類(lèi)內(nèi)相像性盡量大。問(wèn)題引入:(1)四個(gè)同學(xué)要分成兩類(lèi),如何分?

18、(2)設(shè)想對(duì)優(yōu)勢(shì)股進(jìn)行投資,問(wèn)優(yōu)勢(shì)股如何選擇? 一般地,按已知屬性對(duì)樣品或?qū)υ剡M(jìn)行歸并,稱(chēng)為分類(lèi),未知屬性(沒(méi)有先驗(yàn)學(xué)問(wèn))按距離大小對(duì)樣品或元素進(jìn)行歸并稱(chēng)為聚類(lèi)。常用聚類(lèi)方法1)、系統(tǒng)聚類(lèi)法:先將n個(gè)樣本各自看成一類(lèi),規(guī)定樣本之間和類(lèi)與類(lèi)之間的距離,選擇距離最近的一對(duì)合并為一個(gè)新類(lèi),再將距離最近的兩類(lèi)合并,直至全部的樣本都?xì)w為一類(lèi)為止。聚類(lèi)既可對(duì)樣品進(jìn)行聚類(lèi),也可以對(duì)變量進(jìn)行聚類(lèi)。若對(duì)樣品的進(jìn)行聚類(lèi),設(shè)第i樣品表示為,則第A類(lèi)與第B類(lèi)的距離可以定義為:最常用的距離有:1最小距離:用兩類(lèi)中樣品之間的距離最短者作為兩類(lèi)的距離。2最大距離:用兩類(lèi)中樣品之間的距離最長(zhǎng)者作為兩類(lèi)的距離。3重心距離:用

19、兩類(lèi)的重心之間的距離作為兩類(lèi)的距離。4類(lèi)平均距離:用兩類(lèi)中全部?jī)蓛蓸悠分g的平均距離作為兩類(lèi)的距離。案例應(yīng)用:設(shè)有5個(gè)股票,每個(gè)股票有8個(gè)指標(biāo)X1,X2,X8,表示為股價(jià)波動(dòng)率、股息率、資產(chǎn)負(fù)債率、資金周轉(zhuǎn)率、流淌負(fù)債率、經(jīng)營(yíng)杠桿系數(shù)、財(cái)務(wù)杠桿系數(shù)、投資酬勞率),用xit表示第i個(gè)股票的第t個(gè)指標(biāo)的值,則可得到股票樣品的數(shù)據(jù)矩陣:變量樣品 x1 x2 x8 1 x11 x12 x18 2 x21 x22 x28 . . . . . . . . . . . . . . . 5 x51 x52 x58將每一個(gè)樣品作為一類(lèi),每個(gè)樣品有8個(gè)變量,因此可以將每個(gè)樣品視為8維空間中的一個(gè)點(diǎn),5個(gè)樣品就是8

20、維空間中的5個(gè)點(diǎn),然后用歐氏距離度量樣品點(diǎn)的相像性:兩樣品點(diǎn)間距離越大,其相像性越小。下面給出5個(gè)樣品兩兩之間的歐氏距離陣D(0): 0 4 0D(0): 6 9 0 1 7 10 0 6 3 5 8 0接受最小的距離法,將樣品1與樣品4合并成新類(lèi)=,則得到類(lèi) 之類(lèi)的距離陣D(1): 0 4 0D(1): 6 9 0 6 3 5 0 合并類(lèi)與成一新類(lèi)7。下面計(jì)算類(lèi)6,7,3之間的距離陣 0 D(2): 4 0 5 6 0 合并類(lèi)與成一新類(lèi)=,最終計(jì)算與的距離為5,并合并為一大類(lèi)。并化出相應(yīng)的譜系圖:1 2 3 4 5 1 4 2 5 3 五個(gè)樣品的最小距離的譜系圖5個(gè)股票樣品的聚類(lèi)挨次表合并次

21、序 合并的類(lèi) 合并后類(lèi)的元素 合并水平(距離) 1 1,4 6=1,4 1 2 2,5 7=2,5 3 3 6,7 8=1,2,4,5 4 4 3,8 9=1,2,3,4,5 5最小距離法也可以對(duì)變量進(jìn)行系統(tǒng)聚類(lèi),仍通過(guò)例子來(lái)說(shuō)明案例2:對(duì)某地超基性巖的一批樣品,測(cè)試六個(gè)與礦化有關(guān)的元素:x1=鎳,x2=鈷,x3=銅,x4=鉻,x5=硫,x6=砷,并假設(shè)它們的相關(guān)系數(shù)如矩陣R(0)所示。相關(guān)系數(shù)定義:設(shè)有n個(gè)個(gè)體,每個(gè)個(gè)體測(cè)量了p個(gè)變量,第i個(gè)變量x1與第k個(gè)變量xk的相關(guān)系數(shù)為: rik=/第A類(lèi)與第B類(lèi)的距離可以定義為: 1 0.8462 1 0.7579 0.9802 1 0.6431

22、0.2419 0.1811 1 0.5039 0.7370 0.7210 -0.3075 1 0.5603 0.4241 0.3920 0.1998 0.6802 1其中, i=1,2,6,試用系統(tǒng)聚類(lèi)的最大距離法對(duì)六個(gè)變量進(jìn)行聚類(lèi)(負(fù)相關(guān)系數(shù)接受確定值)。由于接受的是相關(guān)系數(shù)矩陣,所以應(yīng)找最大元素并類(lèi)。其中最大的元素為0.9802,因此將與合并為。計(jì)算它與其它剩下的類(lèi)的相關(guān)系數(shù),相應(yīng)地得到R(1): 1 0.7579 1 0.1811 0.6431 1 0.7210 0.5039 -0.3057 1 0.3920 0.5603 0.1998 0.6802 1R(1)中最大的元素為0.7579

23、,因此將與合并為,并計(jì)算它與其它剩下的類(lèi)的相關(guān)系數(shù),相應(yīng)的得到R(2): 1 0.1811 1 0.5039 -0.3075 1 0.3920 0.1998 0.6802 1R(2)中的最大的元素為0.6802,因此將 與合并為,并計(jì)算它與其它剩下的類(lèi)的相關(guān)系數(shù),相應(yīng)地得到R(3): 1 0.3920 1 -0.3075 0.1811 1R(3)中最大的元素為0.3920,因此將與合并為。六個(gè)變量的并類(lèi)挨次表并次序 合并的類(lèi) 合并后類(lèi)的元素 合并的水平(相關(guān)系數(shù)) 1 2,3 7=x2,x3 0.9802 2 1,7 8=x2,x3,x1 0.7579 3 5,6 9=x5,x6 0.6802

24、 4 8,9 10=x2,x3,x1,x5,x6 0.3930 5 10,4 11=x2,x3,x1,x5,x6,x4 0.1811 1 0.8 0.6 0.4 0.2 0 x2 x3 x1 x5 x6 x4橫坐標(biāo)是并類(lèi)的相關(guān)系數(shù)。2)K均值聚類(lèi)法 K均值聚類(lèi)法是一種已知類(lèi)數(shù)的數(shù)據(jù)聚類(lèi)和分類(lèi)方法。過(guò)程如下: 選取聚類(lèi)數(shù)K; 從訓(xùn)練樣本中任意選擇K個(gè)向量C1,C2,CK作為聚類(lèi)中心,Ci=(Ci1,Ci2Cin); 將每個(gè)樣本Xl=(Xl1,Xl2, ,Xln)按距離: P=1,2,3k, 歸入距離最小的中心為Ci的類(lèi); 設(shè)屬于Ci類(lèi)的樣本為Xj(j=1,2, q),計(jì)算新的聚類(lèi)中心Ci=(Ci

25、1,Ci2Cin)其中: 若中的聚類(lèi)中心不再變化,就終止,否則轉(zhuǎn)。 思考問(wèn)題:(1)假如分兩類(lèi),譜系圖如何? (2)假如分三類(lèi),譜系圖如何?(3)如何確定適合的聚類(lèi)數(shù)? (4)分析客戶(hù)購(gòu)買(mǎi)手機(jī)的數(shù)據(jù),通過(guò)聚類(lèi)分析客戶(hù)流失狀況。作業(yè): 在城市醫(yī)療力量評(píng)價(jià)中,評(píng)價(jià)指標(biāo)為五個(gè),即X=(X1,X2,X3,X4,X5),每一指標(biāo)取值四個(gè)(v,g,a,b),則Xi取值的各種可能為45,則可能有45的評(píng)價(jià)指標(biāo)狀況,要求通過(guò)聚類(lèi),從中選出15個(gè)有代表性的樣本,比較聚類(lèi)幫助建立神經(jīng)網(wǎng)絡(luò)與專(zhuān)家閱歷幫助建立神經(jīng)網(wǎng)絡(luò)的不同。3、主成分分析主成分分析是一種多變量分析方法,通過(guò)變量變換把相關(guān)的變量變?yōu)椴幌嚓P(guān)的、比原來(lái)少的

26、若干個(gè)新變量。問(wèn)題引入:為了找出影響顧客購(gòu)買(mǎi)手機(jī)的主要因素,抽查一部分人按性別和年齡分成10個(gè)小組,分別對(duì)100種手機(jī)類(lèi)型進(jìn)行打分評(píng)價(jià),最受歡迎的手機(jī)賜予9分,最不受歡迎的手機(jī)給1分。設(shè)10組顧客對(duì)100類(lèi)手機(jī)的評(píng)分?jǐn)?shù)據(jù)為:指標(biāo) 樣本 手機(jī)1 手機(jī)2 手機(jī)100X1(男20歲以下) X11 X21 X1001X2(男2130歲) X12 X22 X1002X3(男3140歲) X4(男4150歲)X5(男50歲以上)X6(女20歲以下)X7(女2130歲)X8(女3140歲)X9(女4150歲)X10(女50歲以上) X110 X2 10 X 100 10Xij表示第j個(gè)顧客對(duì)第i款手機(jī)的偏好

27、評(píng)分,記A=(Xij)。設(shè)想通過(guò)主成分分析確定手機(jī)類(lèi)型的主要影響因素。主成分分析步驟:1) 求A的相關(guān)系數(shù)矩陣R,R=R(), 的定義為: ,= 2) 求特征方程det(R-)=0的特征根i(i =1,2,n);3) 通過(guò)非零向量B滿(mǎn)足(R-)B=0,計(jì)算相應(yīng)的特征向量Bi=(Bi1,B i2, Bin);4) 從大到小排列i,不妨設(shè)1>2> >n ,由累計(jì)貢獻(xiàn)率95%確定m個(gè)特征根1>2> >m,對(duì)應(yīng)的特征向量為Bi=(Bi1,B i2, Bin),i=1,2,m;5) 計(jì)算主重量Z k,Z k=(k=1,2, m( m<n),即Z k是原影響因素X

28、i的線性組合。 Z k 的應(yīng)用:1)通過(guò)Zi與Zj的對(duì)應(yīng)取值變化,了解主要影響因素之間的關(guān)系和變化趨勢(shì);2)可以通過(guò)Z k對(duì)X1,X2,X100的貢獻(xiàn)率,找出最大的指標(biāo)Xi,視Xi為Z k影響最大的指標(biāo)。 的定義:令Xij 與 Zij的關(guān)系為:組號(hào)指標(biāo) X1,X2, X n Z 1,Z 2 Z m 1 X11 X21 X n 1 Z11 Z21 Z m1 2 X12 X22 X n 2 Z12 Z22 Z m2 10 X110 X210 X n 10 Z110 Z210 Z m10 i=1,2, m, j=1,2, n案例分析:1):A(Xij)的相關(guān)系數(shù)矩陣R為:X1 X2 X3 X10X1

29、 1 0.871 0.516 0.37 0.172 0.936 0.811 0.015 0.5 0.33X2 1 0.7 0.64 0.4 0.821 1 1 1 1 1 1 1X10 1 2)用計(jì)算機(jī)求解特征方程 det(R-)=0的特征根i,其中累計(jì)貢獻(xiàn)率達(dá)到93.4%的前三個(gè)特征根為:1=6.83,2=1.76,3=0.75;3)計(jì)算三個(gè)特征值的特征向量及累計(jì)貢獻(xiàn)率見(jiàn)下表: 評(píng)價(jià)組特征向量B1特征向量B2特征向量B3 X1026804460194 X203110240336 X30323-01660442 X40229-03590375 X40261-05070128 X60309040

30、8-0084 X703440235-0171 X803480032-029 X90346-0164-0322 X100303-0267-0522 特征值i683176075 有效率i/10683%01760075累計(jì)貢獻(xiàn)率683%859%934%4)計(jì)算主重量Z k,Z k=,即 Z1=0268X1+0311X2+0323X3+030X10Z2=0446X1+024X2 01663X3+0267X10Z3=0194X1+0336X2 +0442X3+0522X10 5)分析各特征向量的各重量的取值對(duì)B1,各重量取值差異不大,符號(hào)相同(都是正號(hào)),表明對(duì)哪一評(píng)價(jià)組合都是寵愛(ài)的,或者都是不寵愛(ài)的,

31、因此可以把新的綜合指標(biāo)Z1定義為偏好指標(biāo);對(duì)B2,從第1組到第5組,從第6組到第10組,有從大到小的變化相同的趨勢(shì),即隨年齡的增長(zhǎng)而取值由正變負(fù),表示了年齡對(duì)偏好寵愛(ài)程度的影響,因此可以把綜合指標(biāo)Z2定義為年齡指標(biāo)。對(duì)B3,各重量對(duì)于1到5組(男性)取正值,對(duì)于女性取負(fù)值,表示由于性別的不同而產(chǎn)生的偏好上的不同,所以可以把綜合指標(biāo)Z3定義為性別指標(biāo)??梢詺w納為:影響手機(jī)購(gòu)買(mǎi)的主要因素是:偏好、年齡、性別。6) 可以通過(guò)X1X10的取值,獵取Zk的取值,分析偏好與年齡的變化關(guān)系;7)可以通過(guò)計(jì)算Zk對(duì)Xi的貢獻(xiàn)率,確定貢獻(xiàn)率最大的相應(yīng)的評(píng)價(jià)組合,由此確定銷(xiāo)售主要的對(duì)象策略。如計(jì)算得到的為: Xi

32、 10.910.320.010.93 * 20.70.230.080.55 30.62-0.530.180.7 40.910.290.040.92 * 50.860.320.040.85 * 60.760.44-0.030.77 * 70.780.310.030.71 80.5-0.6-0.190.65 90.230.110.80.7 100.42-0.23-0.670.7把大于0.75的用*表出,可見(jiàn)偏好、年齡以及性別對(duì)20歲以下的男、女組合、40歲以上的男性組合影響較大。思考問(wèn)題:如何通過(guò)收集的客戶(hù)有關(guān)數(shù)據(jù),分析客戶(hù)流失的主要因素?作業(yè): 用隨機(jī)賦分形式形成各年齡層的調(diào)查分?jǐn)?shù),借助SPSS

33、,求出各年齡層最感愛(ài)好的三款手機(jī)。4、決策樹(shù)概述決策樹(shù):一種以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,它從一組無(wú)次序、無(wú)規(guī)章的實(shí)例中推理出樹(shù)表示形式的分類(lèi)規(guī)章。問(wèn)題引入:設(shè)想影響氣候的主要指標(biāo)有四個(gè): 天氣:晴、多云、下雨;分別記為0,1,2溫度:寒冷,暖和,熱,分別記為0,1,2濕度:潮濕、正常,分別記為0,1, 風(fēng)力:有風(fēng),沒(méi)風(fēng),分別記為0,1。將氣候分為兩個(gè)級(jí)別:P,N,分別記為0,1。假如某一天的氣候?yàn)槎嘣?,寒冷,濕度正常,沒(méi)風(fēng),問(wèn)氣候是哪一級(jí)別? 思路:1)建立判別實(shí)例集; 2)由實(shí)例集建立一棵判別的決策樹(shù); 3)由決策樹(shù)對(duì)任何組合氣候特征進(jìn)行推斷。關(guān)鍵問(wèn)題:如何建立決策樹(shù),樹(shù)的屬性判別次序如何選

34、擇?C5.0系統(tǒng)決策樹(shù)的算法(ID3)特點(diǎn):首先找出最有判別力的因素,把數(shù)據(jù)分成兩個(gè)子集,每個(gè)子集又選擇最有判別力的因素進(jìn)行劃分,始終進(jìn)行到全部子集僅包含同一類(lèi)型的數(shù)據(jù)為止。決策樹(shù)建立過(guò)程:設(shè)收集的氣候?qū)嵗癁椋簶颖咎?hào)天氣溫度濕度風(fēng)力分類(lèi)1晴熱潮濕沒(méi)風(fēng)N2晴熱潮濕有風(fēng)N3多云熱潮濕沒(méi)風(fēng)P4有雨暖和潮濕沒(méi)風(fēng)P5有雨寒冷正常沒(méi)風(fēng)P6有雨寒冷正常有風(fēng)N7多云寒冷正常有風(fēng)P8晴暖和潮濕沒(méi)風(fēng)N9晴寒冷正常沒(méi)風(fēng)P10有雨暖和正常沒(méi)風(fēng)P11晴暖和正常有風(fēng)P12多云暖和潮濕有風(fēng)P13多云熱正常沒(méi)風(fēng)P14有雨暖和潮濕有風(fēng)N 設(shè)想用獲得信息量最大的特征作為決策樹(shù)判別的標(biāo)準(zhǔn)。若U表示信息源,V表示收到的信息,I(U

35、,V)表示收到信息V后獲得關(guān)于U的信息量,定義 I(U,V)=H(U)H(UV) 對(duì)于相同的U及不同的V,當(dāng)I(U,V)最大時(shí),將屬性V(即收到的信息)作為決策樹(shù)的推斷點(diǎn)。 關(guān)于H(U)、H(UV)的計(jì)算,用上述實(shí)例說(shuō)明。設(shè)Uj表示輸出類(lèi)別(j=1,2),即U1=P,U2=N;Vk表示判別特征,即V1=天氣,V2=溫度,V3=濕度,V4=風(fēng)力,k=1,2,3,4,Vkj表示第K個(gè)判別特征的第j個(gè)取值,如V1=天氣的取值為:V11=晴,V12=多云,V13=有雨。為了選擇最有判別力的特征,需要分別計(jì)算I(U,Vk),從中取最大I(U,Vk0),相應(yīng)的Vk0就是判別特征。1) H(U)的計(jì)算:依據(jù)

36、輸出類(lèi)別Uj的概率進(jìn)行計(jì)算,即 由于 P(U1)=9/14, P(U2)=5/14 = 9/14log2(9/14)+ 5/14log2(5/14) =0.94 2) 計(jì)算H(UV1): , (1)由于P(V11)=5/14, P(V12)=4/14, P(V13)=5/14,P(U1V11)=2/5,P(U2V11)=3/5P(U1V12)=1,P(U2V11)=0P(U1V13)=3/5,P(U2V13)=2/5代入(1)得: =5/142/5 log2(5/2)+ 3/5 log2(5/3)+ 4/14log2(1)+ 0+ 5/143/5 log2(5/3)+ 2/5 log2(5/2

37、) =0.694,3) 計(jì)算I(U,V1):I(U,V1)=H(U)H(UV1)=0.94-0.694=0.2464) 同理計(jì)算I(U,Vk)(k=2,3,4),并求出最大I(U,Vk):可以計(jì)算得到:I(U,V2)=0.029,I(U,V3)=0.159,I(U,V4)=0.048與I(U,V1)=0.246相比,I(U,V1)最大,所以第一選擇判別特征為V1=天氣,作為決策樹(shù)樹(shù)根。5) 建立樹(shù)根的分支:樹(shù)根對(duì)應(yīng)的三個(gè)屬性值(晴、多云,有雨)作為分支,分別有相應(yīng)晴的子集樣本為F1=1,2,8,9,11,相應(yīng)多云的子集樣本為F2=3,7,12,13,相應(yīng)有雨的子集樣本為F3=4,5,6,10,

38、14,其中F1中2個(gè)取P,3個(gè)取N, F2中全部取N,F(xiàn)3中3個(gè)取P,2個(gè)取N。所以?xún)H需對(duì)F1、F3進(jìn)一步判別,對(duì)F2不需再判別。6) 遞歸建樹(shù):分別利用上述算法(ID3)對(duì)子集F1、F3連續(xù)判別,即對(duì)子集Fi(i=1,3)個(gè)特征求平均互信息最大的特征??梢缘玫剑簩?duì)F1,I(U,V3)最大,以其為該分支的結(jié)點(diǎn)再分支,由于取V3=濕度時(shí),潮濕對(duì)應(yīng)的類(lèi)全是N類(lèi),正常對(duì)應(yīng)的類(lèi)全是P類(lèi),因而已有判別結(jié)果,不需連續(xù)再分。對(duì)F3,計(jì)算得到平均互信息最大的為I(U,V4),V4=風(fēng)力,以其為結(jié)點(diǎn)再分枝,此時(shí)有風(fēng)對(duì)應(yīng)的是N類(lèi),無(wú)風(fēng)對(duì)應(yīng)的是P類(lèi),所以也有判別結(jié)果,不許連續(xù)再分。見(jiàn)圖所示。天氣風(fēng)力濕度 晴 有雨

39、多云 P 潮濕 正常 有風(fēng) 無(wú)風(fēng) N P N P7) 利用建立的決策樹(shù),對(duì)問(wèn)題“某天氣候?yàn)橛杏?,寒冷,濕度正常,沒(méi)風(fēng)”,進(jìn)行判別,判別結(jié)果為“氣候?yàn)镻類(lèi)”。8) 利用決策樹(shù),可以寫(xiě)出判別規(guī)章: IF “天氣是晴” and “濕度潮濕”T hen “氣候是N類(lèi)” IF “天氣是晴” and “濕度正?!盩 hen “氣候是P類(lèi)” IF “天氣是多云” T hen “氣候是P類(lèi)” IF “天氣是有雨” and “有風(fēng)”T hen “氣候是N類(lèi)” IF “天氣是有雨” and “無(wú)風(fēng)”T hen “氣候是P類(lèi)”9) 決策樹(shù)的存在問(wèn)題:(1)依靠于特征取值較多的特征; (2)依靠于正、反例取值個(gè)數(shù);

40、(3)當(dāng)正、反例個(gè)數(shù)變化時(shí),平均互信息也變化,決策樹(shù)變化。思考問(wèn)題:如何對(duì)顧客的數(shù)據(jù)進(jìn)行判別,以作出最佳銷(xiāo)售策略? 如何從一個(gè)決策樹(shù),轉(zhuǎn)換為一個(gè)神經(jīng)網(wǎng)絡(luò)?5、關(guān)聯(lián)分析關(guān)聯(lián)分析:對(duì)事務(wù)中物品之間同時(shí)消滅的規(guī)律學(xué)問(wèn)模式進(jìn)行分析的方法。關(guān)聯(lián)規(guī)章:通過(guò)量化的數(shù)字描述事務(wù)中物品之間同時(shí)消滅的規(guī)律的關(guān)聯(lián)表示。問(wèn)題引入:1)事務(wù)1中消滅了手機(jī),事務(wù)2中消滅了電池、儲(chǔ)值卡,事務(wù)3中消滅了手機(jī)和電池,問(wèn)手機(jī)、電池、儲(chǔ)值卡在事務(wù)中消滅,其相互之間有沒(méi)規(guī)律可循? 2)開(kāi)通的手機(jī)業(yè)務(wù)中,如語(yǔ)音信箱,移動(dòng)秘書(shū),信息點(diǎn)播,呼叫轉(zhuǎn)移等,相互之間是否有關(guān)聯(lián)關(guān)系?主要概念:1)可信度:(confidence)設(shè)W是一組事務(wù)集,每個(gè)事務(wù)T是一組物品。若W中支持物品集A的事務(wù)中,有C%的事務(wù)也支持物品集B,則C%稱(chēng)為關(guān)聯(lián)規(guī)章A B的可信度,其中, A B表示A消滅則B也消滅,且AB=。可信度表示為P(B/A)。2)支持度(Support):設(shè)W中有S%的事務(wù)同時(shí)支持物品集A和B,則S%稱(chēng)為關(guān)聯(lián)規(guī)章A B的支持度。支持度表示為P(AB)。3)期望可信度(expected confidence):設(shè)W中有E%的事務(wù)支持物品集B,則E%稱(chēng)為關(guān)聯(lián)規(guī)章A B期望可信度。期望可信度表示為P(B

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論