數(shù)據(jù)挖掘知識(shí)_第1頁(yè)
數(shù)據(jù)挖掘知識(shí)_第2頁(yè)
數(shù)據(jù)挖掘知識(shí)_第3頁(yè)
數(shù)據(jù)挖掘知識(shí)_第4頁(yè)
數(shù)據(jù)挖掘知識(shí)_第5頁(yè)
已閱讀5頁(yè),還剩55頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘基本知識(shí)與算法介紹數(shù)據(jù)應(yīng)用部

黃金寶2014-5-162023/2/515:291數(shù)據(jù)挖掘的基本概念數(shù)據(jù)挖掘流程數(shù)據(jù)挖掘的基本算法數(shù)據(jù)挖掘應(yīng)用及演示案例目錄2023/2/515:292什么是數(shù)據(jù)挖掘?存在太多數(shù)據(jù)挖掘的定義,但基本上有這樣一種描述結(jié)構(gòu)Tofind/discover/extract/dredge/harvest、、、Interesting/novel/useful/implicit/actable/meaningful、、、Information/knowledge/patterns/trends/rules/anomalies、、、Inmassivedata/largedataset/largedatabase/datawarehouse、、、DataInformationKnowledgeWisdomData+contextInformation+rulesKnowledge+experience2023/2/515:293要點(diǎn)一數(shù)據(jù)挖掘是指從數(shù)據(jù)庫(kù)的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價(jià)值的信息的非平凡過(guò)程。要點(diǎn)二數(shù)據(jù)挖掘是一種決策支持過(guò)程,它主要基于人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、可視化技術(shù)等,高度自動(dòng)化地分析企業(yè)的數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),做出正確的決策。數(shù)據(jù)挖掘的理解2023/2/515:294統(tǒng)計(jì)學(xué)與數(shù)據(jù)挖掘的區(qū)別數(shù)據(jù)樣本數(shù)量不同(在統(tǒng)計(jì)學(xué)中樣本數(shù)量大于30,則成為大樣本)數(shù)據(jù)來(lái)源和質(zhì)量不同數(shù)據(jù)挖掘既可以處理結(jié)構(gòu)化數(shù)據(jù),也可以處理非結(jié)構(gòu)化和異型數(shù)據(jù)方法有些數(shù)據(jù)挖掘的分析方法是統(tǒng)計(jì)學(xué)中沒(méi)有的,如強(qiáng)調(diào)實(shí)時(shí)分析(協(xié)同過(guò)濾)統(tǒng)計(jì)分析方法在對(duì)大規(guī)模數(shù)據(jù)處理時(shí)不能像數(shù)據(jù)挖掘那樣采用神經(jīng)網(wǎng)絡(luò)、遺傳算法等機(jī)器學(xué)習(xí)的方法模型(模式)模型(統(tǒng)計(jì)學(xué))VS模式(數(shù)據(jù)挖掘)統(tǒng)計(jì)建模強(qiáng)調(diào)模型的普適性,數(shù)據(jù)挖掘強(qiáng)調(diào)從數(shù)據(jù)中發(fā)現(xiàn)模式算法統(tǒng)計(jì)學(xué)強(qiáng)調(diào)模型,運(yùn)算量居于次要地位數(shù)據(jù)挖掘的精華在于結(jié)果的未知性,強(qiáng)調(diào)探索性分析,與之對(duì)應(yīng)的是算法而不是模型方法論統(tǒng)計(jì)學(xué):以數(shù)學(xué)為基礎(chǔ),每種方法有嚴(yán)格的證明體系(主成分分析,回歸分析)數(shù)據(jù)挖掘:采用合理的算法,這些算法不全都有堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)作支撐。2023/2/515:295怎么做數(shù)據(jù)挖掘?定義問(wèn)題數(shù)據(jù)理解數(shù)據(jù)預(yù)處理建立模型實(shí)際挖掘工作評(píng)價(jià)和解釋應(yīng)用數(shù)據(jù)挖掘一般流程各步驟之間互相影響、反復(fù)調(diào)整,形成一種螺旋式上升的過(guò)程2023/2/515:296數(shù)據(jù)導(dǎo)入數(shù)據(jù)預(yù)處理模型挖掘評(píng)價(jià)應(yīng)用2023/2/515:297數(shù)據(jù)挖掘過(guò)程中的數(shù)據(jù)預(yù)處理數(shù)據(jù)集成多個(gè)數(shù)據(jù)庫(kù)、數(shù)據(jù)方或文件的集成數(shù)據(jù)清洗填充缺失值,修均噪聲數(shù)據(jù),識(shí)別或刪除孤立點(diǎn),并解決數(shù)據(jù)不一致問(wèn)題主要分析方法:分箱(Binning)、聚類、回歸數(shù)據(jù)變換規(guī)范化與匯總數(shù)據(jù)簡(jiǎn)化(降維)減少數(shù)據(jù)量的同時(shí),還可以得到相同或相近的分析結(jié)果主要分析方法:抽樣、主成分分析2023/2/515:298幾類基本的挖掘算法分類與預(yù)測(cè)發(fā)現(xiàn)能夠區(qū)分或預(yù)測(cè)目標(biāo)變量(唯一的)的規(guī)則或者函數(shù)分類的目標(biāo)變量一般是范疇型的,而預(yù)測(cè)則是數(shù)量型的,并不必然帶有任何時(shí)間延續(xù)型的暗示例如:股票市值的預(yù)測(cè),病人病情的判斷聚類對(duì)數(shù)據(jù)分組以形成新類,類標(biāo)記是未知的例如:市場(chǎng)細(xì)分關(guān)聯(lián)規(guī)則發(fā)現(xiàn)數(shù)據(jù)集中的頻繁模式例如:buy(x,”diapers”)buy(x,”beers”)[0.5%,60%]孤立點(diǎn)探測(cè)(OutlierDetection)分析異?;蛟肼晹?shù)據(jù)的行為模式例如:欺詐檢測(cè)2023/2/515:299分類(有監(jiān)督的學(xué)習(xí)過(guò)程,根據(jù)訓(xùn)練數(shù)據(jù)集和類標(biāo)號(hào)屬性,構(gòu)建模型來(lái)分類現(xiàn)有數(shù)據(jù),并用來(lái)分類新數(shù)據(jù))第一步,建立一個(gè)模型,描述預(yù)定數(shù)據(jù)類集和概念集第二步,使用模型,對(duì)將來(lái)的或未知的對(duì)象進(jìn)行分類訓(xùn)練數(shù)據(jù)集分類算法IFrank=‘professor’ORyears>6THENtenured=‘yes’分類規(guī)則測(cè)試集分類規(guī)則未知數(shù)據(jù)Tenured2023/2/515:2910常用的分類方法——決策樹歸納決策樹樣本的屬性作為結(jié)點(diǎn)分支代表屬性的值葉節(jié)點(diǎn)代表分類標(biāo)簽或分布用信息論原理對(duì)大量樣本屬性進(jìn)行分析和歸納(主要有信息增益和信息增益率,其中后者克服了前者偏向選擇取值多的屬性的缺點(diǎn))決策樹的生成包括兩個(gè)階段樹的創(chuàng)建首先,從所有訓(xùn)練樣本中選擇包含信息量最大的屬性作為根節(jié)點(diǎn)其次,中間結(jié)點(diǎn)是該根節(jié)點(diǎn)出發(fā)的的所有子集中包含信息量最大的屬性樹的修剪識(shí)別并刪除那些反映噪聲或孤立點(diǎn)的分支決策樹的停止條件決策樹的構(gòu)建過(guò)程是一個(gè)遞歸的過(guò)程,所以需要確定停止條件,否則過(guò)程將不會(huì)結(jié)束。一種最直觀的方式是當(dāng)每個(gè)子節(jié)點(diǎn)只有一種類型的記錄時(shí)停止,但是這樣往往會(huì)使得樹的節(jié)點(diǎn)過(guò)多,導(dǎo)致過(guò)擬合問(wèn)題(Overfitting)。另一種可行的方法是當(dāng)前節(jié)點(diǎn)中的記錄數(shù)低于一個(gè)閥值,那么就停止分割,將記錄中出現(xiàn)比例最大對(duì)應(yīng)的分類作為當(dāng)前葉節(jié)點(diǎn)的分類。應(yīng)用決策樹:對(duì)未知樣本進(jìn)行分類在決策樹上對(duì)新樣本從根結(jié)點(diǎn)開始,按照樣本屬性的取值,逐漸沿著決策樹向下,直到葉節(jié)點(diǎn),該葉節(jié)點(diǎn)代表的類就是新樣本的類別2023/2/515:2911優(yōu)點(diǎn)決策樹簡(jiǎn)單易理解,容易生成便于解釋的規(guī)則既能處理數(shù)值型屬性,也能處理非數(shù)值型的屬性能在相對(duì)較短時(shí)間內(nèi)對(duì)大量數(shù)據(jù)源作出可行且效果良好的結(jié)果(高效)缺點(diǎn)對(duì)那些樣本屬性包含的類別數(shù)量不一致的數(shù)據(jù),在決策樹當(dāng)中,信息增益的結(jié)果易偏向于那些具有更多類別的屬性決策樹對(duì)缺失值難處理過(guò)度擬合問(wèn)題的出現(xiàn)2023/2/515:2912決策樹示意age?overcaststudent?creditrating?noyesfairexcellent<=30>40nonoyesyesyes30..40示例:是否購(gòu)買計(jì)算機(jī)?2023/2/515:2913常用的分類方法——貝葉斯分類貝葉斯分類利用統(tǒng)計(jì)學(xué)中的貝葉斯定理,來(lái)預(yù)測(cè)類成員的概率,即給定一個(gè)樣本,計(jì)算該樣本屬于一個(gè)特定的類的概率。(假設(shè)每個(gè)屬性之間都是相互獨(dú)立的,并且每個(gè)屬性對(duì)分類問(wèn)題產(chǎn)生的影響都是一樣的)算法過(guò)程;1.待分類項(xiàng)X=(a1、a2、….an),其中a為X的一個(gè)特征的屬性2.類別集合Y=(c1、c2、…cn),現(xiàn)在計(jì)算P(c1/X)、P(c2/X)..

P(cn/X)3根據(jù)貝葉斯定理P(ci/X)=

P(X/ci)*

P(ci)/

P(X)=

P(aj/ci)*P(ci)/P(X)4.計(jì)算P(ck/X)=max(P(ci/X))=max(P(aj/ci)*P(ci)/P(X))5.對(duì)所有的類別P(X)是常數(shù),故P(aj/ci)*P(ci)最大項(xiàng)對(duì)應(yīng)的類別就是X所屬類別2023/2/515:2914優(yōu)點(diǎn)算法簡(jiǎn)單,易理解有堅(jiān)實(shí)的數(shù)學(xué)理論支撐,同時(shí)有穩(wěn)定的分類效率缺點(diǎn)模型假設(shè)的各屬性之間相互獨(dú)立,這個(gè)在實(shí)際應(yīng)用中很難實(shí)現(xiàn)2023/2/515:2915常用的分類方法——神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)是一組連接的輸入/輸出單元,每個(gè)連接都與一個(gè)權(quán)相連。在學(xué)習(xí)階段,通過(guò)調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán),使得能夠預(yù)測(cè)輸入樣本的正確標(biāo)號(hào)來(lái)學(xué)習(xí)。1.MP模型每個(gè)神經(jīng)元的狀態(tài)只取0或1,分別代表抑制與興奮,每個(gè)神經(jīng)元的狀態(tài)由MP方程決定:2023/2/515:2916(其中Wi是權(quán)值,T是閥值,f(x)是作用函數(shù))1.[0,1]階梯函數(shù)2.(0,1)S型函數(shù)(常用的作用函數(shù))2023/2/515:2917特性1:多輸入單輸出圖(a)表明,正如生物神經(jīng)元有許多激勵(lì)輸入一祥,人工神經(jīng)元也應(yīng)該有許多的輸入信號(hào),圖中每個(gè)輸入的大小用確定數(shù)值xi表示,它們同時(shí)輸入神經(jīng)元j,神經(jīng)元的單輸出用oj表示特性2:輸入類型:興奮性和抑制性生物神經(jīng)元具有不同的突觸性質(zhì)和突觸強(qiáng)度,其對(duì)輸入的影響是使有些輸入在神經(jīng)元產(chǎn)生脈沖輸出過(guò)程中所起的作用比另外一些輸入更為重要。圖(b)中對(duì)神經(jīng)元的每一個(gè)輸入都有一個(gè)加權(quán)系數(shù)wij,稱為權(quán)重值,其正負(fù)模擬了生物神經(jīng)元中突觸的興奮和抑制,其大小則代表了突觸的不同連接強(qiáng)度。特性3:空間整合特性和閾值特性作為ANN的基本處理單元,必須對(duì)全部輸入信號(hào)進(jìn)行整合,以確定各類輸入的作用總效果,圖(c)表示組合輸人信號(hào)的“總和值”,相應(yīng)于生物神經(jīng)元的膜電位。神經(jīng)元激活與否取決于某一閾值電平,即只有當(dāng)其輸入總和超過(guò)閾值時(shí),神經(jīng)元才被激活而發(fā)放脈沖,否則神經(jīng)元不會(huì)產(chǎn)生輸出信號(hào)。2023/2/515:29182.感知機(jī)神經(jīng)元i的輸入(神經(jīng)元J輸出)為Xj為神經(jīng)元j的輸入,wij是連接權(quán)值,神經(jīng)元i的輸出為設(shè)神經(jīng)元i的期望輸出為D,通過(guò)樣本學(xué)習(xí),修正權(quán)值,使得計(jì)算輸出和期望輸出之差盡可能小感知機(jī)原理:3.BP神經(jīng)網(wǎng)絡(luò)(1)多層網(wǎng)絡(luò)結(jié)構(gòu)(不僅有輸入、輸出結(jié)點(diǎn)還有一層或多層隱結(jié)點(diǎn),每一層連接都對(duì)應(yīng)一個(gè)連接權(quán)值和結(jié)點(diǎn)閥值)(2)作用函數(shù)為(0,1)S型函數(shù)(3)誤差公式為

作用函數(shù)為[0,1]型階梯函數(shù)優(yōu)點(diǎn)預(yù)測(cè)精度總的來(lái)說(shuō)較高健壯性好,訓(xùn)練樣本中包含錯(cuò)誤時(shí)也可正常工作輸出可能是離散值、連續(xù)值對(duì)目標(biāo)進(jìn)行分類較快缺點(diǎn)訓(xùn)練(學(xué)習(xí))時(shí)間長(zhǎng)蘊(yùn)涵在學(xué)習(xí)的權(quán)中的符號(hào)含義很難理解很難跟專業(yè)領(lǐng)域知識(shí)整合2023/2/515:2919其他的分類方法

Logistic回歸支持向量機(jī)(SVM)k-最臨近分類(K-NN)遺傳算法粗糙集方法2023/2/515:2920提高分類法的準(zhǔn)確性Bagging技術(shù)和boosting技術(shù)都通過(guò)將T個(gè)學(xué)習(xí)得到的分類法C1,C2…CT組合起來(lái),從而創(chuàng)造一個(gè)改進(jìn)的分類法C*Bagging技術(shù)對(duì)訓(xùn)練集S進(jìn)行T次迭代,每次通過(guò)放回取樣選取樣本集St,通過(guò)學(xué)習(xí)St得到分類法Ct對(duì)于未知樣本X,每個(gè)分類法返回其類預(yù)測(cè),作為一票C*統(tǒng)計(jì)得票,并將得票最高的預(yù)測(cè)賦予XBoosting技術(shù)每個(gè)分類Ct賦予一個(gè)權(quán)值Ct的權(quán)值取決于分類準(zhǔn)確率2023/2/515:29212023/2/515:2922Bagging技術(shù)演示boost技術(shù)演示

預(yù)測(cè)

注:預(yù)測(cè)是構(gòu)造和使用模型評(píng)估給定樣本可能具有的屬性或值空間.

常用的預(yù)測(cè)方法回歸分析神經(jīng)網(wǎng)絡(luò)2023/2/515:2923回歸分析線性回歸:Y=+X其中和是回歸系數(shù),可以根據(jù)給定的數(shù)據(jù)點(diǎn),通過(guò)最小二乘法來(lái)求得多元回歸:Y=+1X1+2X2線性回歸的擴(kuò)展,設(shè)計(jì)多個(gè)預(yù)測(cè)變量,可以用最小二乘法求得上式中的,1和2非線性回歸:Y=+1X1+2X22+3X33對(duì)不呈線性依賴的數(shù)據(jù)建模使用多項(xiàng)式回歸建模方法,然后進(jìn)行變量變換,將非線性模型轉(zhuǎn)換為線性模型,然后用最小二乘法求解2023/2/515:2924分類VS

預(yù)測(cè)相同點(diǎn)兩者都需要構(gòu)建模型來(lái)估計(jì)未知值不同點(diǎn)分類法主要是用來(lái)預(yù)測(cè)類標(biāo)號(hào)(分類屬性值)預(yù)測(cè)法主要是用來(lái)估計(jì)連續(xù)值(量化屬性值2023/2/515:2925聚類

(無(wú)監(jiān)督學(xué)習(xí)過(guò)程,把一個(gè)給定的數(shù)據(jù)對(duì)象集合分成不同的簇)聚類的原則:類內(nèi)相似度高,類間相似度低相似度一般為某種距離函數(shù)D(i,j)聚類既可以作為獨(dú)立分析工具考察數(shù)據(jù)分布結(jié)構(gòu),也可以作為其他分析方法的預(yù)處理步驟很不幸,對(duì)聚類結(jié)果的評(píng)價(jià)一般都是主觀的客戶分群示例分群是根據(jù)客戶的關(guān)鍵屬性將客戶分成不同的組別,要求做到組間差異化最大組內(nèi)相似性最大2023/2/515:2926聚類分析方法劃分方法(PartitioningMethods)層次方法基于密度的方法基于網(wǎng)格的方法基于模型(Model-Based)的聚類方法2023/2/515:29271.劃分法(partitioningmethods):給定一個(gè)有N個(gè)元組或者紀(jì)錄的數(shù)據(jù)集,將構(gòu)造K個(gè)分組,每一個(gè)分組就代表一個(gè)聚類,K<N。而且這K個(gè)分組滿足下列條件:(1)每一個(gè)分組至少包含一個(gè)數(shù)據(jù)紀(jì)錄;(2)每一個(gè)數(shù)據(jù)紀(jì)錄屬于且僅屬于一個(gè)分組;對(duì)于給定的K,算法首先給出一個(gè)初始的分組方法,以后通過(guò)反復(fù)迭代的方法改變分組,使得每一次改進(jìn)之后的分組方案都較前一次好,而所謂好的標(biāo)準(zhǔn)就是:同一分組中的記錄越近越好,而不同分組中的紀(jì)錄越遠(yuǎn)越好。使用這個(gè)基本思想的算法有:K-MEANS算法、K-MEDOIDS算法;2023/2/515:2928K-means算法是劃分法的一種,用來(lái)對(duì)一組輸入字段的值基于相似度分類。其基本思路是試圖發(fā)現(xiàn)k個(gè)聚類,各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。(K值的選擇具有主觀性)聚類示意圖2023/2/515:29291.從N個(gè)點(diǎn)中選擇K個(gè)點(diǎn)作為初始質(zhì)心

2.計(jì)算剩余點(diǎn)到K個(gè)點(diǎn)的距離,將每個(gè)點(diǎn)指派到最近的質(zhì)心,形成K個(gè)類

3.重新計(jì)算每個(gè)類的質(zhì)心

4.重復(fù)2、3的操作

直到各類的質(zhì)心變化低于閥值或達(dá)到最大迭代次數(shù)距離計(jì)算方法:歐式距和余弦相似度算法過(guò)程

兩種劃分區(qū)別:K-MEANS和K-MEDOIDS區(qū)別主要是前者以各點(diǎn)的平均值作為中心,而后者以類別中的一個(gè)點(diǎn)為中心,該點(diǎn)滿足到類中各點(diǎn)的距離之和最小優(yōu)點(diǎn)算法簡(jiǎn)單,運(yùn)算速度快缺點(diǎn)初始K值難易確定,需要多次迭代或者主觀判斷確定。只有在中心平均值確定情況下才能使用,所以數(shù)據(jù)對(duì)象必須是數(shù)值型的字段對(duì)極端值或奇異值敏感2023/2/515:29302.層次法(hierarchicalmethods):這種方法對(duì)給定的數(shù)據(jù)集進(jìn)行層次似的分解,直到某種條件滿足為止。具體又可分為“自底向上”和“自頂向下”兩種方案。例如在“自底向上”方案中,初始時(shí)每一個(gè)數(shù)據(jù)紀(jì)錄都組成一個(gè)單獨(dú)的組,在接下來(lái)的迭代中,它把那些相互鄰近的組合并成一個(gè)組,直到所有的記錄組成一個(gè)分組或者某個(gè)條件滿足為止。代表算法有:TwoStep

算法、CURE算法、CHAMELEON算法等;TwoStep

算法(能夠?yàn)橛?xùn)練數(shù)據(jù)自動(dòng)估計(jì)最佳聚類數(shù))第一步完成簡(jiǎn)單數(shù)據(jù)處理,以便將原始輸入數(shù)據(jù)壓縮為可管理的子聚類集合。第二步使用層級(jí)聚類方法將子聚類一步一步合并為更大的聚類。2023/2/515:29313.基于密度的方法(density-basedmethods):基于密度的方法與其它方法的一個(gè)根本區(qū)別是:它不是基于各種各樣的距離的,而是基于密度的。這樣就能克服基于距離的算法只能發(fā)現(xiàn)“類圓形”的聚類的缺點(diǎn)。這個(gè)方法的指導(dǎo)思想就是,只要一個(gè)區(qū)域中的點(diǎn)的密度大過(guò)某個(gè)閥值,就把它加到與之相近的聚類中去。代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等;4.基于網(wǎng)格的方法(grid-basedmethods):這種方法首先將數(shù)據(jù)空間劃分成為有限個(gè)單元(cell)的網(wǎng)格結(jié)構(gòu),所有的處理都是以單個(gè)的單元為對(duì)象的。這么處理的一個(gè)突出的優(yōu)點(diǎn)就是處理速度很快,通常這是與目標(biāo)數(shù)據(jù)庫(kù)中記錄的個(gè)數(shù)無(wú)關(guān)的,它只與把數(shù)據(jù)空間分為多少個(gè)單元有關(guān)。代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法;5.基于模型的方法(model-basedmethods):基于模型的方法給每一個(gè)聚類假定一個(gè)模型,然后去尋找一個(gè)很好的滿足這個(gè)模型的數(shù)據(jù)集。這樣一個(gè)模型可能是數(shù)據(jù)點(diǎn)在空間中的密度分布函數(shù)或者其它。它的一個(gè)潛在的假定就是:目標(biāo)數(shù)據(jù)集是由一系列的概率分布所決定的。通常有兩種嘗試方向:統(tǒng)計(jì)的方案和神經(jīng)網(wǎng)絡(luò)的方案2023/2/515:2932關(guān)聯(lián)規(guī)則基本定義給定事務(wù)數(shù)據(jù)集,試圖發(fā)現(xiàn)其中的頻繁模式或關(guān)聯(lián)關(guān)系所謂頻繁模式或者關(guān)聯(lián)規(guī)則就是一個(gè)具有“AB”形式的邏輯式頻繁模式并不必然蘊(yùn)涵著因果關(guān)系或相關(guān)關(guān)系!算法實(shí)現(xiàn)基本上基于APRIORI法則:頻繁項(xiàng)集的所有非空子集一定也是頻繁(Frequent)的類型布爾關(guān)聯(lián)規(guī)則vs定量關(guān)聯(lián)規(guī)則buy(x,”diapers”)buy(x,”beers”)Age(x,”30..39”)^income(x,”42k..48k”)buy(x,”PC”)單維關(guān)聯(lián)規(guī)則vs多維關(guān)聯(lián)規(guī)則單層關(guān)聯(lián)規(guī)則vs多層關(guān)聯(lián)規(guī)則Age(x,”30..39”)^income(x,”42k..48k”)buy(x,”IBMPC”)序列模式(SequencePattern)數(shù)據(jù)項(xiàng)是一個(gè)包含時(shí)間標(biāo)簽的序偶[item(i),t]2023/2/515:2933支持度:Support(A=>B)=#AB/#N,表示A和B同時(shí)出現(xiàn)的概率。期望可信度:Support(B)=#A/#N,表示B出現(xiàn)的概率。置信度:Confidence(A=>B)=Support(A=>B)/Support(A)改善度:Lift(A=>B)=Confidence(A=>B)/Support(B)名稱描述公式支持度X、Y同時(shí)出現(xiàn)的頻率P(X∩Y)期望可信度Y出現(xiàn)的頻率P(Y)置信度X出現(xiàn)的前提下,Y出現(xiàn)的頻率P(Y|X)改善度置信度對(duì)期望可信度的比值P(Y|X)/P(Y)關(guān)聯(lián)規(guī)則的度量2023/2/515:2934發(fā)現(xiàn)具有最小置信度和支持度的全部規(guī)則X^YZ支持度(support),s,事務(wù)中包含{X&Y&Z}的概率置信度(confidence),c,

事務(wù)中包含{X&Y}的條件下,包含Z的條件概率令最小支持度為50%,最小置信度為50%,則有AC(50%,66.6%)CA(50%,100%)顧客購(gòu)買尿布顧客購(gòu)買兩者顧客購(gòu)買啤酒2023/2/515:2935關(guān)聯(lián)規(guī)則的應(yīng)用市場(chǎng)購(gòu)物籃分析(MarketBasketAnalysis)例如一個(gè)事務(wù)是客戶的一個(gè)購(gòu)物清單,同一客戶的兩份清單被認(rèn)為是兩個(gè)不同的事務(wù)數(shù)據(jù)項(xiàng)是所有可能陳列貨物的全集目標(biāo)是發(fā)現(xiàn)同時(shí)出現(xiàn)的貨品組合間的關(guān)聯(lián)模式應(yīng)用:商品貨價(jià)設(shè)計(jì)、倉(cāng)儲(chǔ)規(guī)劃、網(wǎng)頁(yè)布局、產(chǎn)品目錄設(shè)計(jì)等等交叉銷售(CrossSelling)客戶依次購(gòu)買不同產(chǎn)品的序列目標(biāo)是發(fā)現(xiàn)在購(gòu)買某一產(chǎn)品組合之后客戶可能購(gòu)買的另一產(chǎn)品或服務(wù)應(yīng)用:網(wǎng)絡(luò)故障分析、網(wǎng)站門戶設(shè)計(jì)等2023/2/515:2936關(guān)聯(lián)規(guī)則的算法Apriori算法通過(guò)迭代,檢索出事務(wù)數(shù)據(jù)庫(kù)中的所有頻繁項(xiàng)集,即支持度不低于用戶設(shè)定的閾值的項(xiàng)集;利用頻繁項(xiàng)集構(gòu)造出滿足用戶最小置信度的規(guī)則。FP-growth算法JiaweiHan等人在2000年提出了一種基于FP-樹的關(guān)聯(lián)規(guī)則挖掘算法FP_growth,它采取“分而治之”的策略,將提供頻繁項(xiàng)目集的數(shù)據(jù)庫(kù)壓縮成一棵頻繁模式樹(FP-樹)。僅兩次掃描數(shù)據(jù)庫(kù),理論和實(shí)驗(yàn)表明該算法優(yōu)于Apriori算法2023/2/515:2937數(shù)據(jù)挖掘的工具有哪些?2023/2/515:2938數(shù)據(jù)挖掘應(yīng)用Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40KQQQQII123456factor1factor2factorn神經(jīng)網(wǎng)絡(luò)NeuralNetworks聚類分析Clustering決策樹DecisionTrees

傾向性分析

客戶細(xì)分市場(chǎng)細(xì)分

傾向性分析客戶保留目標(biāo)市場(chǎng)欺詐檢測(cè)關(guān)聯(lián)分析Association

市場(chǎng)組合分析套裝產(chǎn)品分析目錄設(shè)計(jì)交叉銷售2023/2/515:2939數(shù)據(jù)挖掘在通信行業(yè)的應(yīng)用實(shí)例1結(jié)論:ARPU<=120元,租期已滿23個(gè)月以上,平均撥打電話少于270秒,六個(gè)月內(nèi)賬單遲繳4次以上,撥打號(hào)碼平均少于10個(gè)的客戶退租可能性很大ARPU租期已滿23個(gè)月以上六個(gè)月內(nèi)賬單遲繳4次以上撥打號(hào)碼平均少于10個(gè)《120〉120是非平均撥打電話少于270秒是非70.0%不退租(1000)是77.0%退租(1200)是非非Etc.Etc.Etc.Etc.2023/2/515:2940數(shù)據(jù)挖掘在通信行業(yè)的應(yīng)用實(shí)例2我們定義LIFT值大于1的規(guī)則為強(qiáng)關(guān)聯(lián)規(guī)則。發(fā)現(xiàn)這樣的關(guān)聯(lián)規(guī)則是有價(jià)值,有意義的。關(guān)聯(lián)規(guī)則是基于統(tǒng)計(jì)方法發(fā)現(xiàn)的數(shù)據(jù)當(dāng)中的內(nèi)在規(guī)律,而這種規(guī)律在現(xiàn)實(shí)中是否有意義還需要市場(chǎng)業(yè)務(wù)人員作進(jìn)一步的驗(yàn)證。業(yè)務(wù)一業(yè)務(wù)二LSUPPORTRSUPPORTSUPPORTCONFIDENCELIFTZSCORE彩鈴業(yè)務(wù)手機(jī)郵箱0.07340.040320.03220.4386910.88021266.19541夢(mèng)網(wǎng)短信手機(jī)郵箱0.670380.040320.040320.060141.4915740.52694國(guó)內(nèi)自動(dòng)漫游手機(jī)郵箱0.382530.040320.020370.053251.3206819.84956本地普通通話(比例)手機(jī)郵箱0.690050.040320.030590.044331.099458.320422023/2/515:2941移動(dòng)數(shù)據(jù)挖掘應(yīng)用

客戶流失(分類模型、Logistic回歸算法等)彩鈴WAP購(gòu)買傾向預(yù)測(cè)(分類模型、Logistic回歸算法等)彩信增量銷售預(yù)測(cè)(分類模型、Logistic回歸算法等)彩鈴用戶流失預(yù)測(cè)(分類模型、Logistic回歸算法等)客戶價(jià)值增長(zhǎng)預(yù)測(cè)(分類模型、Logistic回歸算法等)競(jìng)爭(zhēng)對(duì)手流失預(yù)測(cè)(分類模型、Logistic回歸算法等)集團(tuán)客戶分群(聚類模型、K-Means算法)集團(tuán)客戶級(jí)別打分(分類模型、Logistic回歸算法)產(chǎn)品關(guān)聯(lián)分析(關(guān)聯(lián)規(guī)則)個(gè)人客戶分群分析(聚類模型、K-Means算法)

集團(tuán)客戶流失預(yù)警模型(Logistic回歸算法,神經(jīng)網(wǎng)絡(luò))2023/2/515:29422023/2/515:2943西塔數(shù)據(jù)挖掘應(yīng)用實(shí)例1——客戶細(xì)分模型字段1.用戶基礎(chǔ)信息品牌地市網(wǎng)齡年齡ARPU流量金卡、銀卡、鉆卡客戶VIP客戶手機(jī)終端品牌手機(jī)終端型號(hào)終端操作系統(tǒng)TD終端客戶終端合約客戶終端合約客戶類型2.套餐訂購(gòu)信息動(dòng)感地帶客戶神州行客戶全球通客戶短信包客戶彩信包客戶5元彩信包訂購(gòu)標(biāo)識(shí)用戶3元彩信包訂購(gòu)標(biāo)識(shí)用戶彩信連連發(fā)半年優(yōu)惠套餐訂購(gòu)標(biāo)識(shí)用戶TD流量包客戶GPRS套餐客戶GPRS5元套餐客戶GPRS10元套餐客戶GPRS20元套餐客戶GPRS30元套餐客戶GPRS50元套餐客戶GPRS100元套餐客戶動(dòng)感10元半年包訂購(gòu)標(biāo)識(shí)用戶動(dòng)感10元年包訂購(gòu)標(biāo)識(shí)用戶動(dòng)感10元半年包即將到期用戶動(dòng)感10元年包即將到期用戶2023/2/515:29443.無(wú)線音樂(lè)業(yè)務(wù)偏好無(wú)線音樂(lè)特級(jí)會(huì)員客戶咪咕會(huì)員訂購(gòu)客戶振鈴開通客戶振鈴下載客戶振鈴活躍客戶振鈴沉默客戶振鈴連續(xù)三月訂購(gòu)客戶振鈴連續(xù)三月使用客戶振鈴連續(xù)三月沉默客戶彩鈴開通客戶彩鈴下載客戶彩鈴活躍客戶彩鈴沉默客戶彩鈴連續(xù)三月訂購(gòu)客戶彩鈴連續(xù)三月使用客戶彩鈴連續(xù)三月沉默客戶歌曲下載客戶歌曲下載沉默客戶歌曲下載活躍客戶歌曲下載訂購(gòu)客戶歌曲下載5元半年包訂購(gòu)標(biāo)識(shí)用戶歌曲下載10元半年包訂購(gòu)標(biāo)識(shí)用戶歌曲下載5元半年包即將到期用戶歌曲下載10元半年包即將到期用戶歌曲下載連續(xù)三月使用客戶歌曲下載連續(xù)三月沉默客戶歌曲下載連續(xù)三月訂購(gòu)客戶未使用自有無(wú)線音樂(lè)用戶使用競(jìng)品音樂(lè)1使用競(jìng)品音樂(lè)22023/2/515:2945將無(wú)線音樂(lè)業(yè)務(wù)偏好變量作為細(xì)分變量,在SPSS中使用kmeans模型將客戶群進(jìn)行細(xì)分細(xì)分結(jié)果描述通過(guò)用戶基礎(chǔ)信息及用戶套餐訂購(gòu)信息這些描述變量定位人群,進(jìn)一步分析人群特征。2023/2/515:2946細(xì)分結(jié)果應(yīng)用2023/2/515:2947西塔數(shù)據(jù)挖掘應(yīng)用實(shí)例2——客戶上網(wǎng)行為分類模型字段2023/2/515:2948在SPSS中使用決策樹(C5.0)模型,實(shí)現(xiàn)用戶上網(wǎng)業(yè)務(wù)類型分類具體操作步驟如下:1.使用特征選取節(jié)點(diǎn)(featureselection)選取重要度較高的字段作為分類變量2.使用C5.0模型,完成分類3.歸納出用戶使用各種業(yè)務(wù)的規(guī)則。如(女性&動(dòng)感地帶用戶&年齡‘30-40’傾向于支付類型的業(yè)務(wù))模型應(yīng)用:1.預(yù)測(cè)其他未知客戶的上網(wǎng)行為

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論