“1+X”(高級(jí))08-數(shù)據(jù)挖掘分析與業(yè)務(wù)預(yù)測(cè)_第1頁
“1+X”(高級(jí))08-數(shù)據(jù)挖掘分析與業(yè)務(wù)預(yù)測(cè)_第2頁
“1+X”(高級(jí))08-數(shù)據(jù)挖掘分析與業(yè)務(wù)預(yù)測(cè)_第3頁
“1+X”(高級(jí))08-數(shù)據(jù)挖掘分析與業(yè)務(wù)預(yù)測(cè)_第4頁
“1+X”(高級(jí))08-數(shù)據(jù)挖掘分析與業(yè)務(wù)預(yù)測(cè)_第5頁
已閱讀5頁,還剩78頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘分析與業(yè)務(wù)預(yù)測(cè)學(xué)習(xí)完本課程后,你將能夠:1.掌握數(shù)據(jù)挖掘的相關(guān)概念、相關(guān)知識(shí)2.掌握數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)的區(qū)別和聯(lián)系3.掌握數(shù)據(jù)挖掘常見方法及其常見業(yè)務(wù)應(yīng)用課程目標(biāo)課程目錄數(shù)據(jù)挖掘概述1.1什么是數(shù)據(jù)挖掘

1.2數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)2.數(shù)據(jù)挖掘相關(guān)方法及業(yè)務(wù)應(yīng)用數(shù)據(jù)挖掘(Datamining,簡(jiǎn)稱DM)是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。由于數(shù)據(jù)通常存于數(shù)據(jù)庫中,因此人們又稱之為“數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)”。數(shù)據(jù)挖掘是一個(gè)過程,而非單純的數(shù)學(xué)建模。數(shù)據(jù)挖掘是一個(gè)以數(shù)據(jù)為中心的循序漸進(jìn)的螺旋式的數(shù)據(jù)探索過程;數(shù)據(jù)挖掘是各種分析方法的集合,是多種數(shù)據(jù)分析、處理方法的配合應(yīng)用;數(shù)據(jù)挖掘的最終目的是輔助決策;當(dāng)前數(shù)據(jù)挖掘系統(tǒng)具有分析海量數(shù)據(jù)的能力。什么是數(shù)據(jù)挖掘大數(shù)據(jù)下的數(shù)據(jù)挖掘數(shù)據(jù)業(yè)務(wù)算法挖掘平臺(tái)大數(shù)據(jù)時(shí)代的數(shù)據(jù)特征決定了數(shù)據(jù)挖掘的變化云計(jì)算為數(shù)據(jù)挖掘提供了強(qiáng)大的處理能力大數(shù)據(jù)的應(yīng)用推動(dòng)了數(shù)據(jù)挖掘的發(fā)展新算法為數(shù)據(jù)挖掘帶來新的活力……數(shù)據(jù)挖掘功能用于指定數(shù)據(jù)挖掘任務(wù)中需找的模式類型。描述:挖掘的任務(wù)是描述目標(biāo)數(shù)據(jù)的特性,如特征描述、關(guān)聯(lián)分析、聚類、離群點(diǎn)等。預(yù)測(cè):根據(jù)當(dāng)前數(shù)據(jù)預(yù)測(cè)未來,如回歸和分類數(shù)據(jù)挖掘的功能根據(jù)數(shù)據(jù)存在方式,用于數(shù)據(jù)挖掘的數(shù)據(jù)可以是數(shù)據(jù)庫、數(shù)據(jù)倉庫、文本、多媒體數(shù)據(jù)源等等;由于企業(yè)數(shù)據(jù)倉庫系統(tǒng)就是面向數(shù)據(jù)統(tǒng)計(jì)、分析應(yīng)用的,因此數(shù)據(jù)挖掘一般依賴于企業(yè)數(shù)據(jù)倉庫系統(tǒng)的數(shù)據(jù)。從數(shù)據(jù)倉庫的角度看,數(shù)據(jù)挖掘可以看做是數(shù)據(jù)倉庫高階段的OLAP分析。數(shù)據(jù)倉庫應(yīng)用數(shù)據(jù)統(tǒng)計(jì)分析數(shù)據(jù)挖掘OLAP分析數(shù)據(jù)挖掘與數(shù)據(jù)倉庫數(shù)據(jù)挖掘技術(shù)的基本任務(wù)主要體現(xiàn)在關(guān)聯(lián)規(guī)則、分類與回歸、聚類、時(shí)序模式、偏差檢驗(yàn)等幾個(gè)方面。分類就是將數(shù)據(jù)映射到預(yù)先定義好的群組或類別;回歸則是用屬性的歷史數(shù)據(jù)預(yù)測(cè)未來趨勢(shì);聚類則是根據(jù)數(shù)據(jù)屬性的相似度給未分類的數(shù)據(jù)分類,使數(shù)據(jù)分類后類內(nèi)相似度大,類間差異大;關(guān)聯(lián)規(guī)則揭示數(shù)據(jù)間關(guān)系,但這種關(guān)系沒有在數(shù)據(jù)中直接體現(xiàn)出來,需從數(shù)據(jù)中利用數(shù)據(jù)挖掘找出來;時(shí)序模式描述基于時(shí)間序列或其他序列的經(jīng)常發(fā)生的規(guī)律或趨勢(shì);偏差檢驗(yàn),偏差是對(duì)差異和極端特例的表述,偏差檢驗(yàn)則是用來發(fā)現(xiàn)與正常情況不同的異常和變化。數(shù)據(jù)挖掘的應(yīng)用分類常見算法分類與回歸關(guān)聯(lián)規(guī)則時(shí)序模式偏差檢測(cè)聚類數(shù)據(jù)挖掘的一般過程需求分析數(shù)據(jù)預(yù)處理特征工程分析建模模型評(píng)估與應(yīng)用數(shù)據(jù)+工具+方法+目標(biāo)+行動(dòng)=價(jià)值業(yè)務(wù)場(chǎng)景案例:電信公司挖掘未來5G客戶:

通信世界的演化很快,幾乎10年就是一個(gè)時(shí)代,從上世紀(jì)90年代的2G,到2010年左右興起的4G。近代人類社會(huì)的演進(jìn)伴隨的就是通信技術(shù)的演進(jìn),從最開始的電報(bào),電話,到近代的移動(dòng)通信技術(shù),正是溝通便捷讓加快了歷史的進(jìn)程。但通信行業(yè)本身也很尷尬,這是一個(gè)基礎(chǔ)設(shè)施行業(yè),承擔(dān)著為應(yīng)用提供管道的角色。今天的移動(dòng)互聯(lián)網(wǎng)時(shí)代,哪些客戶是潛在的用戶呢?

5G特點(diǎn):高速率、大容量、低時(shí)延高可靠

企業(yè)現(xiàn)狀:客戶中有用戶已轉(zhuǎn)入5G,但還是很少的一部分,需要更多……

企業(yè)數(shù)據(jù):客戶信息、通話行為、上網(wǎng)信息、視頻日志信息……

……數(shù)據(jù)挖掘的一般過程需求分析數(shù)據(jù)預(yù)處理特征工程分析建模模型評(píng)估與應(yīng)用商業(yè)理解:首先確定目標(biāo),然后針對(duì)目標(biāo),抽象成可由數(shù)據(jù)挖掘解決的問題;關(guān)注任務(wù)可行性、任務(wù)目標(biāo)、任務(wù)評(píng)價(jià)標(biāo)準(zhǔn)、任務(wù)執(zhí)行條件等;數(shù)據(jù)準(zhǔn)備:收集數(shù)據(jù)、數(shù)據(jù)取樣數(shù)據(jù)探查:數(shù)據(jù)基本分析、統(tǒng)計(jì)分析、分布分析、相關(guān)性分析、周期性分析、對(duì)比分析算法規(guī)劃:采用什么分析方法、分析策略、挖掘算法數(shù)據(jù)挖掘的一般過程需求分析數(shù)據(jù)預(yù)處理特征工程分析建模模型評(píng)估與應(yīng)用數(shù)據(jù)清洗:缺失數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)、噪聲數(shù)據(jù)、冗余數(shù)據(jù)處理;數(shù)據(jù)集成:數(shù)據(jù)匯總等數(shù)據(jù)轉(zhuǎn)換:數(shù)據(jù)標(biāo)準(zhǔn)化、對(duì)數(shù)變換、正態(tài)轉(zhuǎn)換數(shù)據(jù)規(guī)約:屬性的約簡(jiǎn)(建模變量的篩選),數(shù)據(jù)的壓縮(如主成分分析)等數(shù)據(jù)挖掘的一般過程需求分析數(shù)據(jù)預(yù)處理特征工程分析建模模型評(píng)估與應(yīng)用特征產(chǎn)生:產(chǎn)生新的特征特征變換:減少特征相關(guān)性特征評(píng)估和選擇:選擇有代表性的特征、可分性能好的特征數(shù)據(jù)挖掘的一般過程需求分析數(shù)據(jù)預(yù)處理特征工程分析建模模型評(píng)估與應(yīng)用確定模型模型、算法確定模型訓(xùn)練數(shù)據(jù):模型訓(xùn)練數(shù)據(jù)、測(cè)試數(shù)據(jù)選取策略選取模型:確定訓(xùn)練模型模型訓(xùn)練:模型調(diào)參數(shù)據(jù)挖掘的一般過程需求分析數(shù)據(jù)預(yù)處理特征工程分析建模模型評(píng)估與應(yīng)用模型評(píng)估:分類模型評(píng)估、聚類模型評(píng)估、回歸模型評(píng)估等模型調(diào)優(yōu):模型性能優(yōu)化,從業(yè)務(wù)角度、算法角度、數(shù)據(jù)角度、運(yùn)行環(huán)境角度模型部署:在線、離線;A/B測(cè)試及灰度發(fā)布等模型應(yīng)用:生命周期、應(yīng)用中的評(píng)估、優(yōu)化等只要有數(shù)據(jù)的地方就有可能進(jìn)行數(shù)據(jù)挖掘,尤其是在云計(jì)算、互聯(lián)網(wǎng)、大數(shù)據(jù)技術(shù)發(fā)展的今天,海量數(shù)據(jù)被收集、處理、存儲(chǔ),為數(shù)據(jù)挖掘提供了可能。典型的數(shù)據(jù)挖掘應(yīng)用如下:商業(yè)智能(BusinessIntelligence,簡(jiǎn)稱:BI):通過數(shù)據(jù)挖掘指導(dǎo)企業(yè)運(yùn)營(yíng)、決策支持、數(shù)據(jù)價(jià)值化,是企業(yè)發(fā)展的重要力量。Web搜素引擎:這是海量數(shù)據(jù)實(shí)時(shí)應(yīng)用的處理過程,基于數(shù)據(jù)挖掘技術(shù),為用戶迅速返回所有搜尋的信息,基于此,數(shù)據(jù)的價(jià)值得到了最大體現(xiàn)。數(shù)據(jù)挖掘的應(yīng)用價(jià)值課程目錄數(shù)據(jù)挖掘概述

1.1什么是數(shù)據(jù)挖掘

1.2數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)2.數(shù)據(jù)挖掘相關(guān)方法及業(yè)務(wù)應(yīng)用什么是機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)是一種能夠賦予機(jī)器學(xué)習(xí)的能力以此讓它完成直接編程無法完成的功能的方法。機(jī)器學(xué)習(xí)致力于研究如何通過計(jì)算的手段,利用經(jīng)驗(yàn)來改善系統(tǒng)自身的性能。在實(shí)際應(yīng)用中,機(jī)器學(xué)習(xí)是一種通過利用數(shù)據(jù),訓(xùn)練出模型的方法。機(jī)器學(xué)習(xí)是針對(duì)某類任務(wù)T和性能度量P,如果一個(gè)計(jì)算機(jī)程序在T上以P衡量的性能隨經(jīng)驗(yàn)E而自我完善,那么我們稱這個(gè)計(jì)算機(jī)程序在從經(jīng)驗(yàn)E學(xué)習(xí)。機(jī)器學(xué)習(xí)的核心是使用算法解析數(shù)據(jù),從中學(xué)習(xí),然后對(duì)世界上的某件事情做出決定或預(yù)測(cè);機(jī)器學(xué)習(xí)研究的主要問題:回歸、分類和聚類;機(jī)器學(xué)習(xí)主要的學(xué)習(xí)方式:監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí);機(jī)器學(xué)習(xí)的應(yīng)用:數(shù)據(jù)挖掘、計(jì)算機(jī)視覺、自然語言處理、生物特征識(shí)別、語音、手寫識(shí)別等機(jī)器學(xué)習(xí)是人工智能的核心,同數(shù)據(jù)挖掘一樣也是一門多交叉學(xué)科。數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘受到很多學(xué)科領(lǐng)域的影響,其中影響最大的是數(shù)據(jù)庫、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)。即對(duì)數(shù)據(jù)挖掘而言,數(shù)據(jù)庫提供數(shù)據(jù)管理技術(shù),機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)提供數(shù)據(jù)分析技術(shù)。機(jī)器學(xué)習(xí)人工智能數(shù)據(jù)庫統(tǒng)計(jì)學(xué)數(shù)據(jù)挖掘深度學(xué)習(xí)數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘受到很多學(xué)科領(lǐng)域的影響,其中影響最大的是數(shù)據(jù)庫、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)。即對(duì)數(shù)據(jù)挖掘而言,數(shù)據(jù)庫提供數(shù)據(jù)管理技術(shù),機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)提供數(shù)據(jù)分析技術(shù)。數(shù)據(jù)挖掘是從現(xiàn)有的信息中提取數(shù)據(jù)的模式(pattern)和模型(model),數(shù)據(jù)挖掘相對(duì)于機(jī)器學(xué)習(xí)而言是一個(gè)更加偏向應(yīng)用;機(jī)器學(xué)習(xí)是自動(dòng)地從過往的經(jīng)驗(yàn)中學(xué)習(xí)新的知識(shí),是實(shí)現(xiàn)人工智能的方法,相對(duì)數(shù)據(jù)挖掘偏理論;統(tǒng)計(jì)學(xué)的技術(shù)常借助機(jī)器學(xué)習(xí)算法實(shí)現(xiàn);從數(shù)據(jù)分析的角度來看,絕大多數(shù)數(shù)據(jù)挖掘技術(shù)都來自機(jī)器學(xué)習(xí)領(lǐng)域。課程目錄什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘相關(guān)方法及業(yè)務(wù)應(yīng)用

2.1關(guān)聯(lián)規(guī)則分析2.2分類分析2.3聚類分析2.4回歸分析關(guān)聯(lián)規(guī)則知識(shí)回顧

概念說明:

項(xiàng)集X、Y無交集。滿足最小支持度的頻繁項(xiàng)集并不必然蘊(yùn)涵著因果關(guān)系或相關(guān)關(guān)系。頻繁項(xiàng)集的所有非空子集一定也是頻繁的。關(guān)聯(lián)規(guī)則滿足最小支持度、置信度、提升度等測(cè)度指標(biāo)才具有有效性、實(shí)用性。支持度與置信度案例茶和咖啡的案例某調(diào)研機(jī)構(gòu),調(diào)查統(tǒng)計(jì)了1000個(gè)用戶的喝茶及喝咖啡的情況,1000個(gè)調(diào)研對(duì)象中,喝茶的用戶有200人,喝咖啡的用戶有800人,喝茶且喝咖啡的用戶有150人,不喝茶也不喝咖啡的用戶有150人,基于此些數(shù)據(jù),查看{喝茶}->{喝咖啡}的支持度、置信度。喝咖啡(A)不喝咖啡(-A)合計(jì)喝茶(B)15050200不喝茶(-B)650150800合計(jì)8002001000支持度({喝茶}->{喝咖啡})=150/1000=15%;置信度({喝茶}->{喝咖啡})=150/200=75%;即一個(gè)人喝茶那么他75%可能喝咖啡關(guān)聯(lián)規(guī)則算法示例:Apriori主要關(guān)聯(lián)算法:Apriori關(guān)聯(lián)算法Apriori算法是最基本的一種關(guān)聯(lián)規(guī)則算法,它采用布爾關(guān)聯(lián)規(guī)則的挖掘頻繁項(xiàng)集的算法,利用逐層搜索的方法挖掘頻繁項(xiàng)集。核心思想:項(xiàng)集的反單調(diào)性:如果一個(gè)項(xiàng)集是非頻繁的,那么它的超集(superset)也一定是非頻繁的。所謂頻繁項(xiàng)集是指發(fā)生頻率超過最小支持度的項(xiàng)集。關(guān)聯(lián)規(guī)則算法示例:AprioriTID項(xiàng)目集01ACD02BCE03ABCE04BE項(xiàng)目集支持度A2B3C3D1E3項(xiàng)目集支持度B3C3E3項(xiàng)目集BCBECE項(xiàng)目集支持度BC2BE3CE2項(xiàng)目集支持度BE3第一次掃描D自連接并剪枝第二次掃描D1-候選項(xiàng)目集1-頻繁項(xiàng)目集2-候選項(xiàng)目集2-頻繁項(xiàng)目集事物數(shù)據(jù)庫D與最小支持度比較2-候選項(xiàng)目集與最小支持度比較關(guān)聯(lián)規(guī)則算法示例:Apriori步驟Apriori關(guān)聯(lián)算法計(jì)算步驟計(jì)算步驟12345首先描述數(shù)據(jù)庫,找出項(xiàng)數(shù)為1的頻繁項(xiàng)集(即頻繁的單項(xiàng)集),此時(shí)k=1從k頻繁項(xiàng)集中生成k+1候選頻繁項(xiàng)集掃描數(shù)據(jù)集,計(jì)算出每個(gè)候選頻繁項(xiàng)集的支持度根據(jù)最小支持度要求,從中篩選出k+1頻繁項(xiàng)集直到k+1達(dá)到用戶指定的最大項(xiàng)數(shù),或者k+1頻繁項(xiàng)集為空迭代進(jìn)行如果指定的最大項(xiàng)數(shù)為Kmax,則Apriori算法最多掃描數(shù)據(jù)集Kmax+1次參考并引用自《埃森哲大數(shù)據(jù)分析方法》關(guān)聯(lián)規(guī)則應(yīng)用-商業(yè)零售行業(yè)中的購物籃分析業(yè)務(wù)問題即挖掘目標(biāo):無論線上、線下零售行業(yè)都面臨同樣的問題:(目標(biāo)是獲取最大的銷售利潤(rùn))銷售什么商品采用什么促銷策略商品如何貨架擺放、如何打包(組合)銷售為客戶推薦哪些商品效果較好……分析思路:基于歷史銷售、購買數(shù)據(jù),找到顧客的購買習(xí)慣和偏好分析商品的銷售數(shù)據(jù),找到商品內(nèi)含規(guī)則、不同商品的銷售特征根據(jù)上述得出的結(jié)論,制定商品銷售策略模型算法采用Apriori關(guān)聯(lián)規(guī)則應(yīng)用-商業(yè)零售行業(yè)中的購物籃分析分析方法與分析過程:數(shù)據(jù)采集:獲取歷史銷售數(shù)據(jù)即客戶購買商品記錄信息數(shù)據(jù)預(yù)處理:數(shù)據(jù)清洗、轉(zhuǎn)換等,滿足數(shù)據(jù)分析處理的要求根據(jù)數(shù)據(jù)情況、業(yè)務(wù)經(jīng)驗(yàn)等預(yù)設(shè)支持度、置信度生成頻繁項(xiàng)目集(商品銷售組合)1)生成1-頻繁項(xiàng)集,去掉不滿足支持度的數(shù)據(jù)集2)生成2-頻繁項(xiàng)集,去掉不滿足支持度的數(shù)據(jù)集……n)生成n-頻繁項(xiàng)集,去掉不滿足支持度的數(shù)據(jù)集根據(jù)預(yù)設(shè)的置信度,生成強(qiáng)關(guān)聯(lián)規(guī)則依據(jù)關(guān)聯(lián)規(guī)則,制定業(yè)務(wù)策略關(guān)聯(lián)規(guī)則分析過程定義問題數(shù)據(jù)獲取數(shù)據(jù)預(yù)處理特征工程分析建模模型評(píng)估模型應(yīng)用數(shù)據(jù)挖掘定義問題即理解業(yè)務(wù),定義問題范圍,確定本次數(shù)據(jù)挖掘目標(biāo),確定數(shù)據(jù)挖掘的總體思路。這是機(jī)器學(xué)習(xí)任務(wù)數(shù)據(jù)處理的總體規(guī)劃:1)要解決的問題:商品銷售問題2)解決商品銷售問題能否解決企業(yè)面臨的業(yè)務(wù)問題:能3)此問題是預(yù)測(cè)還是關(guān)聯(lián)和模式:關(guān)聯(lián)4)采用(預(yù)計(jì))什么算法:Apriori關(guān)聯(lián)算法5)當(dāng)前能獲得哪些數(shù)據(jù):客戶歷史購買記錄數(shù)據(jù)6)能獲取的數(shù)據(jù)在哪,數(shù)據(jù)質(zhì)量如何,這些數(shù)據(jù)的業(yè)務(wù)邏輯是什么?這些數(shù)據(jù)能否代表企業(yè)的業(yè)務(wù)情況?7)預(yù)計(jì)數(shù)據(jù)挖掘所能達(dá)到的目標(biāo)是什么?參數(shù)范圍如何?8)……關(guān)聯(lián)規(guī)則分析規(guī)程定義問題數(shù)據(jù)獲取數(shù)據(jù)預(yù)處理特征工程分析建模模型評(píng)估模型應(yīng)用數(shù)據(jù)挖掘數(shù)據(jù)獲取即真正能獲取到哪些數(shù)據(jù)用于本次機(jī)器學(xué)習(xí)任務(wù),即數(shù)據(jù)理解的過程,了解數(shù)據(jù)分布情況,數(shù)據(jù)質(zhì)量如何,對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的分析。1)數(shù)據(jù)能否獲?。耗?)數(shù)據(jù)源在哪里:客戶購買商品記錄系統(tǒng)3)數(shù)據(jù)是什么數(shù)據(jù):銷售記錄數(shù)據(jù)、客戶登記信息4)數(shù)據(jù)分布情況如何:商品種類、數(shù)據(jù)量、數(shù)據(jù)時(shí)間范圍、數(shù)據(jù)涉及商品范圍等初級(jí)了解5)數(shù)據(jù)采用什么方式得到,效率如何6)根據(jù)獲取的數(shù)據(jù)真實(shí)情況,判定預(yù)先設(shè)定的參數(shù)置信度、支持度是否合理7)……關(guān)聯(lián)規(guī)則分析過程定義問題數(shù)據(jù)獲取數(shù)據(jù)預(yù)處理特征工程分析建模模型評(píng)估模型應(yīng)用數(shù)據(jù)挖掘數(shù)據(jù)預(yù)處理即對(duì)數(shù)據(jù)的清洗、轉(zhuǎn)換、規(guī)約、集成,目的是使數(shù)據(jù)能夠滿足挖掘模型的需要,去除干擾因素。1)空值、異常值處理,客戶銷售記錄中有沒有空值、異常值,根據(jù)數(shù)據(jù)情況、業(yè)務(wù)情況采取不同的處理策略;購物籃分析主要是客戶購買商品的數(shù)據(jù),商品信息不能為空;2)數(shù)據(jù)類型、數(shù)據(jù)格式等轉(zhuǎn)換,如商品銷售記錄中有的商品為漢字表示、有的用編號(hào),這就需要統(tǒng)一成一種。3)數(shù)據(jù)規(guī)約處理等4)……關(guān)聯(lián)規(guī)則分析過程定義問題數(shù)據(jù)獲取數(shù)據(jù)預(yù)處理特征工程分析建模模型評(píng)估模型應(yīng)用數(shù)據(jù)挖掘特征工程是創(chuàng)建新特征的過程,對(duì)于購物籃分析來講,只考慮購買的商品這一個(gè)屬性,簡(jiǎn)化處理,此步處理可省略。分析建模即模型訓(xùn)練過程,模型評(píng)估則是驗(yàn)證輸出的結(jié)果的在其他數(shù)據(jù)集上的效果如何,是否有代表性。模型評(píng)估1)數(shù)據(jù)合理拆分為訓(xùn)練集、測(cè)試集,使二者分布均衡2)模型訓(xùn)練,這是一個(gè)循環(huán)、反復(fù)的訓(xùn)練過程3)調(diào)整參數(shù)(置信度、支持度)訓(xùn)練4)模型驗(yàn)證測(cè)試,根據(jù)結(jié)果判定是否需再訓(xùn)練、測(cè)試5)整個(gè)數(shù)據(jù)挖掘過程是一個(gè)螺旋、往復(fù)過程關(guān)聯(lián)規(guī)則的應(yīng)用定義問題數(shù)據(jù)獲取數(shù)據(jù)預(yù)處理特征工程分析建模模型評(píng)估模型應(yīng)用數(shù)據(jù)挖掘模型應(yīng)用是企業(yè)進(jìn)行數(shù)據(jù)挖掘的目的,如本案例中的購物籃分析以及類似的相關(guān)分析,關(guān)聯(lián)規(guī)則分析還能應(yīng)用于其他領(lǐng)域,覆蓋從數(shù)據(jù)預(yù)處理和數(shù)據(jù)分類、到聚類和復(fù)雜數(shù)據(jù)的分析。1)關(guān)聯(lián)規(guī)則(頻繁模式)挖掘是發(fā)現(xiàn)頻繁出現(xiàn)且具有某些性質(zhì)的模式,此模式有別于其他模式(項(xiàng)集、子序列、子結(jié)構(gòu)或某些值)2)模式挖掘作為數(shù)據(jù)預(yù)處理,用于清除噪聲數(shù)據(jù)3)發(fā)現(xiàn)數(shù)據(jù)中隱含的關(guān)系(時(shí)間空間數(shù)據(jù)、多媒體數(shù)據(jù)、時(shí)間序列數(shù)據(jù)等),如Web索引搜索等;4)關(guān)聯(lián)規(guī)則應(yīng)用于推薦系統(tǒng)關(guān)聯(lián)規(guī)則的應(yīng)用定義問題數(shù)據(jù)獲取數(shù)據(jù)預(yù)處理特征工程分析建模模型評(píng)估模型應(yīng)用數(shù)據(jù)挖掘常見應(yīng)用場(chǎng)景:

1)商業(yè)銷售上,通過交叉銷售獲取更多的銷售利潤(rùn);

2)保險(xiǎn)方面,通過關(guān)聯(lián)分析歷史索賠要求與騙保行為,找到規(guī)則預(yù)防保險(xiǎn)欺詐;

3)銀行方面,通過分析顧客消費(fèi)行為,進(jìn)行產(chǎn)品推薦,制定產(chǎn)品銷售策略4)制造業(yè),通過歷史數(shù)據(jù),分析設(shè)備與故障的關(guān)聯(lián)性,預(yù)先制定維護(hù)、替代策略,節(jié)約成本、減少損失5)醫(yī)療行業(yè),通過病人和藥物屬性與結(jié)果進(jìn)行關(guān)聯(lián)分析,提高治病效率,分析某些癥狀與癌癥的關(guān)聯(lián)分析,提前預(yù)警,早發(fā)現(xiàn)、早治療,提高治愈率課程目錄數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘相關(guān)方法及業(yè)務(wù)應(yīng)用2.1關(guān)聯(lián)規(guī)則分析

2.2分類分析2.3聚類分析2.4回歸分析分類知識(shí)概述回顧分類的主要目的是通過分析輸入數(shù)據(jù),利用部分?jǐn)?shù)據(jù)構(gòu)造一個(gè)分類函數(shù)或者分類模型(分類器),利用該模型將數(shù)據(jù)庫中的其他數(shù)據(jù)項(xiàng)映射到某一給定類別中。NAMERANKYEARSTENUREDMikeAssistantProf3noMaryAssistantProf7yesBillProfessor2yesJimAssociateProf7yesDaveAssistantProf6noAnneAssociateProf3noNAMERANKYEARSTENUREDTomAssistantProf2noMerlisaAssociateProf7noGeorgeProfessor5yesJosephAssistantProf7yes訓(xùn)練集測(cè)試集分類規(guī)則IFrank=‘professor’ORyears>6THENtenured=‘yes’JefisYES!NAMERANKYEARSTENUREDJefProfessor4?分類算法分類算法分類算法通過對(duì)已知類別訓(xùn)練集的分析,從中發(fā)現(xiàn)分類規(guī)則,以此預(yù)測(cè)新數(shù)據(jù)的類別。分類算法應(yīng)用非常廣泛,銀行風(fēng)險(xiǎn)評(píng)估、客戶類別區(qū)分、文本檢索和搜索引擎分類、安全領(lǐng)域中的入侵檢測(cè)以及軟件項(xiàng)目中的應(yīng)用等。按原理分類:

基于統(tǒng)計(jì)的:如貝葉斯分類

基于規(guī)則的:如決策樹算法

基于神經(jīng)網(wǎng)絡(luò):神經(jīng)網(wǎng)絡(luò)算法

基于距離的:KNN(K近鄰)分類算法-KNNKNN(K-NearestNeighbor)可以說是最簡(jiǎn)單的分類算法之一,是有監(jiān)督學(xué)習(xí)中的分類算法,核心思想是,如果一個(gè)樣本在特征空間中的K個(gè)最相鄰的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別,并具有這個(gè)類別上樣本的特性。KNN不但能預(yù)測(cè)分類,也可以做回歸分析。分類算法-KNN基本要素K近鄰算法使用的模型實(shí)際上對(duì)應(yīng)于對(duì)特征空間的劃分。K近鄰算法有三個(gè)基本要素:K值選擇距離度量分類決策規(guī)則當(dāng)訓(xùn)練集、距離度量、k值以及分類決策規(guī)則確定后,對(duì)于任何一個(gè)新的輸入實(shí)例,它所屬的類唯一地確定。這相當(dāng)于根據(jù)上述要素將特征空間劃分為一些子空間,確定子空間里的每個(gè)點(diǎn)所屬的類。分類分析中的常見距離幾種常見的距離連續(xù)型變量距離離散型變量距離歐氏距離曼哈頓距離切比雪夫距離閔可夫斯基距離標(biāo)準(zhǔn)化歐氏距離馬氏距離卡方距離Phi距離二值變量距離Jaccard系數(shù)分類算法-常見距離計(jì)算公式分類分析應(yīng)用案例-客戶流失預(yù)警隨著市場(chǎng)競(jìng)爭(zhēng)的日益加劇,客戶資源成為企業(yè)競(jìng)爭(zhēng)挽留的焦點(diǎn),在我國(guó)電信行業(yè),市場(chǎng)基本趨于飽和,發(fā)展新客戶成本已越來越高,如何維護(hù)忠誠(chéng)客戶,防止客戶流失,及時(shí)為企業(yè)管理者預(yù)警客戶流失情況成為了個(gè)電信企業(yè)研究的重點(diǎn)。?挖掘目標(biāo):減少客戶流失分析思路:基于以往流失客戶數(shù)據(jù),挖掘分析,找出隱含的規(guī)律即構(gòu)建流失模型將模型運(yùn)用于當(dāng)前在網(wǎng)客戶,提前預(yù)知離網(wǎng)傾向,及時(shí)預(yù)警針對(duì)高概率流失客戶提前挽留,設(shè)置針對(duì)性的營(yíng)銷服務(wù)策略,滿足客戶訴求根據(jù)數(shù)據(jù)源情況,采用數(shù)據(jù)挖掘KNN分類算法分類分析應(yīng)用案例-客戶流失預(yù)警分析方法與分析過程:數(shù)據(jù)準(zhǔn)備:數(shù)據(jù)源分析、對(duì)數(shù)據(jù)進(jìn)行探索性分析數(shù)據(jù)源獲取,獲取離網(wǎng)客戶數(shù)據(jù)(基礎(chǔ)信息、產(chǎn)品訂購信息、產(chǎn)品使用信息、客服信息數(shù)據(jù)等)數(shù)據(jù)預(yù)處理:數(shù)據(jù)選擇、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)整合、數(shù)據(jù)規(guī)范化KNN分類模型構(gòu)建模型評(píng)估、模型發(fā)布依據(jù)流失模型,預(yù)測(cè)客戶流失傾向分類分析應(yīng)用案例-數(shù)據(jù)說明數(shù)據(jù)選擇:

客戶信息:年齡、性別、住址、職業(yè)、在網(wǎng)時(shí)間、入網(wǎng)品牌、注冊(cè)服務(wù)、客戶會(huì)員等級(jí)等行為數(shù)據(jù):用戶通話包括通話時(shí)間、地點(diǎn)、費(fèi)用、對(duì)端號(hào)碼、漫游類型等;客戶服務(wù)渠道的有關(guān)繳費(fèi)、服務(wù)投訴的情況信息、用戶使用網(wǎng)絡(luò)情況、流量使用情況、上網(wǎng)情況等

其他:網(wǎng)絡(luò)質(zhì)量、通話接通率、上網(wǎng)速率等分類分析過程定義問題數(shù)據(jù)獲取數(shù)據(jù)預(yù)處理特征工程分析建模模型評(píng)估模型應(yīng)用數(shù)據(jù)挖掘分類分析的前提理解業(yè)務(wù)、數(shù)據(jù)獲取預(yù)規(guī)則分析類似,但分類分析明顯一個(gè)環(huán)節(jié)數(shù)據(jù)有標(biāo)簽,即分析數(shù)據(jù)已知了類別:1)要解決的問題:預(yù)判離網(wǎng)客戶,提前挽留2)通過預(yù)判客戶離網(wǎng)傾向進(jìn)行挽留,能否避免一部分客戶流失:能3)此問題是預(yù)測(cè)還是關(guān)聯(lián)和模式:預(yù)測(cè)(分類預(yù)測(cè))4)采用(預(yù)計(jì))什么算法:KNN算法5)當(dāng)前能獲得哪些數(shù)據(jù):客戶歷史離網(wǎng)數(shù)據(jù)6)能獲取的數(shù)據(jù)在哪,數(shù)據(jù)質(zhì)量如何,這些數(shù)據(jù)的業(yè)務(wù)邏輯是什么?這些數(shù)據(jù)能否代表企業(yè)的業(yè)務(wù)情況?7)預(yù)計(jì)數(shù)據(jù)挖掘所能達(dá)到的目標(biāo)是什么?參數(shù)范圍如何?8)……分類分析過程定義問題數(shù)據(jù)獲取數(shù)據(jù)預(yù)處理特征工程分析建模模型評(píng)估模型應(yīng)用數(shù)據(jù)挖掘分類分析的數(shù)據(jù)預(yù)處理和特征工程:1)數(shù)據(jù)清理,清理無效數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)等2)異常值、空值處理;3)數(shù)據(jù)特征的關(guān)聯(lián)分析,關(guān)聯(lián)分析可以采用規(guī)則規(guī)則分析,如客戶信息一般分為自然屬性、社會(huì)屬性、行為屬性,不同類別的數(shù)據(jù)對(duì)于結(jié)果影響情況分析4)特征工程,離網(wǎng)案例中典型的離網(wǎng)客戶月Arpu數(shù)值(簡(jiǎn)單理解為月話費(fèi))逐月下降,基于此信息,構(gòu)建新的特征,如Arpu變動(dòng)率;同理適用客戶使用業(yè)務(wù)的時(shí)長(zhǎng)變化情況;5)……分類分析過程定義問題數(shù)據(jù)獲取數(shù)據(jù)預(yù)處理特征工程分析建模模型評(píng)估模型應(yīng)用數(shù)據(jù)挖掘分類分析的建模與評(píng)估:1)數(shù)據(jù)挖掘通過模型計(jì)算分類,最關(guān)注的是分類結(jié)果的準(zhǔn)確率;2)分類結(jié)果的評(píng)估常用方法的有效性也是模型的重要環(huán)節(jié),常見分類評(píng)估方法hold_out、K折交叉驗(yàn)證等;3)模型應(yīng)用中的實(shí)際效果是模型評(píng)估的延續(xù)4)采用多種分類算法進(jìn)行比較、評(píng)估5)不同業(yè)務(wù)、不同數(shù)據(jù)分類算法效果不同,許多算法準(zhǔn)確性類似,但計(jì)算量\訓(xùn)練時(shí)間明顯不同分類分析的應(yīng)用定義問題數(shù)據(jù)獲取數(shù)據(jù)預(yù)處理特征工程分析建模模型評(píng)估模型應(yīng)用數(shù)據(jù)挖掘模型應(yīng)用是企業(yè)進(jìn)行數(shù)據(jù)挖掘的目的,如本案例中的分類分析在挖掘過程中可能采用多種算法,是綜合處理的結(jié)果。1)分析分析的應(yīng)用最直觀的是基于對(duì)象的分類,如客戶分群(二分類、多分類)、商品分類2)基于區(qū)域(圖像)的場(chǎng)景分類,如安全、消防、醫(yī)療等場(chǎng)景3)基于上下文的場(chǎng)景分類,如新聞、視頻分類分類分析的應(yīng)用定義問題數(shù)據(jù)獲取數(shù)據(jù)預(yù)處理特征工程分析建模模型評(píng)估模型應(yīng)用數(shù)據(jù)挖掘模型應(yīng)用是企業(yè)進(jìn)行數(shù)據(jù)挖掘的目的,如本案例中的分類分析在挖掘過程中可能采用多種算法,是綜合處理的結(jié)果。常見應(yīng)用場(chǎng)景商品優(yōu)惠券使用預(yù)測(cè)出行選乘公交預(yù)測(cè)微生物種類判別基于運(yùn)營(yíng)商數(shù)據(jù)的個(gè)人征信評(píng)估商品圖片分類基于文本內(nèi)容的垃圾短信識(shí)別網(wǎng)絡(luò)借貸平臺(tái)的經(jīng)營(yíng)風(fēng)險(xiǎn)量化分析電網(wǎng)客戶用電異常行為分析……課程目錄數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘相關(guān)方法及業(yè)務(wù)應(yīng)用2.1關(guān)聯(lián)規(guī)則分析2.2分類分析

2.3聚類分析2.4回歸分析聚類分析知識(shí)回顧聚類(clustering)分析是將一組對(duì)象劃分成簇(cluster),使簇內(nèi)對(duì)象相似性盡量大,而簇間對(duì)象相似性盡量小。聚類分類VS1212無導(dǎo)師學(xué)習(xí)方式—需要解決將若干無標(biāo)記對(duì)象進(jìn)行劃分的問題,使之成為有意義的聚類。聚類數(shù)目未知—需要以某種距離度量為基礎(chǔ),將所有對(duì)象進(jìn)行分類,使得同一聚類之間距離最小,不同聚類之間距離最大。有導(dǎo)師學(xué)習(xí)方式—利用已經(jīng)過標(biāo)記的對(duì)象進(jìn)行學(xué)習(xí)(訓(xùn)練)、構(gòu)造模型,然后用其對(duì)新對(duì)象進(jìn)行標(biāo)記。分類數(shù)目已知—對(duì)每個(gè)新對(duì)象標(biāo)記為目標(biāo)數(shù)據(jù)庫中已存在的類別。聚類算法分類12345劃分法(partitioningmethods):給定一個(gè)由n個(gè)元組或記錄組成的數(shù)據(jù)集,劃分法將構(gòu)造k個(gè)分組,每個(gè)分組代表一個(gè)聚類,k<=n。K個(gè)分組滿足下列條件:1、每個(gè)分組至少包含一個(gè)對(duì)象,2、每個(gè)數(shù)據(jù)記錄屬于且僅屬于一個(gè)分組。算法:k-means、k-medois、CLARANS。層次法(hierarchicalmethods):對(duì)給定的數(shù)據(jù)集進(jìn)行層次分解,直到滿足某種條件位置。具體可分為“自底向上”的凝聚法和”自頂向下“的分裂法兩種法案。代表算法:BIRCH、CURE、CHAMELEON。密度法(density-basedmethods):不是基于距離,而是基于密度。能克服基于距離的算法只能發(fā)現(xiàn)“類圓形”聚類的缺點(diǎn)。代表算法:DBSCAN、OPTICS。網(wǎng)格方法(grid-basedmethods):首先將數(shù)據(jù)空間劃分成有限個(gè)單元的網(wǎng)格結(jié)構(gòu),所有的處理都以單元為對(duì)象。優(yōu)點(diǎn)處理速度很快。代表算法:STING、CLIQUE、Wave-Cluster模型方法(model-basedmethods):給每個(gè)聚類假定一個(gè)模型,然后去尋找數(shù)據(jù)對(duì)給定模型進(jìn)行最佳擬合。給定模型可能是數(shù)據(jù)點(diǎn)在空間中的密度分布函數(shù)或其他。聚類分析常見的五大類算法:劃分法、層次法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法。重點(diǎn)介紹劃分法中的k-means。聚類分析方法-

K-MeansK均值(K-Means)聚類法指定聚類數(shù)目K確定K個(gè)數(shù)據(jù)中心,每個(gè)點(diǎn)分到距離最近的類中,重新計(jì)算K個(gè)類的中心,然后要么結(jié)束,要么重算所有點(diǎn)到新中心的距離聚類。其結(jié)束準(zhǔn)則包括迭代次數(shù)超過指定或者新的中心點(diǎn)距離上一次中心點(diǎn)的偏移量小于指定值。第一步第二步第三步第四步設(shè)定K值,即確定聚類數(shù);確定各類中心;計(jì)算每個(gè)記錄到類中心的距離,并將該記錄歸到最近的類中;然后重新計(jì)算K類的中心點(diǎn),更新原類族的中心;重復(fù)第二、三步,迭代到收斂標(biāo)準(zhǔn)停止。聚類分析方法-K-MeansK均值聚類法指定聚類數(shù)目K確定K個(gè)數(shù)據(jù)中心,每個(gè)點(diǎn)分到距離最近的類中,重新計(jì)算K個(gè)類的中心,然后要么結(jié)束,要么重算所有點(diǎn)到新中心的距離聚類。其結(jié)束準(zhǔn)則包括迭代次數(shù)超過指定或者新的中心點(diǎn)距離上一次中心點(diǎn)的偏移量小于指定值。第一步設(shè)定K值,即確定聚類數(shù);確定各類中心;第一步,確定聚類個(gè)數(shù)、確定聚類中心、確定距離計(jì)算公式:觀察法枚舉法其他技術(shù)手段聚類分析方法-K-MeansK均值聚類法指定聚類數(shù)目K確定K個(gè)數(shù)據(jù)中心,每個(gè)點(diǎn)分到距離最近的類中,重新計(jì)算K個(gè)類的中心,然后要么結(jié)束,要么重算所有點(diǎn)到新中心的距離聚類。其結(jié)束準(zhǔn)則包括迭代次數(shù)超過指定或者新的中心點(diǎn)距離上一次中心點(diǎn)的偏移量小于指定值。第一步設(shè)定K值,即確定聚類數(shù);確定各類中心;第一步,確定聚類個(gè)數(shù)、確定聚類中心、確定距離計(jì)算公式:觀察法枚舉法其他技術(shù)手段聚類分析方法-K-MeansK均值聚類法指定聚類數(shù)目K確定K個(gè)數(shù)據(jù)中心,每個(gè)點(diǎn)分到距離最近的類中,重新計(jì)算K個(gè)類的中心,然后要么結(jié)束,要么重算所有點(diǎn)到新中心的距離聚類。其結(jié)束準(zhǔn)則包括迭代次數(shù)超過指定或者新的中心點(diǎn)距離上一次中心點(diǎn)的偏移量小于指定值。第二步計(jì)算每個(gè)記錄到類中心的距離,并將該記錄歸到最近的類中;第二步,計(jì)算每個(gè)點(diǎn)到中心的距離,歸類聚類分析方法-K-MeansK均值聚類法指定聚類數(shù)目K確定K個(gè)數(shù)據(jù)中心,每個(gè)點(diǎn)分到距離最近的類中,重新計(jì)算K個(gè)類的中心,然后要么結(jié)束,要么重算所有點(diǎn)到新中心的距離聚類。其結(jié)束準(zhǔn)則包括迭代次數(shù)超過指定或者新的中心點(diǎn)距離上一次中心點(diǎn)的偏移量小于指定值。第三步然后重新計(jì)算K類的中心點(diǎn),更新原類族的中心;第三步,計(jì)算每個(gè)點(diǎn)到中心的距離,歸類聚類分析方法-K-MeansK均值聚類法指定聚類數(shù)目K確定K個(gè)數(shù)據(jù)中心,每個(gè)點(diǎn)分到距離最近的類中,重新計(jì)算K個(gè)類的中心,然后要么結(jié)束,要么重算所有點(diǎn)到新中心的距離聚類。其結(jié)束準(zhǔn)則包括迭代次數(shù)超過指定或者新的中心點(diǎn)距離上一次中心點(diǎn)的偏移量小于指定值。第四步重復(fù)第二、三步,迭代到收斂標(biāo)準(zhǔn)停止。重復(fù)第二步,將各樣本點(diǎn)重新歸類劃分;重復(fù)第三步,根據(jù)新分類重新計(jì)算類中心;直到聚類中心不發(fā)生變化(達(dá)到收斂標(biāo)準(zhǔn))或循環(huán)次數(shù)到達(dá)設(shè)置數(shù)值,迭代停止聚類分析的應(yīng)用案例-客戶分群國(guó)內(nèi)電信市場(chǎng)競(jìng)爭(zhēng)激勵(lì),面對(duì)客戶的多樣化、層次化、個(gè)性化的需求,大眾化營(yíng)銷已無其優(yōu)勢(shì)。基于客戶基本信息數(shù)據(jù)、客戶行為數(shù)據(jù)做深入分析、挖掘,找到其隱含規(guī)律,以減少營(yíng)銷成本、提高營(yíng)銷效益,通過客戶分群做精準(zhǔn)、智能營(yíng)銷。挖掘目標(biāo):獲取更多客戶減少客戶流失降低運(yùn)營(yíng)成本、降低服務(wù)成本、提高收入、提高運(yùn)營(yíng)效率增加ARPU值優(yōu)化服務(wù)協(xié)助制定精準(zhǔn)市場(chǎng)策略……聚類分析的應(yīng)用案例-客戶分群分析思路:

通過細(xì)分市場(chǎng)、差異化營(yíng)銷解決問題

基于客戶價(jià)值、客戶消費(fèi)行為數(shù)據(jù)對(duì)客戶分群,對(duì)客戶分級(jí)、分類管理,進(jìn)行差異化營(yíng)銷

結(jié)合不同部門的業(yè)務(wù)需求確定人群特征采用K均值建模分析方法與分析過程:數(shù)據(jù)準(zhǔn)備:數(shù)據(jù)源分析、對(duì)數(shù)據(jù)進(jìn)行探索性分析數(shù)據(jù)源獲取數(shù)據(jù)預(yù)處理:數(shù)據(jù)選擇、數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)整合、數(shù)據(jù)規(guī)范化聚類建模建立模型評(píng)估、發(fā)布依據(jù)分群、制定精準(zhǔn)市場(chǎng)策略、后續(xù)市場(chǎng)策略效果檢驗(yàn)聚類分析過程定義問題數(shù)據(jù)獲取數(shù)據(jù)預(yù)處理特征工程分析建模模型評(píng)估模型應(yīng)用數(shù)據(jù)挖掘聚類分析與分類分析的最大區(qū)別是數(shù)據(jù)挖掘的數(shù)據(jù)源有無明確的標(biāo)簽,即數(shù)據(jù)中是否已存在類別的標(biāo)志:1)要解決的問題:客戶分群,以此細(xì)分市場(chǎng),千人千面,不同人群不同營(yíng)銷策略;2)客戶分群是細(xì)分市場(chǎng)、指定不同策略的基礎(chǔ),進(jìn)而解決當(dāng)前的業(yè)務(wù)問題;3)此問題是預(yù)測(cè)還是關(guān)聯(lián)和模式:模式(聚類預(yù)測(cè))4)采用(預(yù)計(jì))什么算法:

基于劃分的K均值算法5)當(dāng)前能獲得哪些數(shù)據(jù):客戶相關(guān)業(yè)務(wù)數(shù)據(jù)6)能獲取的數(shù)據(jù)在哪,數(shù)據(jù)質(zhì)量如何,這些數(shù)據(jù)的業(yè)務(wù)邏輯是什么?這些數(shù)據(jù)能否代表企業(yè)的業(yè)務(wù)情況?7)預(yù)計(jì)數(shù)據(jù)挖掘所能達(dá)到的目標(biāo)是什么?參數(shù)范圍如何?聚類分析過程定義問題數(shù)據(jù)獲取數(shù)據(jù)預(yù)處理特征工程分析建模模型評(píng)估模型應(yīng)用數(shù)據(jù)挖掘聚類分析算法依然對(duì)數(shù)據(jù)有所要求,數(shù)據(jù)獲取量、數(shù)據(jù)異常值、數(shù)據(jù)特征都需結(jié)合業(yè)務(wù)情況進(jìn)行必要的加工處理:1)聚類分析數(shù)據(jù)量不宜過大,過大影響性能;2)找到代表客戶不同群的標(biāo)志屬性特征,即客戶分群的依賴數(shù)據(jù)特征與業(yè)務(wù)相關(guān),如根據(jù)客戶的性別、年齡聚類,是否跟客戶的購物習(xí)慣一直;3)相關(guān)性特征的處理,相關(guān)性變量的處理,否則重復(fù)計(jì)算相關(guān)特征,夸大其聚類影響;4)聚類結(jié)果符合業(yè)務(wù)邏輯、符合商業(yè)邏輯,即用業(yè)務(wù)解釋結(jié)果聚類分析過程定義問題數(shù)據(jù)獲取數(shù)據(jù)預(yù)處理特征工程分析建模模型評(píng)估模型應(yīng)用數(shù)據(jù)挖掘案例數(shù)據(jù):

從本地企業(yè)數(shù)據(jù)倉庫中提取數(shù)據(jù)客戶基本信息數(shù)據(jù)

:年齡、性別、入網(wǎng)時(shí)間、狀態(tài)、VIP等級(jí)、客戶類型等用戶賬務(wù)信息數(shù)據(jù):賬戶、繳費(fèi)方式、繳費(fèi)記錄等詳單記錄,包括語音、短信、GPRS流量、夢(mèng)網(wǎng)業(yè)務(wù)等客服信息數(shù)據(jù)移動(dòng)商城應(yīng)用數(shù)據(jù)……聚類分析的應(yīng)用聚類分析模型可以能夠作為一個(gè)獨(dú)立的工具獲得數(shù)據(jù)的分布狀況,觀察每一簇?cái)?shù)據(jù)的特征,集中對(duì)特定的聚簇集合作進(jìn)一步地分析。聚類分析還可以作為其他算法(如分類和定性歸納算法)的預(yù)處理步驟。常見場(chǎng)景:

不同行業(yè)的客戶分群

不同行業(yè)的產(chǎn)品、分析對(duì)象的分類、價(jià)值組合

探測(cè)、發(fā)現(xiàn)孤立點(diǎn)、異常值

與其他分析模型結(jié)合,作為預(yù)處理手段或其他處理依據(jù)定義問題數(shù)據(jù)獲取數(shù)據(jù)預(yù)處理特征工程分析建模模型評(píng)估模型應(yīng)用數(shù)據(jù)挖掘聚類分析的應(yīng)用聚類分析模型的行業(yè)應(yīng)用。在商業(yè)上,聚類分析是細(xì)分市場(chǎng)的有效工具,被用來發(fā)現(xiàn)不同的客戶群,并且它通過對(duì)不同的客戶群的特征的刻畫,被用于研究消費(fèi)者行為,尋找新的潛在市場(chǎng)。在生物上,聚類分析被用來對(duì)動(dòng)植物和基因進(jìn)行分類,以獲取對(duì)種群固有結(jié)構(gòu)的認(rèn)識(shí)。在保險(xiǎn)行業(yè)上,聚類分析可以通過平均消費(fèi)來鑒定汽車保險(xiǎn)單持有者的分組,同時(shí)可以根據(jù)住宅類型、價(jià)值、地理位置來鑒定城市的房產(chǎn)分組。在互聯(lián)網(wǎng)應(yīng)用上,聚類分析被用來在網(wǎng)上進(jìn)行文檔歸類。在電子商務(wù)上,聚類分析通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,從而幫助電子商務(wù)企業(yè)了解自己的客戶,向客戶提供更合適的服務(wù)。定義問題數(shù)據(jù)獲取數(shù)據(jù)預(yù)處理特征工程分析建模模型評(píng)估模型應(yīng)用數(shù)據(jù)挖掘課程目錄數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘相關(guān)方法及業(yè)務(wù)應(yīng)用2.1關(guān)聯(lián)規(guī)則分析2.2分類分析2.3聚類分析

2.4回歸分析線性回歸知識(shí)回顧回歸即用屬性的歷史數(shù)據(jù)預(yù)測(cè)未來趨勢(shì),線性回歸(LinearRegression)是在回歸分析中,如果自變量和因變量之間存在著線性關(guān)系,則被稱作線性回歸。如果只有一個(gè)因變量一個(gè)自變量,則被稱作一元線性回歸,如果有一個(gè)因變量多個(gè)自變量,則被稱作多元回歸。回歸分析分類回歸分析的分類:根據(jù)研究自變量的數(shù)量,可以把回歸分析分為一元回歸分析和多元回歸分析。如果只有一個(gè)自變量,稱為一元回歸分析,如果研究的是兩個(gè)或兩個(gè)以上的自變量,則稱為多元回歸分析。根據(jù)自變量和因變量之間的關(guān)系類型,可以將回歸分析分為線性回歸分析和非線性回歸分析?;貧w模型也相應(yīng)地分為線性回歸模型和非線性回歸模型。其中,線性回歸指的是自變量和因變量之間存在線性的關(guān)系,這種關(guān)系可以用一條直線來表示;非線性回歸則用于非直線關(guān)系的研究和表示,比如正弦函數(shù)等?;貧w分析按自變量個(gè)數(shù)分類按方程式特征分類一元回歸(簡(jiǎn)單回歸)多元回歸(復(fù)回歸)線性回歸非線性回歸回歸模型的一般形式回歸模型的一般形式為:

確定性關(guān)系隨機(jī)誤差(擾動(dòng)項(xiàng))影響因素缺失觀測(cè)/測(cè)量誤差其他隨機(jī)誤差

幾個(gè)基本假設(shè)

一元線性回歸模型在研究某一現(xiàn)象時(shí),主要關(guān)心與影響該現(xiàn)象最主要因素關(guān)系時(shí),兩者有密切關(guān)系,但并非一個(gè)變量唯一確定另一個(gè)變量,可以使用一元線性回歸模型。

被解釋變量因變量解釋變量自變量回歸常數(shù)回歸系數(shù)隨機(jī)誤差

多元線性回歸模型

其表達(dá)式為:

多元線性回歸模型e表示去除m個(gè)自變量對(duì)Y影響后的隨機(jī)誤差。模型參數(shù)估計(jì)常用方法-最小二乘法

離差平方和:

模型檢驗(yàn)回歸模型檢驗(yàn)即參數(shù)確定后得到模型,對(duì)模型進(jìn)行統(tǒng)計(jì)意義上的檢驗(yàn),包括對(duì)回歸方程的顯著性檢驗(yàn)、回歸系數(shù)的顯著性檢驗(yàn)、擬合優(yōu)度檢驗(yàn)、異方差檢驗(yàn)、多重共線性檢驗(yàn)等。還需要結(jié)合實(shí)際場(chǎng)景,判斷該模型是否具有實(shí)際意義。顯著性檢驗(yàn)(Significanc

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論