第2章數(shù)據(jù)挖掘建模方法_第1頁
第2章數(shù)據(jù)挖掘建模方法_第2頁
第2章數(shù)據(jù)挖掘建模方法_第3頁
第2章數(shù)據(jù)挖掘建模方法_第4頁
第2章數(shù)據(jù)挖掘建模方法_第5頁
已閱讀5頁,還剩23頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

商務(wù)數(shù)據(jù)挖掘與應(yīng)用案例分析第2章數(shù)據(jù)挖掘建模方法

2.1概述>>

2.2業(yè)務(wù)理解>>

2.3數(shù)據(jù)理解>>2.4數(shù)據(jù)準備>>

2.5建模>>2.6評估>>2.7部署>>

2.1概述(1)成功的數(shù)據(jù)挖掘是讓數(shù)據(jù)有商業(yè)價值,數(shù)據(jù)挖掘分析師需要知道什么對商業(yè)有價值,并且知道為了獲得巨大收益如何整理數(shù)據(jù)。為了成功運用數(shù)據(jù)挖掘,對數(shù)據(jù)挖掘技術(shù)層面的理解至關(guān)重要,尤其是應(yīng)該了解如何將數(shù)據(jù)變成有用信息的過程。本章主要介紹跨行業(yè)標準流程CRISP-DM(cross-industrystandardprocessfordatamining)。該模型將一個數(shù)據(jù)挖掘項目的生命周期分為業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準備、建模、評估和部署等6個階段,這個流程為我們提供了一個數(shù)據(jù)挖掘所需步驟的完整概括。2.1概述(2)業(yè)務(wù)理解(BusinessUnderstanding)數(shù)據(jù)理解(DataUnderstanding)數(shù)據(jù)準備(DataPreparation)建模(Modeling)評估(Evaluation)部署(Deployment)商業(yè)數(shù)據(jù)挖掘案例某一家銀行存在一個業(yè)務(wù)難題,他們的特別商業(yè)產(chǎn)品——家庭抵押貸款額度,不能吸引好的客戶,家庭抵押貸款業(yè)務(wù)量低。為此,美國消費者資產(chǎn)協(xié)會決定與Hyperparallel公司合作,采取數(shù)據(jù)挖掘方法來解決這個問題。根據(jù)CRISP-DM建模體系,第一階段是業(yè)務(wù)理解。從這個案例來看,主要的業(yè)務(wù)問題是解決家庭抵押貸款的業(yè)務(wù)量。從業(yè)務(wù)角度上看,是否存在一些客戶群體對家庭抵押貸款這項業(yè)務(wù)感興趣,而這些客戶群體又有什么共同的特征,客戶什么時候最可能需要這種貸款等等。根據(jù)一般常識和商業(yè)顧問、領(lǐng)域?qū)<业囊庖姡麄冋J為可能使用家庭貸款業(yè)務(wù)的人群有兩種:一種是有孩子上大學(xué)的家長,想通過家庭抵押貸款支付學(xué)費,另一種是高收入但收入不穩(wěn)定的人,想通過家庭抵押貸款事、使其收入削峰填谷。經(jīng)過上述的業(yè)務(wù)理解后,需要進行數(shù)據(jù)理解。首先要收集數(shù)據(jù)挖掘過程所需要的數(shù)據(jù)。多年來,美國銀行一直將數(shù)百萬的零售客戶數(shù)據(jù)存儲在一個巨大的關(guān)系數(shù)據(jù)庫中。關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)共有42個字段,每個記錄保存了客戶的詳細信息。收集到原始數(shù)據(jù)后,需要根據(jù)問題識別數(shù)據(jù)有用的特征,檢驗數(shù)據(jù)的質(zhì)量,對缺失的字段、數(shù)值型變量的取值范圍等質(zhì)量問題進行檢驗并作處理。然后,對這些數(shù)據(jù)進行篩選,轉(zhuǎn)換,調(diào)整,規(guī)范化后,輸入到公司數(shù)據(jù)倉庫中。美國銀行利用這個系統(tǒng),能參透與銀行保持聯(lián)系的客戶的所有關(guān)系。數(shù)據(jù)庫中數(shù)據(jù)的屬性匯集成客戶獨一無二的特征,然后采用Hyperparallel公司的數(shù)據(jù)挖掘工具進行分析。經(jīng)過數(shù)據(jù)挖掘工具的決策樹功能,按照現(xiàn)有銀行劃分客戶的規(guī)則,將客戶分成兩類,即可能或者不可能對提供家庭抵押貸款做出反應(yīng)。經(jīng)過了大量的有購買產(chǎn)品和沒有購買產(chǎn)品的客戶數(shù)據(jù),決策樹最終獲得判定不同類型客戶之間差別的規(guī)則。一旦發(fā)現(xiàn)規(guī)則,利用得到的模型可以給每個潛在客戶記錄增加一個屬性,即好的潛在客戶標志,就是由數(shù)據(jù)挖掘模型生成的。接著使用模式的查找工具,確定客戶什么時候最有可能需要這種貸款。最后,使用聚類工具將具有相似屬性的客戶分成不同的組。在某一點上,數(shù)據(jù)挖掘工具發(fā)現(xiàn)了14個客戶簇,其中很多簇似乎沒有什么特別的發(fā)現(xiàn)。但是,有一個簇具有兩個令人費解的特點:一是這個簇的39%的人不同時擁有企業(yè)和個人賬戶,二是這個簇中的客戶占到家庭抵押貸款可能響應(yīng)者的四分之一。這些數(shù)據(jù)提示好奇的數(shù)據(jù)挖掘者,上述簇中的客戶有可能使用家庭抵押貸款來從事商業(yè)活動。利用數(shù)據(jù)挖掘的結(jié)果,美國消費協(xié)會資產(chǎn)協(xié)會和銀行的零售分支機構(gòu)聯(lián)合組織市場調(diào)查、與客戶面談。市場調(diào)查的結(jié)果證實了貸款收入將被用于從事商業(yè)活動。盡管市場調(diào)查存在一些缺點,例如響應(yīng)者并不能代表全部的人口,有些客戶并非誠實對待調(diào)查等等,但是與現(xiàn)有客戶和以前的客戶進行面談的時候,也可以深入了解其他方式無法得到的情況。對由數(shù)據(jù)挖掘產(chǎn)生的結(jié)果進行評估之后,美國銀行制定部署運用方案,并且按照方案采取了相應(yīng)的措施,最終,家庭抵押貸款的響應(yīng)率從0.7%上升到了7%。資料來源:(美)MichaelJ.A.Berry(美)GordonS.Linoff著.數(shù)據(jù)挖掘技術(shù):市場營銷、銷售與客戶關(guān)系管理領(lǐng)域應(yīng)用.機械工業(yè)出版社.2006.72.2業(yè)務(wù)理解業(yè)務(wù)理解是數(shù)據(jù)挖掘的第一個階段,從業(yè)務(wù)的角度了解項目的要求和最終目的是什么,并將這些目的與數(shù)據(jù)挖掘的定義以及結(jié)果結(jié)合起來。具體任務(wù)包括:(1)業(yè)務(wù)梳理(2)業(yè)務(wù)描述(3)業(yè)務(wù)特征研究(4)業(yè)務(wù)關(guān)聯(lián)分析2.3數(shù)據(jù)理解(1)數(shù)據(jù)理解階段是從收集數(shù)據(jù)開始,通過一些活動的處理,目的是熟悉數(shù)據(jù),識別數(shù)據(jù)的質(zhì)量問題,首次發(fā)現(xiàn)數(shù)據(jù)的內(nèi)部屬性,或是探測引起興趣的自己去形成隱含信息的假設(shè)。其任務(wù)包括:(1)數(shù)據(jù)收集(2)數(shù)據(jù)描述(3)數(shù)據(jù)探索(4)數(shù)據(jù)質(zhì)量檢測2.3數(shù)據(jù)理解(2)(1)數(shù)據(jù)收集在收集數(shù)據(jù)之前,需要根據(jù)業(yè)務(wù)問題明確數(shù)據(jù)挖掘過程需要哪些信息,哪些變量是必需的,哪些變量與數(shù)據(jù)挖掘目標不相關(guān),然后根據(jù)選擇的標準收集數(shù)據(jù),檢查是否所有的信息都確實可以利用來實現(xiàn)數(shù)據(jù)挖掘的目標。(2)數(shù)據(jù)描述描述數(shù)據(jù)主要是熟悉數(shù)據(jù),理解數(shù)據(jù)的內(nèi)涵,檢驗數(shù)據(jù)的“總的”或者“表面的”特征。例如從商業(yè)的角度理解每個變量及其值的含義,變量的含義是否始終一致,變量是否與具體的數(shù)據(jù)挖掘目標相關(guān)聯(lián)等。2.3數(shù)據(jù)理解(3)(3)數(shù)據(jù)探索探索數(shù)據(jù)主要是詳細分析引人注目的變量特征,識別潛在的特征,思考和評估在描述數(shù)據(jù)過程中的信息和發(fā)現(xiàn),提出假設(shè)并確定方案,闡明數(shù)據(jù)挖掘的目標。例如,電信公司想挖掘出移動業(yè)務(wù)之間的關(guān)聯(lián)規(guī)則,那么,在描述數(shù)據(jù)后,根據(jù)數(shù)據(jù)的特征,選擇各種可能相關(guān)的業(yè)務(wù)進行挖掘,對于顯而易見的規(guī)則,則可以不作考慮。比如說開通上網(wǎng)功能的客戶中絕大部分客戶也開通了飛信業(yè)務(wù),則在探索數(shù)據(jù)時,不需要考慮這兩個業(yè)務(wù)之間的關(guān)聯(lián)。(4)數(shù)據(jù)質(zhì)量檢測檢驗數(shù)據(jù)質(zhì)量,列舉有關(guān)問題。例如數(shù)據(jù)是否完整、正確,是否存在缺失值,數(shù)值型變量的范圍是否落在允許的范圍內(nèi),變量的含義與變量值是否一致等質(zhì)量問題。2.4數(shù)據(jù)準備(1)數(shù)據(jù)準備階段的工作是對可用的原始數(shù)據(jù)進行一系列的組織以及清洗等預(yù)處理,使之達到建模需求,而這些數(shù)據(jù)將是模型工具的輸入值。數(shù)據(jù)準備階段的任務(wù)有可能執(zhí)行多次,并且沒有任何規(guī)定的順序。這個階段其任務(wù)包括:(1)數(shù)據(jù)篩選(2)數(shù)據(jù)清理(3)數(shù)據(jù)構(gòu)建(4)數(shù)據(jù)整理合并(5)規(guī)范化數(shù)據(jù)(6)準備建模數(shù)據(jù)集(7)選擇建模技術(shù)和訓(xùn)練模型(1)數(shù)據(jù)篩選數(shù)據(jù)篩選的任務(wù)是確定數(shù)據(jù)挖掘分析過程中所必須的數(shù)據(jù),即選擇有用的特征和記錄。在選擇數(shù)據(jù)的時候,首先要考慮的問題是數(shù)據(jù)要符合解決企業(yè)問題的需要。再者,由于用于建模的數(shù)據(jù)應(yīng)盡可能地完整,數(shù)據(jù)量盡可能多。當開發(fā)預(yù)測模型時,資料中也應(yīng)該包括想要的輸出。2.4數(shù)據(jù)準備(2)(2)數(shù)據(jù)清洗數(shù)據(jù)挖掘過程是否成功,得出的結(jié)果模型是否可靠,取決于數(shù)據(jù)質(zhì)量的好壞。清理數(shù)據(jù)的任務(wù)恰恰是清理數(shù)據(jù)中包含的噪聲和與數(shù)據(jù)挖掘主題明顯無關(guān)的數(shù)據(jù),從而提高數(shù)據(jù)的質(zhì)量。清理數(shù)據(jù)通常包括:填補空缺的數(shù)據(jù)值。例如忽略有空缺值的記錄;人工填寫空缺值;使用一個全局變量填寫空缺值;使用屬性的均值填寫空缺值。清理噪聲數(shù)據(jù)。對于噪聲數(shù)據(jù)有以下幾種處理方法:一是分箱,二是聚類方法,通過聚類發(fā)現(xiàn)孤立點。三是計算機與人工相結(jié)合的方法,四是回歸分析,建立回歸方程。解決不一致問題。數(shù)據(jù)的不一致主要表現(xiàn)在數(shù)據(jù)的單位、命名、結(jié)構(gòu)、含義不一致??梢酝ㄟ^對數(shù)據(jù)的統(tǒng)一調(diào)整進行解決。2.4數(shù)據(jù)準備(3)(3)數(shù)據(jù)構(gòu)建數(shù)據(jù)構(gòu)建包括建設(shè)性的數(shù)據(jù)準備工作,例如屬性構(gòu)造,多維數(shù)據(jù)組織(聚集),數(shù)據(jù)泛化處理。屬性構(gòu)造是指構(gòu)造新的屬性并添加到屬性集中,以幫助提高數(shù)據(jù)挖掘的過程。多維數(shù)據(jù)組織(聚集)是指對數(shù)據(jù)進行匯總和聚集,采用切片、旋轉(zhuǎn)等操作將原始數(shù)據(jù)按照多維立體形式組織成為不同層次、不同粒度、不同維度的聚集。數(shù)據(jù)泛化處理是指使用高層次的概念替換低層次的概念。例如短信業(yè)務(wù)替換各種不同種類的短信業(yè)務(wù),使用國家替換城市。2.4數(shù)據(jù)準備(4)(4)數(shù)據(jù)整合數(shù)據(jù)整合的主要任務(wù)是將來自多數(shù)據(jù)源(例如數(shù)據(jù)庫、文件等)的相關(guān)數(shù)據(jù)組合到一起,即把不同來源、格式、特點性質(zhì)的數(shù)據(jù)在邏輯上或者物理上有機地集合在一起,使之更加有利于數(shù)據(jù)挖掘過程的實現(xiàn)。(5)數(shù)據(jù)規(guī)范化規(guī)格化數(shù)據(jù)就是將有關(guān)屬性數(shù)據(jù)按比例縮放,使之落入一個特定的小范圍內(nèi),以消除數(shù)值型數(shù)據(jù)因大小不一而造成的數(shù)據(jù)挖掘結(jié)果的誤差。常用的規(guī)格化數(shù)據(jù)方法有三種:最大最小規(guī)格化z-score規(guī)格化小數(shù)定標規(guī)格化2.4數(shù)據(jù)準備(5)2.4數(shù)據(jù)準備(6)(6)準備建模數(shù)據(jù)集數(shù)據(jù)準備是在數(shù)據(jù)建模前對數(shù)據(jù)的最后一步進行處理,對數(shù)據(jù)進行上述處理后,還不能直接用于數(shù)據(jù)建模,還需要考慮到數(shù)據(jù)的稀疏程度。通常,對于稀疏的數(shù)據(jù),最好選用15%~30%的比例來建模,例如:在建立欺詐檢測模型時,欺詐記錄的數(shù)據(jù)占比例很小。如果直接用這樣的數(shù)據(jù)進行建模,那么,成功預(yù)測沒有欺詐的可能性將會很高。但是這樣得到的模型用處不大甚至完全無用。為了評估模型,一般將建模數(shù)據(jù)集分成三個部分,即訓(xùn)練集、測試集和評估集。將數(shù)據(jù)的訓(xùn)練集作為最初用于建立模型的數(shù)據(jù),用測試集和評估集來精化模型和評估模型。2.5建模(1)2.5.1成功建立預(yù)測模型的注意要點2.5.2如何建立有效的預(yù)測模型2.5建模(2)一個模型的好壞依賴于所選擇的算法和使用的工具。一些工具可以生成許多不同的模型,而且可以自動從中選出最好的模型??梢赃x擇多種不同的數(shù)據(jù)挖掘技術(shù),每一種技術(shù)都有它的優(yōu)缺點。實際應(yīng)用時,需要根據(jù)數(shù)據(jù)挖掘的目的以及數(shù)據(jù)的特點選擇數(shù)據(jù)挖掘的算法。數(shù)據(jù)挖掘中的建模是針對問題的特定對象,為了特定的數(shù)據(jù)挖掘目的,做出假設(shè),運用適當?shù)臄?shù)據(jù)挖掘工具和其他科學(xué)工具建立模型,利用模型解釋特定的現(xiàn)象和預(yù)測對象的未來狀況。

2.5.1成功建立預(yù)測模型的注意要點(1)對于預(yù)測模型而言,當預(yù)言與結(jié)果相一致時,才能說明預(yù)言是有效的然而,要成功建立預(yù)測模型,需要注意以下三點:(1)預(yù)測模型的時間范圍在建立模型的過程中,首先需要訓(xùn)練模型,即用歷史數(shù)據(jù)構(gòu)建模型,進行預(yù)測,然后將模型應(yīng)用于新的數(shù)據(jù)中從而生成結(jié)果,這個過程稱為得分,它是用最新的數(shù)據(jù)來預(yù)測未來的結(jié)果。具體如圖所示:2.5.1成功建立預(yù)測模型的注意要點(2)(2)模型的使用有效期在建立預(yù)測模型的時候,還需要考慮模型的使用有效期問題,即模型使用有效期和模型預(yù)測有效期。模型使用有效期是指在業(yè)務(wù)環(huán)境、技術(shù)手段、客戶基礎(chǔ)等相對穩(wěn)定的條件下,可以繼續(xù)使用之前建立的預(yù)測模型。但是隨著時間的推移,這些條件可能會發(fā)生變化,因此,必須用新的數(shù)據(jù)構(gòu)建新的模型,而不能用之前建立的模型進行預(yù)測。模型預(yù)測有效期是指預(yù)測結(jié)果應(yīng)該在特定的時間內(nèi)才有效。例如電信行業(yè)中預(yù)測某個特定季度或者特定月份的客戶流失率。在這種情況下,需要對不同季度或者月份使用不同的預(yù)測。2.5.1成功建立預(yù)測模型的注意要點(3)(3)建立預(yù)測模型的假設(shè)為什么可以用預(yù)測模型來預(yù)測現(xiàn)實生活中特定對象的未來狀況?原因是預(yù)測模型的成功應(yīng)用依賴于三個基本假設(shè):假設(shè)1:歷史是未來的寫照假設(shè)2:數(shù)據(jù)是可以獲得的假設(shè)3:數(shù)據(jù)中包含我們的預(yù)期目標2.5.2如何建立有效的預(yù)測模型(1)建立預(yù)測模型最重要的目標是保持模型穩(wěn)定,有效模型的建立需要考慮以下因素:(1)預(yù)測建模的第一項任務(wù)就是搜集足夠預(yù)先分類好的數(shù)據(jù),將模型集分為三部分:訓(xùn)練集、測試集、評估集,并理解模型在各個子集上的效果。(2)對于類別不平衡的數(shù)據(jù),通過抽樣來控制模型集的密度,即不同分布的類別比例。(3)注意觀察所用數(shù)據(jù)的輸入和輸出時間范圍,所有輸入都必須出現(xiàn)在輸出之前,保留一個執(zhí)行期間是明智的選擇。(4)在模型集中使用多重時間窗口有助于確保模型穩(wěn)定、并在時間上易于轉(zhuǎn)換。(5)大多數(shù)建模過程需要建立多個模型,并對多個模型的效果進行比較,以選用效果最好的模型進行預(yù)測,或者對多個模型進行組合,以得到性能更優(yōu)的集成分類模型。(6)對不同的模型集、模型參數(shù)以及時間范圍進行試驗,有助于建立更好更穩(wěn)定的模型。2.5.2如何建立有效的預(yù)測模型(2)在了解以上因素的基礎(chǔ)上,需要掌握建立有效預(yù)測模型的基本步驟:(1)用訓(xùn)練集的數(shù)據(jù)進行訓(xùn)練建立模型。這步產(chǎn)生的結(jié)果是找出數(shù)據(jù)中所包含的預(yù)測模式。(2)利用測試集,對模型進行修正。其目的是為了防止模型對訓(xùn)練集的模式記憶太深,出現(xiàn)過度擬合現(xiàn)象,以使模型更具一般性,并且能夠很好地適應(yīng)未知數(shù)據(jù)。(3)對模型的效果進行評價。這個過程需要用到評估集,這部分數(shù)據(jù)也是模型集的一部分。它是在建模和測試修正過程中尚未用到的那部分數(shù)據(jù)集。檢測模型的性能可以通過判錯矩陣和增益表(liftchart)或累計增益圖(cumulativegainchart)來評價。2.5.2如何建立有效的預(yù)測模型(3)實際值YN預(yù)測值Y2%4%N12%82%實際值YN預(yù)測值Y7%40%N3%50%a)判錯矩陣判錯矩陣表示了一個模型與事實發(fā)生沖突的可能性。從判錯矩陣中可以看出預(yù)測模型預(yù)測正確的比例和預(yù)測錯誤的比例,使我們認識到模型的執(zhí)行效果,理解模型的結(jié)果。

表2-1表示的是判錯矩陣。究竟哪個模型是最優(yōu)的模型,還要視業(yè)務(wù)問題而定。

表2-1判錯矩陣2.5.2如何建立有效的預(yù)測模型(4)b)累計增益圖累計增益圖是一種常用的用于評估模型執(zhí)行效果的圖表。它的橫軸和縱軸都是百分比構(gòu)成。橫軸表示資料得分從小到大排序以后,按十分位累計資料百分比。累計增益圖的縱軸表示這部分資料在總資料中的比例。下圖表示的是不同模型產(chǎn)生的累計增益圖表。建模曲線和對角線包圍的面積越大,說明模型的執(zhí)行效果越好。2.6評估評估是將模型輸出的結(jié)果與現(xiàn)實生活中發(fā)生的結(jié)果進行對比,進一步評估模型。要保證預(yù)測結(jié)果的有效性,對預(yù)測模型進行分析與評價時,應(yīng)遵循如下原則:合理性預(yù)測能力穩(wěn)定性在評估結(jié)果之后,需要回顧檢討探測的過程,從而決定后續(xù)的步驟與調(diào)整。經(jīng)過對模型的評估,回顧整個探測的過程,查找建模結(jié)果中與現(xiàn)實生活中發(fā)生結(jié)果的差距,檢查探測過程的可能出現(xiàn)的錯誤,決定后續(xù)的數(shù)據(jù)挖掘的步驟并做出相應(yīng)的調(diào)整。2.7部署模型的作用是從數(shù)據(jù)中找到知識,獲得的知

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論