《數(shù)據(jù)挖掘與Clementine使用培訓(xùn))》_第1頁
《數(shù)據(jù)挖掘與Clementine使用培訓(xùn))》_第2頁
《數(shù)據(jù)挖掘與Clementine使用培訓(xùn))》_第3頁
《數(shù)據(jù)挖掘與Clementine使用培訓(xùn))》_第4頁
《數(shù)據(jù)挖掘與Clementine使用培訓(xùn))》_第5頁
已閱讀5頁,還剩302頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)挖掘與Clementine使用培訓(xùn),北京瑞斯泰得數(shù)據(jù)技術(shù)開發(fā)有限公司 2019/10/6,1,一、數(shù)據(jù)挖掘概述,什么是數(shù)據(jù)挖掘 數(shù)據(jù)挖掘的實現(xiàn)路線和流程 數(shù)據(jù)挖掘方法論CRISP-DM,2,為什么進行數(shù)據(jù)挖掘? 商業(yè)觀點,業(yè)務(wù)中產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)存儲在業(yè)務(wù)系統(tǒng)中卻不能創(chuàng)造價值 客戶信息數(shù)據(jù) 客戶交易行為數(shù)據(jù) 客戶反饋數(shù)據(jù) 網(wǎng)絡(luò)數(shù)據(jù) 計算機變得越來越便宜、功能卻越來越強大 商業(yè)競爭越來越激烈,對客戶了解越多就意味著機會越大,3,為什么進行數(shù)據(jù)挖掘? 技術(shù)觀點,業(yè)務(wù)中的數(shù)據(jù)量呈現(xiàn)指數(shù)增長(GB/小時) 傳統(tǒng)技術(shù)難以從這些大量數(shù)據(jù)中發(fā)現(xiàn)有價值的規(guī)律 數(shù)據(jù)挖掘可以幫助我們從大量數(shù)據(jù)中發(fā)現(xiàn)有價值的規(guī)律,4,一個市場營銷的例子,在數(shù)據(jù)中發(fā)現(xiàn)有價值的規(guī)則或者模式,女性對市場活動做出回應(yīng),男性對市場活動不做出回應(yīng),和年齡無關(guān),5,一個市場營銷的例子,數(shù)據(jù)變的復(fù)雜會如何?,女性對市場活動做出回應(yīng),老年男性也可能對市場活動做出回應(yīng),6,一個市場營銷的例子,數(shù)據(jù)挖掘可以從異常復(fù)雜的數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,通過數(shù)據(jù)挖掘發(fā)現(xiàn)回應(yīng)的5條規(guī)則: 1、如果收入大于29622,有孩子,并且孩子的數(shù)量小于等于2,那么對市場活動會回應(yīng) ,通過數(shù)據(jù)挖掘發(fā)現(xiàn)不回應(yīng)的5條規(guī)則: 1、如果收入小于12640.3,并且有一個孩子,那么對市場活動不會回應(yīng) ,7,數(shù)據(jù)挖掘收益分析,8,利潤分析圖,9,數(shù)據(jù)挖掘效果模擬分析,目的:發(fā)現(xiàn)新客戶(使響應(yīng)率從1%提高到1.2%),10,什么是數(shù)據(jù)挖掘?,不同的定義 從大量數(shù)據(jù)中發(fā)現(xiàn)非平凡的、先前不知道的、有價值的規(guī)律的過程 從大量數(shù)據(jù)中自動化(或者半自動化)的發(fā)現(xiàn)有價值規(guī)律的過程 數(shù)據(jù)挖掘的其他名稱 數(shù)據(jù)庫內(nèi)知識發(fā)現(xiàn)(KDD- Knowledge discovery in databases ) 數(shù)據(jù)/模式分析 商業(yè)智能 人工智能 ,11,數(shù)據(jù)挖掘的起源,來源于機器學(xué)習(xí)/人工智能、模式識別、統(tǒng)計學(xué)和數(shù)據(jù)庫 傳統(tǒng)技術(shù)的局限性 巨量的數(shù)據(jù) 高維數(shù)據(jù) 數(shù)據(jù)分布不理想,12,數(shù)據(jù)挖掘面臨的挑戰(zhàn),海量數(shù)據(jù) 高維數(shù)據(jù) 數(shù)據(jù)復(fù)雜性 數(shù)據(jù)質(zhì)量問題 數(shù)據(jù)所有權(quán)和分布 隱私問題,13,數(shù)據(jù)挖掘方法論項目順利實施的保證,商業(yè)理解 數(shù)據(jù)理解 數(shù)據(jù)準備 建立模型 模型評估 模型發(fā)布,14,商業(yè)理解,商業(yè) 理解,數(shù)據(jù) 理解,數(shù)據(jù) 準備,建立 模型,模型 評估,結(jié)果 發(fā)布,確定商業(yè) 目標,形勢評估,確定數(shù)據(jù) 挖掘目標,制定項目 計劃,背景,商業(yè)目標,成功標準,擁有資源,需求、假定 和限制,風(fēng)險和 偶然性,專業(yè) 術(shù)語,成本和 收益,數(shù)據(jù)挖掘 目標,數(shù)據(jù)挖掘 成功標準,項目計劃,工具和方法 評估,15,數(shù)據(jù)理解,商業(yè) 理解,數(shù)據(jù) 理解,數(shù)據(jù) 準備,建立 模型,模型 評估,結(jié)果 發(fā)布,收集原始 數(shù)據(jù),數(shù)據(jù)描述,數(shù)據(jù)探索 性分析,數(shù)據(jù)質(zhì)量 描述,數(shù)據(jù)收集 報告,數(shù)據(jù)描述 報告,探索性數(shù)據(jù) 分析報告,數(shù)據(jù)質(zhì)量 報告,16,數(shù)據(jù)準備,商業(yè) 理解,數(shù)據(jù) 理解,數(shù)據(jù) 準備,建立 模型,模型 評估,結(jié)果 發(fā)布,選擇數(shù)據(jù),確定分析包含/剔除數(shù)據(jù),數(shù)據(jù)集,數(shù)據(jù)集 描述,數(shù)據(jù)清理,數(shù)據(jù)清理報告,數(shù)據(jù)重構(gòu),生成新的變量(字段),生成新的記錄,整合數(shù)據(jù),合并相關(guān)數(shù)據(jù),格式化數(shù)據(jù),改變數(shù)據(jù)格式,適應(yīng)分析,17,建立模型,商業(yè) 理解,數(shù)據(jù) 理解,數(shù)據(jù) 準備,建立 模型,模型 評估,結(jié)果 發(fā)布,選擇建模 技術(shù),產(chǎn)生檢驗 設(shè)計,建立模型,評價模型,模型 技術(shù),模型假設(shè),檢驗設(shè)計,參數(shù)設(shè)定,建模,模型評價,參數(shù)設(shè)定 的修訂,模型描述,18,模型評估,商業(yè) 理解,數(shù)據(jù) 理解,數(shù)據(jù) 準備,建立 模型,模型 評估,結(jié)果 發(fā)布,結(jié)果評估,數(shù)據(jù)挖掘 過程回顧,確定下一 步的工作,評估數(shù)據(jù) 挖掘結(jié)果,被認可的模型,數(shù)據(jù)挖掘過程 的回顧,列出可能 的行動,決策,19,結(jié)果發(fā)布,商業(yè) 理解,數(shù)據(jù) 理解,數(shù)據(jù) 準備,建立 模型,模型 評估,結(jié)果 發(fā)布,發(fā)布結(jié)果 計劃,監(jiān)測和維護 模型計劃,生成最終數(shù)據(jù) 挖掘報告,項目回顧,結(jié)果發(fā)布計劃,監(jiān)測和維護 模型計劃,最終數(shù)據(jù) 挖掘報告,數(shù)據(jù)挖掘 報告展現(xiàn),項目檢驗 總結(jié),20,商業(yè)理解是數(shù)據(jù)挖掘的起點,解決方案,商業(yè)需要,21,商業(yè)理解的內(nèi)容,數(shù)據(jù)挖掘能解決什么樣的商業(yè)問題? 數(shù)據(jù)挖掘得到的結(jié)果,是否可以采取相應(yīng)的行動以提高利潤或降低成本? 我們期望模型能夠給我們怎樣的精確率? 有那些前提假定?,22,約束分析,時間約束分析 資源約束分析 人力資源 數(shù)據(jù)資源 軟件資源 硬件資源,23,制定特定的數(shù)據(jù)挖掘目標,制定的數(shù)據(jù)挖掘目標應(yīng)具有: 可評估性(assessable) 可實現(xiàn)性(attainable),24,如何給定一個數(shù)據(jù)挖掘問題,是檢驗性數(shù)據(jù)挖掘還是探索性數(shù)據(jù)挖掘? 確定哪些是可以實現(xiàn)的數(shù)據(jù)挖掘問題 結(jié)果可測度性 信息(數(shù)據(jù))的可獲得性 評估和控制其他相關(guān)因素的影響,25,數(shù)據(jù)來源與數(shù)據(jù)之間的關(guān)系,26,使數(shù)據(jù)適合數(shù)據(jù)挖掘,對數(shù)據(jù)進行適當?shù)暮喜⒑蛥R總 一般數(shù)據(jù)挖掘分析都要一個行列(記錄變量)的二維表,必須把從不同數(shù)據(jù)源得到的不同格式的數(shù)據(jù)整合成這樣一張表,要求: 所有的記錄含有排列順序一致的變量 所有記錄的變量信息是完整的(理想化狀態(tài),在現(xiàn)實中很難達到),27,檢查數(shù)據(jù)質(zhì)量,影響數(shù)據(jù)質(zhì)量的幾個主要問題 缺失值 不合理值 不同數(shù)據(jù)源的不一致 異常值,28,對數(shù)據(jù)進行適當?shù)淖儞Q,數(shù)據(jù)的標準化變換 生成新的變量 數(shù)據(jù)的重新編碼 數(shù)據(jù)降維,從變量角度或者從記錄角度,29,數(shù)據(jù)挖掘模型的分類,數(shù)據(jù)描述和匯總(Data description and summarization) 細分(Segmentation) 概念描述(Concept descriptions) 分類(Classification) 預(yù)測(Prediction) 相關(guān)分析(Dependency analysis),30,數(shù)據(jù)挖掘技術(shù)的分類,數(shù)據(jù)挖掘,描述,預(yù)測,統(tǒng)計回歸,關(guān)聯(lián)規(guī)則,決策樹,可視化,聚類,順序關(guān)聯(lián),匯總,神經(jīng)網(wǎng)絡(luò),分類,時間序列預(yù)測,31,數(shù)據(jù)挖掘的典型結(jié)果金融,問題描述:預(yù)測信用水平是好還是差,銀行據(jù)此決定是否向客戶發(fā)放貸款,發(fā)放多少 結(jié)果描述:(決策樹),收入大于5萬元/年,是,否,有無儲蓄帳戶,是否房主,否,是,是,否,批準,不批準,批準,32,數(shù)據(jù)挖掘的典型結(jié)果電信,問題描述:根據(jù)客戶信息,預(yù)測客戶流失可能性 結(jié)果描述:(神經(jīng)網(wǎng)絡(luò)),輸 入,流失概率 (0.87),輸 出,男,29,3000元/月,套餐A,130元/月,33,數(shù)據(jù)挖掘的典型結(jié)果零售,問題描述:如何決定超市中商品的擺放來增加銷售額 結(jié)果描述:(Web圖),34,數(shù)據(jù)挖掘的典型結(jié)果制造業(yè),問題描述:如何對市場進行細分,使產(chǎn)品滿足最有價值客戶 結(jié)果描述:(Koholen聚類),35,數(shù)據(jù)挖掘的典型結(jié)果政府,問題描述:如何從眾多申請經(jīng)費或者納稅中發(fā)現(xiàn)欺詐 結(jié)果描述:(回歸、神經(jīng)網(wǎng)絡(luò)),36,檢驗的形式,方法層面的檢驗 訓(xùn)練集和檢驗集 不同方法的互相印證和比較 模型準確性的檢驗: 商業(yè)層面上的檢驗 利潤率的檢驗 模型結(jié)果可操作性的檢驗 其他檢驗,37,關(guān)注那些錯誤的預(yù)測,38,數(shù)據(jù)挖掘不成功的幾種可能性,糟糕的數(shù)據(jù) 組織抵制 結(jié)果沒有被有效的發(fā)布 得到了無用的結(jié)果,39,模型發(fā)布的形式,書面報告 數(shù)據(jù)庫更新 針對特定主題的應(yīng)用系統(tǒng),40,數(shù)據(jù)挖掘的體系結(jié)構(gòu),41,問題&討論,42,二、Clementine概述,Clementine在數(shù)據(jù)挖掘中的地位 Clementine發(fā)展歷史 Clementine的配置 Clementine操作基礎(chǔ),43,數(shù)據(jù)挖掘的一般流程及數(shù)據(jù)挖掘軟件在數(shù)據(jù)挖掘過程中的地位,44,數(shù)據(jù)挖掘方法論項目順利實施的保證,商業(yè)理解 數(shù)據(jù)理解 數(shù)據(jù)準備 建立模型 模型評估 模型發(fā)布,45,Clementine發(fā)展歷程,Clementine是ISL (Integral Solutions Limited)公司開發(fā)的數(shù)據(jù)挖掘工具平臺 1998年SPSS公司收購了ISL公司,對Clementine產(chǎn)品進行重新整合和開發(fā),現(xiàn)在Clementine已經(jīng)成為SPSS公司的又一亮點,46,Clementine的軟件構(gòu)成,Clementine Client; Clementine Server; Clementine Batch; SPSS Data Access Pack; Clementine Solution Publisher (Optional)。,47,Clementine的兩種運行方式,單機版運行 以下情況必須使用單機版運行: 數(shù)據(jù)存儲在本機,且不能在網(wǎng)絡(luò)上共享; 機器不聯(lián)網(wǎng); 無Clementine Server可供使用。 以下情況可以使用單機版運行: 要處理的數(shù)據(jù)量很?。ū热纾盒∮?M)并且數(shù)據(jù)存儲在單機或可到達局域網(wǎng)處; 單機內(nèi)存、硬盤相對要處理的數(shù)據(jù)量來說足夠大,并且速度也滿足要求。,C/S結(jié)構(gòu)運行 以下情況必須使用C/S結(jié)構(gòu)運行: 單機內(nèi)存或者硬盤不夠大,難以運行大量數(shù)據(jù); 單機上沒有或者無法配置數(shù)據(jù)連結(jié),無法從數(shù)據(jù)庫中獲取數(shù)據(jù); 組織規(guī)則不允許下載大量數(shù)據(jù)到單機。 以下情況可以使用C/S結(jié)構(gòu)運行: 要處理的數(shù)據(jù)量很大,并且存儲在可以通過SPSS Data Access技術(shù)可到達的數(shù)據(jù)庫處; 單機速度慢,Clementine Server運行的機器配置高。,48,Clementine的系統(tǒng)結(jié)構(gòu),Clementine的三層結(jié)構(gòu): 1、數(shù)據(jù)庫層; 通過Clementine Server進行調(diào)度,把那些可以通過SQL語句執(zhí)行的數(shù)據(jù)操作過程以SQL語句的形式導(dǎo)入數(shù)據(jù)庫并在其中進行; 2、服務(wù)器端; 進行調(diào)度,不能在數(shù)據(jù)庫層面進行的操作在服務(wù)器端進行(比如數(shù)據(jù)挖掘模型計算過程) 3、客戶端。 在三層結(jié)構(gòu)下通過Clementine Server進行調(diào)度,由客戶端向服務(wù)器端發(fā)送數(shù)據(jù)挖掘指令,并接受和展示數(shù)據(jù)挖掘結(jié)果。,Clementine Client和Clementine Server通過SDL(Stream Description Language )之間進行信息交換,Clementine Server和Database通過SQL語句進行信息交換。,49,Clementine運行的兩種方式,圖形界面方式 適用操作系統(tǒng) Windows系列 特點: 圖形化界面 與客戶直接交互 適合交互式分析過程,命令行方式 使用操作系統(tǒng) Windows系列 Unix系列 特點: 命令行操作 不能生成圖形,所有結(jié)果保存在文件里或者數(shù)據(jù)庫中 適合于以下情況使用: 運行耗時較長的建模過程 希望在后臺運行一些耗時較長的數(shù)據(jù)準備 過程希望按照一定的時間定期運行(比如每周、每月等) 希望把Clementine(數(shù)據(jù)挖掘過程)運行過程嵌入應(yīng)用系統(tǒng)中,50,Clementine的界面和設(shè)計思路,可視化界面 四個區(qū)域分別是建模區(qū)、結(jié)點區(qū)、模型描述區(qū)、項目管理區(qū) 通過連接結(jié)點構(gòu)成數(shù)據(jù)流建立模型 Clementine通過6類結(jié)點的連接完成數(shù)據(jù)挖掘工作,它們是: Source(源結(jié)點):Database、Var. Files等 Record Ops (記錄處理結(jié)點):Select、Sample等 Field Ops(字段處理結(jié)點):Type、Filter等 Graphs(圖形結(jié)點):Plot、Distribute等 Modeling(模型結(jié)點):Neural Net、C5.0等 Output(輸出結(jié)點):Table、Matrix等,51,Clementine操作基本知識,鼠標應(yīng)用 三鍵與雙鍵鼠標 左鍵 選擇節(jié)點或圖標置于建模區(qū) 右鍵 激活浮動菜單 中鍵 連接或斷開兩個節(jié)點 幫助,52,Clementine操作基本知識,節(jié)點的增加,以 為例 Click “Sources”,Click ,Click “流區(qū)域” Click “Sources”,Double Click Click “Sources”,Drag to “流區(qū)域” 節(jié)點的刪除 Click , Delete Right Click ,Click “Delete” 節(jié)點的移動:Drag,53,Clementine操作基本知識,節(jié)點的編輯 Double Click Right Click ,Click “Edit” 節(jié)點的重命名和解釋 Right Click ,Click “Edit”,Click “Annotations” Double Click ,Click “Annotations” Right Click ,Click “Rename and Annotations” 拷貝、粘貼,54,Clementine操作基本知識,構(gòu)建流時節(jié)點的連接 Highlight ,Add to the Canvas Right Click ,Click “Connect”,Click Drag the middle mutton from to 構(gòu)建流時節(jié)點連接的刪除 Right Click or , Click “Disconnect” Right Click “Connection”,Click “Delete Connection” Double Click or,55,Clementine操作基本知識,流的執(zhí)行 Highlight “Stream”,Click Right Click ,Click “Execute” In the Edit Window of the , Click “Execute” 流的保存 幫助 Help Menu Dialogue Window,56,一個例子羅斯文商貿(mào)公司,商業(yè)問題: 微軟公司提供的案例數(shù)據(jù)庫羅斯文商貿(mào)公司,如何對客戶價值進行評估 背景介紹: 1.羅斯文商貿(mào)公司是Microsoft數(shù)據(jù)庫產(chǎn)品(Access, SQL Server等)中的一個示例數(shù)據(jù)庫; 2.它虛擬了一家經(jīng)銷日用品的商貿(mào)公司的情況; 3.目前該公司保存的歷史數(shù)據(jù)資料,見下頁; 4.我們需要對客戶的價值進行評估,以便采取有效的市場銷售策略。,57,羅斯林商貿(mào)公司數(shù)據(jù),58,羅斯文商貿(mào)公司統(tǒng)計問題,數(shù)據(jù)挖掘問題: (1)如何描述客戶價值?購買總金額?購買頻次?平均每次購買金額?最近購買金額?它們的線性組合?使用最簡單的購買總金額 (2)需要什么樣的數(shù)據(jù)挖掘方法?描述匯總?分類?預(yù)測?概念描述?細分?相關(guān)分析?使用最簡單的描述匯總 (3)需要的數(shù)據(jù)從哪里來?從以下幾個來源: 客戶 訂單 訂單明細,59,羅斯文商貿(mào)公司商業(yè)問題解決方案,商業(yè)問題解決方案 從所有客戶中找出最有價值的10個客戶,將名單發(fā)給市場部門,讓其對這些客戶進行更多的關(guān)注,60,Clementine的優(yōu)化,包括兩個方面的優(yōu)化 結(jié)構(gòu)優(yōu)化 用戶優(yōu)化,61,結(jié)構(gòu)優(yōu)化,把中間結(jié)果存儲在Server上(盡量使用server版處理) 從數(shù)據(jù)流上整理考慮的執(zhí)行數(shù)據(jù)流(能一步完成的處理盡量不要分解到多個執(zhí)行) 減少數(shù)據(jù)的遷移(數(shù)據(jù)提前進行規(guī)劃),62,用戶優(yōu)化,自動優(yōu)化數(shù)據(jù)流:當使用這一選項時,Clementine將重寫數(shù)據(jù)流以使效率最高(可以通過Clementine Server中的sql_rewriting_enabled來調(diào)整是否可以使用) 優(yōu)化的SQL生成。使盡可能的操作在數(shù)據(jù)庫內(nèi)進行。 優(yōu)化Clementine執(zhí)行。調(diào)整數(shù)據(jù)降維的操作盡可能接近數(shù)據(jù)源完成。 手動優(yōu)化數(shù)據(jù)流 操作順序:有些操作可以在SQL中完成,有些操作不能在SQL中完成,盡可能把能夠在SQL中完成的一起排在前面 數(shù)據(jù)類型:盡可能在源節(jié)點處由用戶自定義數(shù)據(jù)類型,而不是Clementine自動讀取。,63,一個數(shù)據(jù)挖掘的實例 客戶信用級別判斷系統(tǒng),64,問題的提出,如何通過數(shù)據(jù)挖掘?qū)崿F(xiàn)小靈通信用級別的判斷系統(tǒng) 某電信公司按照某種標準將小靈通客戶信用等級分為5類,分別是gradeA、gradeB 、gradeC、gradeX、gradeY?,F(xiàn)在希望建立一套系統(tǒng),能夠使得市場部人員根據(jù)用戶的幾項關(guān)鍵的個人基本信息判斷該客戶的信用級別,從而有針對性地對其采用不同的市場營銷策略。,65,數(shù)據(jù)描述,66,遵循CRISP-DM的數(shù)據(jù)挖掘過程,67,在進行數(shù)據(jù)挖掘過程中應(yīng)該注意的幾個問題,商業(yè)經(jīng)驗的作用 數(shù)據(jù)的拆分訓(xùn)練集與檢驗集 不同模型的印證與比較,68,結(jié)果發(fā)布,信用級別靜態(tài)列表 信用級別寫回數(shù)據(jù)庫 實時判斷信用級別的分析應(yīng)用,69,問題&討論,70,三、數(shù)據(jù)理解:數(shù)據(jù)的可視化和報告,數(shù)據(jù)組織形式 數(shù)據(jù)圖形展現(xiàn) 數(shù)據(jù)表格展現(xiàn),71,數(shù)據(jù)挖掘要求的數(shù)據(jù)格式,變量 記錄(行代表記錄,列代表變量),72,數(shù)據(jù)尺度,根據(jù)數(shù)據(jù)的不同,可以把變量分為以下一些類型 定類變量 例如:客戶編號、性別、郵編等 不能比較大小 定序變量 產(chǎn)品等級、信用級別、客戶收入水平分類等 可以比較大小、不能進行加減運算 定距變量 出生日期、溫度等 可以進行加減運算、不能進行乘除運算 定比變量 收入、長度等 可以進行乘除運算,73,各類變量尺度比較,74,描述性統(tǒng)計量,描述統(tǒng)計量(summary statistic),也稱匯總統(tǒng)計量或概括統(tǒng)計量 用少量數(shù)字概括大量數(shù)據(jù)的技術(shù),75,離散變量的描述性統(tǒng)計,頻數(shù) 累計頻數(shù) 頻率 累計頻率(累計必須是定序變量),76,連續(xù)變量的描述指標,反映數(shù)據(jù)平均趨勢和位置的指標 反映數(shù)據(jù)離散趨勢的指標 反映數(shù)據(jù)分布狀況的指標,77,反映連續(xù)數(shù)據(jù)平均趨勢的指標,平均數(shù) 算術(shù)平均數(shù) 幾何平均數(shù) 截尾算術(shù)平均數(shù):比較穩(wěn)健有效地描述平均值 中位數(shù):(代表群體基本的趨勢,集中的趨勢) 眾數(shù)(多用于離散變量) 四分位數(shù)(25%,50%,75%) 百分位數(shù),78,平均數(shù)與中位數(shù)的結(jié)合使用,對5個數(shù)值表示的內(nèi)容說法有些不同,含義與左圖不同,含義與左圖不同,79,反映連續(xù)數(shù)據(jù)離散趨勢的指標,極差(全距)range =max-min 內(nèi)距 50%的差距 方差 :更適合離散趨勢的描述(趨勢放大) 標準差 變異系數(shù):標準差/均值,值越大,則離散程度越大。,80,平均數(shù)與標準差的應(yīng)用,切比雪夫定理 在任何一個數(shù)據(jù)集中,至少有(1-1/z2 )的數(shù)據(jù)項與平均數(shù)的距離在z個標準差之內(nèi),其中z是任意大于1的值。 切比雪夫定理含義 1.至少75%的數(shù)據(jù)項與平均數(shù)的距離在2個標準差之內(nèi); 2.至少89%的數(shù)據(jù)項與平均數(shù)的距離在3個標準差之內(nèi);(6西格瑪質(zhì)量管理應(yīng)用) 3.至少94%的數(shù)據(jù)項與平均數(shù)的距離在4個標準差之內(nèi)。,81,連續(xù)變量的經(jīng)驗法則,正態(tài)分布是一種最常用的連續(xù)型分布 關(guān)于正態(tài)分布的經(jīng)驗法則 1.約68%的數(shù)據(jù)項與平均數(shù)的距離在1個標準差之內(nèi); 2.約95%的數(shù)據(jù)項與平均數(shù)的距離在2個標準差之內(nèi); 3.幾乎全部數(shù)據(jù)項(99.97%)與平均數(shù)的距離在3個標準差之內(nèi)。,82,切比雪夫和經(jīng)驗法則的應(yīng)用,問題 某單位有100個人,他們的平均身高是170cm,標準差為5cm,那么有多少人的身高是落在160cm-180cm這個區(qū)間里的呢? 經(jīng)驗法則的應(yīng)用 根據(jù)切比雪夫定理,該單位至少有75%的人身高在160cm180cm這個區(qū)間里 根據(jù)正態(tài)分布經(jīng)驗法則,該單位大約有95%的人身高在160cm180cm這個區(qū)間里,83,反映連續(xù)數(shù)據(jù)分布狀況的指標,偏度 峰度,84,圖形展現(xiàn)數(shù)據(jù),85,圖形技術(shù)的應(yīng)用,圖形可以用來直觀的展示數(shù)據(jù)的分布特征和取值情況 常見的描述離散變量的圖形有 條形圖 餅形圖 常見的描述連續(xù)變量的圖形有 直方圖 常見的描述兩個離散變量之間關(guān)系的圖形有 Web圖 條形圖 常見的描述兩個連續(xù)變量之間關(guān)系的圖形有 散點圖 常見的描述一個離散變量和一個連續(xù)變量之間關(guān)系的圖形是 條形圖,86,通過圖形可以表現(xiàn)多個變量之間的關(guān)系,87,Chapter 2,Clementine 簡介,88,Chapter 2 Clementine 簡介,目的: 初步了解Clementine軟件 內(nèi)容: 2.1 SPSS Clementine C/S 2.2 SPSS Clementine 面板 2.3 SPSS Clementine 可視化程序使用基礎(chǔ) 節(jié)點 SPSS file 節(jié)點 Table 節(jié)點,89,2.1 Clementine C/S,啟動: StartProgramsClementine 8.1 Clementine and Clementine Server ToolsServer Login,90,Clementine的結(jié)構(gòu)示意圖,91,2.2 Clementine 面板,92,第二講:數(shù)據(jù)簡單準備與理解,數(shù)據(jù)準備之讀入數(shù)據(jù) 數(shù)據(jù)理解之數(shù)據(jù)質(zhì)量 數(shù)據(jù)理解之數(shù)據(jù)分布,93,Chapter 3,讀取數(shù)據(jù)文件,94,Chapter 3 讀取數(shù)據(jù)文件,目的 掌握Clementine如何讀取文本格式數(shù)據(jù) 了解Clementine可以讀取的數(shù)據(jù)格式 掌握Clementine中的字段類型和方向 數(shù)據(jù) S,95,Chapter 3 讀取數(shù)據(jù)文件,內(nèi)容及節(jié)點: 3.1 Clementine可以讀取的數(shù)據(jù)格式 3.2 讀取文本數(shù)據(jù)與查看數(shù)據(jù) 3.3 讀取SPSS數(shù)據(jù) 3.4 讀取數(shù)據(jù)庫數(shù)據(jù)(專用spss配置的鏈接) 3.5 Clementine中的字段類型 3.6 Clementine中的字段方向 3.7 保存Clementine流,96,3.1 Clementine可以讀取的數(shù)據(jù)格式,文本格式數(shù)據(jù) SPSS/SAS數(shù)據(jù) Excel,Access,dBase,F(xiàn)oxpro,Oracle,SQL Server,DB2等數(shù)據(jù)庫(每次只能讀一個表) 用戶輸入數(shù)據(jù),97,3.2 讀取文本數(shù)據(jù)與查看數(shù)據(jù),98,3.2 讀取文本數(shù)據(jù)與查看數(shù)據(jù),99,3.2 讀取文本數(shù)據(jù)與查看數(shù)據(jù),100,3.2 讀取文本數(shù)據(jù)與查看數(shù)據(jù),101,3.2 讀取文本數(shù)據(jù)與查看數(shù)據(jù),102,3.3 讀取SPSS數(shù)據(jù),變量標簽 值標簽,103,3.4 讀取數(shù)據(jù)庫數(shù)據(jù),ODBC設(shè)置,數(shù)據(jù)庫-表,104,3.5 Clementine中的字段類型,離散型 二分 eg:sex:m/f 多分 eg:等級:好/中/差 離散 eg: 連續(xù)型 整數(shù) 實數(shù) 日期、時間 其它,105,3.6 Clementine中的字段方向,106,3.7 讀取其它格式的數(shù)據(jù),Sas Fixed text file:同一字段在各行的同一列,107,Chapter 4,數(shù)據(jù)理解之數(shù)據(jù)質(zhì)量,108,Chapter 4 數(shù)據(jù)理解之數(shù)據(jù)質(zhì)量,目的: 掌握如何應(yīng)用Clementine發(fā)現(xiàn)數(shù)據(jù)的準確性、完整性 熟悉用于數(shù)據(jù)質(zhì)量分析的幾個節(jié)點 內(nèi)容: 4.1 數(shù)據(jù)理解 4.2 缺失值定義 4.3 Quality節(jié)點介紹 4.4 Distribution節(jié)點-初步理解字符型字段的分布 4.5 Histogram/Statistics節(jié)點-初步理解數(shù)值型字段的分布 數(shù)據(jù): Smallsamplemissing.txt Risk.txt,109,數(shù)據(jù)理解的內(nèi)容,對數(shù)據(jù)質(zhì)量進行評價 對數(shù)據(jù)進行初步的描述 對數(shù)據(jù)之間的關(guān)系進行探索性分析,110,4.1 數(shù)據(jù)理解,在數(shù)據(jù)挖掘之前,理解數(shù)據(jù)的取值范圍及數(shù)值分布是非常重要的 Histogram/Statistics Distribution 數(shù)據(jù)質(zhì)量越高,挖掘結(jié)果準確性越高 Quality,111,4.2 缺失值定義,Missing values are values in the data set that are unknown, uncollected, or incorrectly entered. They are invalid for their fields. 缺失值的定義:type節(jié)點 系統(tǒng)默認缺失值-on Null-數(shù)值型字段-空值-“”-“$Null” Empty String -字符型字段-空值-“” White Space -字符型字段-空值以及空格值-“”或“ ”-包括Empty String 指定缺失值-Blank Value 系統(tǒng)默認缺失值 指定特殊缺失值-“99” 缺失值的檢查:quality節(jié)點,112,4.2 缺失值定義,113,4.2 缺失值定義,數(shù)據(jù)缺失情況 數(shù)據(jù)量的大小 包含缺失值的字段的數(shù)量 缺失值的數(shù)量 缺失值的處理方法 忽略含缺失值的字段 忽略含缺失值的記錄 默認值代替缺失值 根據(jù)一定規(guī)則填充缺失值,114,4.3 Quality節(jié)點介紹,查看缺失值情況 查看各類型缺失值的分布情況 Blank Value的指定,115,4.3 Quality節(jié)點介紹,Quality結(jié)果,116,4.4 Distribution節(jié)點-初步理解字符型字段的分布,單個字段的值分布 例:人群中各種風(fēng)險等級人數(shù)及百分比 與其它分類字段合并 例:分性別顯示各種風(fēng)險等級人數(shù)及百分比 例:各種風(fēng)險等級中男性女性各占比例,117,4.5 Histogram/Statistics節(jié)點-初步理解數(shù)值型字段的分布,單個字段的值分布 例:人群收入水平 與其它分類字段合并 例:顯示各種風(fēng)險等級的收入水平 例:顯示各收入水平的各風(fēng)險等級比例,118,Chapter 5,簡單數(shù)據(jù)整理,119,Chapter 5 簡單數(shù)據(jù)整理,目的: 掌握Clementine中的數(shù)據(jù)整理技術(shù) 熟悉用于數(shù)據(jù)整理的幾個節(jié)點 內(nèi)容 5.1 Clem語言簡介 5.2 Select節(jié)點介紹 5.3 Filter節(jié)點介紹 5.4 Derive節(jié)點介紹 5.5 自動生成操作節(jié)點 數(shù)據(jù) Risk.txt SmallSampleMissing.txt,120,5.1 Clem語言簡介,Clementine Language of Expression Manipulation 應(yīng)用節(jié)點:Derive導(dǎo)出, Select選擇, Filter過濾 構(gòu)建材料:函數(shù)、符號、數(shù)字、字段 記錄敏感:對每條記錄返回值(整數(shù)、實數(shù)、布爾值、字符值、日期、時間)或評估是否滿足條件 兩種表達式:條件表達式與計算表達式,121,5.2 Select節(jié)點介紹,用于根據(jù)一定條件選擇或丟棄某些記錄 CLEM構(gòu)建,122,5.3 Filter節(jié)點介紹,對某些字段進行重命名或丟棄某些無意義的字段 無意義字段 缺失值占大比例 所有記錄有相同值 中間過程生成的中間變量,123,5.4 Derive節(jié)點介紹,根據(jù)原有字段值生成新字段值 按公式生成字段 生成二分型字段 生成多分型字段 對所有記錄按同樣標準生成新字段 對不同記錄按不同標準生成新字段 對多個字段進行同一轉(zhuǎn)換,124,5.4 Derive節(jié)點介紹,可以利用導(dǎo)出把連續(xù)數(shù)據(jù)離散化(導(dǎo)出為標志及集合),以進一步分析,125,5.5 自動生成操作節(jié)點,自動生成“Select” 自動生成“Filter”,126,第三講主要內(nèi)容,數(shù)據(jù)理解之數(shù)據(jù)關(guān)系探測 基本建模方法簡要介紹,127,Chapter 6,數(shù)據(jù)理解之 數(shù)據(jù)間簡單關(guān)系,128,Chapter 6 數(shù)據(jù)理解之數(shù)據(jù)間簡單關(guān)系,目的: 掌握如何理解字段間關(guān)系 熟悉用于字段關(guān)系理解的幾個節(jié)點 內(nèi)容 6.1 Matrix節(jié)點-研究字符型字段間關(guān)系 6.2 Web節(jié)點-研究字符型字段間關(guān)系 6.3 Statistics節(jié)點-研究連續(xù)型字段間線性相關(guān)關(guān)系 6.4 Plot節(jié)點-研究連續(xù)型字段間關(guān)系 6.5 Histogram節(jié)點-研究連續(xù)型字段與字符型字段的關(guān)系 數(shù)據(jù) Risk.txt,129,Chapter 6 數(shù)據(jù)理解之數(shù)據(jù)間簡單關(guān)系,解決問題 風(fēng)險等級是否與收入有關(guān) 風(fēng)險等級是否與性別有關(guān) 如果一個人的信用卡數(shù)量較多,是否意味著它欺詐的可能性也大,130,6.1 Matrix節(jié)點-研究字符型字段間關(guān)系,解決問題 月付款的人是否比周付款的人風(fēng)險程度更高 男性是否比女性風(fēng)險程序更高 Matrix節(jié)點: 交叉表(列聯(lián)表)來顯示字符型數(shù)據(jù)間關(guān)系 行字段與列字段的選擇 顯示百分比,131,6.1 Matrix節(jié)點-研究字符型字段間關(guān)系,132,6.2 Web節(jié)點-研究字符型字段間關(guān)系,例:婚姻狀態(tài)、抵押貸款等是否與風(fēng)險等級有關(guān) 幾個小概念: 人數(shù) 總數(shù)百分比 大類百分比 小類百分比 強、中、弱相關(guān)關(guān)系 結(jié)果解讀,133,6.2 Web節(jié)點-研究字符型字段間關(guān)系,134,6.3 Statistics節(jié)點-研究連續(xù)型字段間線性相關(guān)關(guān)系,例:收入是否隨年齡呈線性增長 Statistics節(jié)點設(shè)置 結(jié)果解讀 注意: 線性相關(guān)關(guān)系而非相關(guān)關(guān)系(線形相關(guān)是相關(guān)關(guān)系的一種,其他相關(guān)關(guān)系最終需要轉(zhuǎn)化為線形相關(guān)來研究),135,6.3 Statistics節(jié)點-研究連續(xù)型字段間線性相關(guān)關(guān)系,136,6.4 Plot節(jié)點-研究連續(xù)型字段間關(guān)系,例:顯示孩子數(shù)目與貸款數(shù)目的關(guān)系 用點的大小來反映其代表記錄的多少 用點的密度來反映其代表記錄的多少 用不同顏色的點來反映不同類別的記錄,137,6.4 Plot節(jié)點-研究連續(xù)型字段間關(guān)系,138,6.5 Histogram節(jié)點-研究連續(xù)型字段與字符型字段的關(guān)系,例:不同風(fēng)險等級的人的收入情況 顯示某收入水平的各風(fēng)險等級人數(shù) 顯示某收入水平-各風(fēng)險等級在該收入水平所占的比例,139,表格展現(xiàn)數(shù)據(jù),140,表格的元素構(gòu)成,141,表格類型 在SPSS里實現(xiàn),堆疊表(Stacking) 嵌套表(Nesting) 交叉表(Crosstabulation) 分層表(Layers),142,堆疊表,143,嵌套表,144,交叉表,145,分層表,146,把層去掉以后的效果,147,樞軸表技術(shù)(Pivot Tables),行、列、層可自由互換,達到從各個角度觀察數(shù)據(jù)的目的,148,Clementine表格,149,問題&討論,150,Chapter 7,建模技術(shù)概覽,151,Chapter 7 Clementine中的建模技術(shù),目的: 了解Clementine中提供的各種建模技術(shù) 內(nèi)容 7.1 Clementine提供的模型技術(shù) 7.2 Neural Networks(神經(jīng)網(wǎng)絡(luò)) 7.3 規(guī)則歸納模型 7.4 統(tǒng)計模型 7.5 聚類模型 7.6 關(guān)聯(lián)規(guī)則模型 7.7 Sequence模型 7.8 總述,152,Data Mining Model,Supervised Model(監(jiān)督模型,預(yù)測模型,有目標的,關(guān)注風(fēng)險狀況) (Predictive Model),Unsupervised Model,Data Reduction(數(shù)據(jù)整理),Neural Networks,C5.0,C&RT(CART),Regression,Logistic regression(分類變量預(yù)測),Kohonen,K-means,Two-Step,PCA(Principal Component Analysis)主成分分析,Factor因子分析,Clementine提供模型概述,Clustering(聚類),APRIORI,GRI(多維關(guān)聯(lián)),Sequence,Associations(關(guān)聯(lián)),153,7.1 Clementine提供的模型技術(shù),幾種技術(shù):預(yù)測、聚類、關(guān)聯(lián)規(guī)則 預(yù)測技術(shù): InputsOutput 六種方法: Neural Networks 規(guī)則歸納:C5.0,C&RT 與時間或順序有關(guān)的關(guān)聯(lián)規(guī)則:Sequence(Capri) 統(tǒng)計學(xué):回歸、Logistic回歸,154,7.1 Clementine提供的模型技術(shù),聚類技術(shù) 無Output 無監(jiān)督的學(xué)習(xí) 三種方法: Kohonen 統(tǒng)計學(xué):K-means、TwoStep 關(guān)聯(lián)規(guī)則 Both Input and Output 三種方法 GRI,Apriori Sequence (Capri),155,7.2 Neural Networks,模仿人腦 Input/Output可以是Num,也可以是Symbolic MLP與RBFN 劣勢:黑匣子,156,7.3 規(guī)則歸納模型,是決策樹算法 與Neural Net相比的優(yōu)勢 結(jié)果好解釋 自動刪除無意義的Input字段 主要是根據(jù)結(jié)果變量值對數(shù)據(jù)按Input進行細分 有兩種結(jié)果形式:決策樹形式或規(guī)則集形式,157,7.4 統(tǒng)計模型之線性回歸,統(tǒng)計模型與Neural Net相比: 嚴格的假設(shè)(如誤差正態(tài)分布) 用簡單方程表達模型,便于解釋 可自動選擇字段 無法捕捉Inputs字段間的交互作用 統(tǒng)計模型: 線性回歸 Logistic回歸 主成分分析,158,7.4 統(tǒng)計模型之回歸,線性回歸: 方程:Y=a+b1x1+b2x2+ +bnxn 原理:尋找使誤差平方和最小的系數(shù) Output字段-Numeric輸出必須是連續(xù)型 Input字段-Numeric/Symbolic Logistic回歸: 方程 原理:尋找使誤差平方和最小的系數(shù) 回歸系數(shù)隨結(jié)果值而改變,與NN,RI相比,不適合復(fù)雜數(shù)據(jù) Output字段-Symbolic輸出必須是離散性 Input字段-Numeric/Symbolic,159,7.4 統(tǒng)計模型之主成分分析,數(shù)據(jù)降維技術(shù): 用少量不相關(guān)數(shù)據(jù)(主成分)來代替大量相關(guān)數(shù)據(jù)(原始數(shù)據(jù))作分析 主成分是原始數(shù)據(jù)的線性組合 更可能與統(tǒng)計分析方法合并使用(相對于機器學(xué)習(xí)),尤其是在多個等級分類字段 可用于預(yù)測模型或聚類分析之前,160,7.5 聚類模型,發(fā)現(xiàn)有相似值記錄的群體 多用于市場(細分客戶)和其它商業(yè)應(yīng)用 與主成分分析相似,多用于預(yù)測模型之前 無監(jiān)督學(xué)習(xí)(無output) 三種聚類分析方法: Kohonen K-means TwoStep,161,7.5 聚類模型,Kohonen聚類 是一種實施無監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)算法 一維或二維網(wǎng)格,各神經(jīng)元相互連接 K-means聚類 又稱為快速聚類,(速度快,適合大量數(shù)據(jù)) 用戶指定類別數(shù) 與記錄順序有關(guān)(小數(shù)據(jù)量與記錄順序無關(guān),大數(shù)據(jù)需要先執(zhí)行一定程序找出數(shù)據(jù)各類別中心) TwoStep聚類 用戶指定范圍,模型根據(jù)統(tǒng)計學(xué)標準自動選擇類數(shù) 消耗機器資源少 能給出一個較好的結(jié)果,162,7.6 關(guān)聯(lián)規(guī)則模型,尋找數(shù)據(jù)中一起發(fā)生的事情 與Web相似,但以極快的速度發(fā)掘更復(fù)雜的模式 與規(guī)則歸納不同之處 每個規(guī)則的Output字段可能各不相同 規(guī)則可用于查看,但非預(yù)測 可生成同一output字段的規(guī)則,用于預(yù)測 與規(guī)則歸納相比,運行較慢,可增加限制條件從而提高速度 兩種算法:Apriori,GRI(廣義規(guī)則探測),163,7.7 Sequence模型,與關(guān)聯(lián)規(guī)則不同之處在于尋找與時間/順序有關(guān)的規(guī)則 應(yīng)用領(lǐng)域:零售、網(wǎng)絡(luò)日志、過程改進 用于字符型字段,數(shù)值被當作是字符 用CARMA算法,164,7.8 綜述,如果要預(yù)測某個字段-有監(jiān)督的機器學(xué)習(xí)和其中一種統(tǒng)計方法(依結(jié)果字段而定) 如果想發(fā)現(xiàn)有相似行為(許多字段)的個體-聚類 關(guān)聯(lián)規(guī)則不能直接用于預(yù)測,但它是一種用于理解數(shù)據(jù)內(nèi)模式的有用工具 如果對順序、時間有興趣,可用Sequence算法,165,7.8 綜述,如果想進一步選擇具體的預(yù)測技術(shù),依賴于目的字段,output字段與input字段間關(guān)系 有一定經(jīng)驗規(guī)律,但不是規(guī)則 Clementine的優(yōu)勢之處在于建模的簡單 Clementine只能發(fā)現(xiàn)數(shù)據(jù)內(nèi)存在的關(guān)系,如果數(shù)據(jù)本身不相關(guān)聯(lián),不可能提取出一個模型 數(shù)據(jù)挖掘是一個迭代、重復(fù)的過程,166,第四講:預(yù)測建模技術(shù),神經(jīng)網(wǎng)絡(luò)模型技術(shù) 決策樹模型技術(shù) 回歸分析技術(shù) 模型間評估技術(shù),167,預(yù)測的重要性,在當今充滿競爭的社會里,一個企業(yè)如果能準確地預(yù)知其未來,那么其生存機會將大大增加,預(yù)測科學(xué)就是處理對未來的預(yù)測等問題的學(xué)科。,人們對未知的恐懼 預(yù)測的重要性由來已久,168,預(yù)測相關(guān)注意事項,預(yù)測對象所在的環(huán)境常常處于動態(tài)變化之中,一些不可知事件會對預(yù)測結(jié)果造成很大影響; 被用來進行預(yù)測的數(shù)據(jù)常常是不穩(wěn)定、不確定和不完全的,由其來源和收集的方式所決定; 不同的時間區(qū)域常常需要不同的預(yù)測方法,形式上難以統(tǒng)一; 因為不同的預(yù)測方法在復(fù)雜性、數(shù)據(jù)要求以及準確程度上均不同,因此選擇一個合適的預(yù)測方法是很困難的。,169,Chapter 8,Neural Networks,170,Chpater 8 Neural Networks,目的: 掌握如何在Clementine中進行Neural Network 模型的構(gòu)建和解讀 掌握Neural Network節(jié)點 數(shù)據(jù):Risktrain.txt,171,Chpater 8 Neural Networks,內(nèi)容 8.1 Neural Net節(jié)點介紹 8.2 構(gòu)建Neural Network 8.3 模型管理區(qū)介紹 8.4 結(jié)果查看和結(jié)果解釋 8.5 模型預(yù)測值生成 8.6 模型評價 8.7 理解預(yù)測原因 8.8 模型總結(jié),172,神經(jīng)網(wǎng)絡(luò)模型預(yù)測技術(shù),基本概念: 神經(jīng)元 三層結(jié)構(gòu),173,8.1 Neural Net節(jié)點介紹,字段方向-Type節(jié)點或表 In-X字段-自變量字段 Out-Y字段-結(jié)果字段-聚類、主成分分析除外 Both-自變量和結(jié)果字段-關(guān)聯(lián)規(guī)則或順序算法 None-不用字段 ID-typeless-None 五種Neural Net方法,默認Quick 過度訓(xùn)練(長時間接觸同一個數(shù)據(jù)源,并用同樣特征去描述其他數(shù)據(jù)集,結(jié)果往往錯誤) 停止規(guī)則(避免過度訓(xùn)練) 字段的相對重要性分析,174,避免過度訓(xùn)練問題 選擇測試集錯誤較低,或者兩集錯誤交叉點,175,8.2 構(gòu)建Neural Network,例:用age、sex、income等來預(yù)測客戶的風(fēng)險等級,176,8.3 模型管理區(qū)介紹,瀏覽模型結(jié)果 導(dǎo)出模型代碼 將模型載入數(shù)據(jù)流 將模型導(dǎo)入項目管理區(qū) 保存、清除、裝載模型管理區(qū),177,8.4 結(jié)果查看和結(jié)果解釋,結(jié)果的瀏覽:Right click generated “model” 模型準確性 輸入字段或?qū)?輸出字段或?qū)?各輸入字段的相對重要性,178,8.5 模型預(yù)測值生成,將模型裝入數(shù)據(jù)流 $N-Risk是Neural Net對該記錄風(fēng)險等級 的預(yù)測值 $NC-Risk是$N-Risk的置信度(confidence),179,8.6 模型評價-預(yù)測值與實際值的比較,利用Matrix比較,通常關(guān)注的不是整體,例如欠費用戶群而不是整個用戶群。,180,8.6 模型評價,Evaluation Node-評估比較模型,以選擇最優(yōu)模型 Evaluation 的原理:將數(shù)據(jù)按預(yù)測值和置信度從高到低排序,將數(shù)據(jù)拆分為多個集合,每集合包含相同的記錄數(shù),然后作圖。 關(guān)注值:flag變量的真值,set變量的第一個值 五種圖形:收益圖、功效圖、響應(yīng)圖、投資回報圖、利潤圖,181,8.6 模型評價,收益圖,功效圖,182,8.7 理解預(yù)測原因,Web節(jié)點-Symbolic Input & Symbolic Output Distribuiton節(jié)點Symbolic Input & Symbolic Output Histogram節(jié)點-Numeric Input & Symbolic Output,183,8.8 模型總結(jié),預(yù)測風(fēng)險中最重要因素是婚姻狀態(tài)和收入 離異、單身、鰥寡人士可能是壞客戶 神經(jīng)網(wǎng)絡(luò)模型,高收入人群是好客戶,但這一點并不與實際相符,如此預(yù)測,可能會給銀行帶來損失 題外話:可用驗證數(shù)據(jù)集,利用分析節(jié)點、評估節(jié)點、Matrix節(jié)點對模型進行評估,184,Chapter 9,規(guī)則歸納模型 決策樹技術(shù),185,Chapter 9 規(guī)則歸納模型,目的: 掌握如何在Clementine中進行規(guī)則歸納模型的構(gòu)建和解讀 掌握C5.0節(jié)點 數(shù)據(jù) Risktrain.txt,186,Chapter 9 規(guī)則歸納模型,內(nèi)容 9.1 C5.0、C&RT介紹 9.2 構(gòu)建C5.0模型 9.3 C5.0 決策樹型結(jié)果瀏覽和解釋 9.4 C5.0 規(guī)則集型結(jié)果瀏覽和解釋 9.5 模型預(yù)測值生成 9.6 模型評價 9.7 模型總結(jié),187,9.1 C5.0、C&RT介紹,C5.0與C&RT的相似之處:構(gòu)建決策樹,按照自變量與結(jié)果變量的關(guān)系將數(shù)據(jù)拆分成各子群 C5.0與C&RT的不同之處:,188,9.2 構(gòu)建C5.0模型,模型的準確性與一般性 模型的驗證方法 交叉驗證(分散數(shù)據(jù)集,不斷用新數(shù)據(jù)去驗證) 模型結(jié)果字段值的減少(輸入變量最終并非全部進入模型) 建立多個模型: 耗時長 難以解釋結(jié)果,189,9.2 構(gòu)建C5.0模型,190,9.3 C5.0 決策樹型結(jié)果瀏覽和解釋,結(jié)果: 決策樹、模型形式 可分支的子根 眾數(shù) 顯示例數(shù)與置信度 繼承性,191,9.4 C5.0 規(guī)則集型結(jié)果瀏覽和解釋,192,9.5 模型預(yù)測值生成,193,9.6 模型評價-預(yù)測值與實際值的比較,利用Matrix來比較預(yù)測值與實際值,194,9.6 模型評價-不同值的收益圖,Gains Chart for the Good Risk Category,Gains Chart for the Bad Loss Category,195,9.7 模型總結(jié),C5.0使模型可以不用Web、Histogram等即可有效地理解模型 與Neural Net不同,沒有Sensitivity Analysis,但同樣可以辨別字段的重要性,196,決策樹的優(yōu)點,可以生成可以理解的規(guī)則 計算量相對來說不是很大 可以處理連續(xù)和種類字段 決策樹可以清晰的顯示哪些字段比較重要,197,決策樹的缺點,對連續(xù)性的字段比較難預(yù)測 對有時間順序的數(shù)據(jù),需要很多預(yù)處理的工作 當類別太多時,錯誤可能就會增加的比較快(對分類變量重新劃分,二分或者數(shù)據(jù)降維,spss聚類分析法) 一般的算法分類的時候,只是根據(jù)一個字段來分類(假設(shè)各字段間相關(guān)度不是很高),198,Chapter 10,模型比較,199,Chpater 10 模型比較,目的 掌握如何利用Analysis節(jié)點進行模型的評估 掌握如何利用驗證數(shù)據(jù)集比較不同模型 內(nèi)容 10.1 Analysis節(jié)點用于比較模型 10.2 Evaluation節(jié)點用于比較

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論