lb第2章 數(shù)據(jù)挖掘過程與知識(shí)發(fā)現(xiàn)_2.0ay_第1頁
lb第2章 數(shù)據(jù)挖掘過程與知識(shí)發(fā)現(xiàn)_2.0ay_第2頁
lb第2章 數(shù)據(jù)挖掘過程與知識(shí)發(fā)現(xiàn)_2.0ay_第3頁
lb第2章 數(shù)據(jù)挖掘過程與知識(shí)發(fā)現(xiàn)_2.0ay_第4頁
lb第2章 數(shù)據(jù)挖掘過程與知識(shí)發(fā)現(xiàn)_2.0ay_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 第2章 數(shù)據(jù)挖掘過程與知識(shí)發(fā)現(xiàn) 第一節(jié) CRISP_DM介紹一、數(shù)據(jù)挖掘階段跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程被行業(yè)成員廣泛應(yīng)用,這一模型包括以下六個(gè)階段:1.業(yè)務(wù)理解:業(yè)務(wù)理解包括確定商業(yè)對象、了解現(xiàn)狀、建立數(shù)據(jù)挖掘目標(biāo)和制定方案書。應(yīng)該是對數(shù)據(jù)挖掘的目標(biāo)有一個(gè)清晰的認(rèn)識(shí),知道利潤所在,其中包括數(shù)據(jù)收集、數(shù)據(jù)分析和數(shù)據(jù)報(bào)告等步驟。2.數(shù)據(jù)理解:一旦商業(yè)對象和方案書確定完備,數(shù)據(jù)理解就考慮將所需要的數(shù)據(jù)。這一過程包括原始數(shù)據(jù)收集、數(shù)據(jù)描述、數(shù)據(jù)探索和數(shù)據(jù)質(zhì)量核查等。由于數(shù)據(jù)挖掘是目標(biāo)導(dǎo)向的,不同的商業(yè)目的需要不同的數(shù)據(jù)系列。數(shù)據(jù)挖掘的第一步是從許多可供使用的數(shù)據(jù)庫中篩選相關(guān)數(shù)據(jù),來正確描述研究問題;即對

2、問題進(jìn)行簡單描述;識(shí)別問題的相關(guān)數(shù)據(jù);所選擇的變量要相互獨(dú)立,變量獨(dú)立意味著不涵蓋重復(fù)信息。3.數(shù)據(jù)準(zhǔn)備:確定可用的數(shù)據(jù)資源以后,需要對此進(jìn)行篩選、清理、調(diào)整為所需要的形式。數(shù)據(jù)整理和數(shù)據(jù)轉(zhuǎn)換等數(shù)據(jù)建模的準(zhǔn)備工作需要在這一階段完成。更深層次的數(shù)據(jù)探索也可以在這一階段進(jìn)行,新增模型的應(yīng)用再次提供了在業(yè)務(wù)理解根底上看清楚數(shù)據(jù)模式的時(shí)機(jī)。4.數(shù)據(jù)預(yù)先處理:噪聲問題和缺失問題數(shù)據(jù)重復(fù);數(shù)值錯(cuò)誤;數(shù)據(jù)缺失數(shù)據(jù)的變換數(shù)據(jù)類型的變換;數(shù)據(jù)的平滑;數(shù)據(jù)的概化;數(shù)據(jù)的標(biāo)準(zhǔn)化十進(jìn)制縮放:將某個(gè)數(shù)據(jù)全部除以10的相同的冪;通過極值來轉(zhuǎn)化: 新數(shù)據(jù)=原數(shù)據(jù)-最小數(shù)值/最大數(shù)值-最小數(shù)值通過均值和標(biāo)準(zhǔn)差來轉(zhuǎn)化:新數(shù)據(jù)=

3、原數(shù)據(jù)-均值/標(biāo)準(zhǔn)差通過對數(shù)來轉(zhuǎn)化對每個(gè)數(shù)據(jù)經(jīng)過自然對數(shù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換,例如下面的轉(zhuǎn)換可以把數(shù)據(jù)轉(zhuǎn)換到0-1之間: O=1/(1+exp(-x)5.建立模型:數(shù)據(jù)模型建立是應(yīng)用數(shù)據(jù)挖掘軟件不同的情景下獲得結(jié)果的過程。首先往往是聚類分析和數(shù)據(jù)視覺探究。依據(jù)數(shù)據(jù)挖掘類型的不同,應(yīng)用各種不同的模型,如果任務(wù)是對數(shù)據(jù)分組,那么運(yùn)用判別分析;如果任務(wù)是估計(jì),在連續(xù)數(shù)據(jù)類型的情況下,回歸分析就可以運(yùn)用,對于不連續(xù)的數(shù)據(jù)那么可以運(yùn)用邏輯回歸分析,神經(jīng)網(wǎng)絡(luò)技術(shù)對兩者都是可以的。決策樹是進(jìn)行數(shù)據(jù)分類的另外一個(gè)重要的工具,在以后的章節(jié)中將要進(jìn)行介紹。6.數(shù)據(jù)處理:數(shù)據(jù)挖掘的本質(zhì)是在獲取大規(guī)模的數(shù)據(jù)根底上進(jìn)行統(tǒng)計(jì)數(shù)據(jù)

4、的分析。通過對數(shù)據(jù)進(jìn)行分割,一局部成為訓(xùn)練集,另外一局部成為測試集。一局部進(jìn)行模型開發(fā),另外一局部成為模型檢驗(yàn)的局部。數(shù)據(jù)挖掘就是可以通過關(guān)聯(lián)、分類、聚類、序列模式、類似時(shí)間序列等方法來實(shí)現(xiàn)。7.模型評估:數(shù)據(jù)解釋階段是至關(guān)重要的,要對建立的模型是否能夠到達(dá)問題解決的目的進(jìn)行研究,即包括模型是否能夠到達(dá)研究的目標(biāo);模型是否能夠用適宜的方法顯示。8.模型發(fā)布:數(shù)據(jù)挖掘既可以應(yīng)用于核實(shí)先前的假設(shè),也可以應(yīng)用于知識(shí)發(fā)現(xiàn)識(shí)別未預(yù)期的有用的關(guān)系。顯然,這幾個(gè)步驟不是一成不變的,而是互相作用的。9.評估方法:一般來說,研究中把大規(guī)模數(shù)據(jù)集合分為兩個(gè)局部:訓(xùn)練集和測試集,分類誤差通常運(yùn)用錯(cuò)差矩陣干擾矩陣表現(xiàn)

5、出來,它可以表示出正確分類的案例數(shù)目,以及分到不正確類別的案例數(shù)。錯(cuò)差矩陣中所揭示的兩類錯(cuò)誤的損害有時(shí)候不是一樣的,例如,銀行貸款給一個(gè)希望歸還但是沒有能力歸還的,比起沒有把款項(xiàng)貸給實(shí)際會(huì)歸還的客戶更加令人痛苦。運(yùn)用本錢分析方法可以比較不同的預(yù)測判別方法的本錢,運(yùn)用錯(cuò)差矩陣來度量,并且計(jì)算本錢函數(shù),例如: 表1:錯(cuò)差矩陣:誤分類本錢相等 帳單模型中不能夠償付模型中可以償付合計(jì)實(shí)際不能夠償付501464實(shí)際能夠償付76578654合計(jì)126592718總分類正確率等于可用正確分類數(shù)量50+578=628除以總案例718數(shù)量而得到,于是,案例中有87.5%的數(shù)據(jù)得到了正確的分類。這里的本錢函數(shù):

6、190×關(guān)閉良好帳戶+10×保存帳戶= 190×76+10×14=14580美圓實(shí)際上,把好的當(dāng)作不好的比例相當(dāng)高,是實(shí)踐中難以接受的。如果充分運(yùn)用先驗(yàn)概率對此進(jìn)行研究,那么可以得到如下矩陣:表2:錯(cuò)差矩陣:誤分類本錢不相等 帳單模型中不能夠償付模型中可以償付合計(jì)實(shí)際不能夠償付362864實(shí)際能夠償付22632654合計(jì)58660718案例中93%得到了正確地執(zhí)行,說明方法得到了顯著的改進(jìn)。二、討論:1.將以下客戶年齡的數(shù)值轉(zhuǎn)換為年輕40歲以下、中年40-60和老人60歲以上的類別??蛻裟挲g歲Fred46Herman52George36Frieda39H

7、ermione282.將以下工資轉(zhuǎn)換為數(shù)值范圍,20000等于0,220000等于1,其他在0-1之間客戶工資美元Fred120000Herman200000George50000Frieda65000Hermione350003.幾種數(shù)據(jù)挖掘技術(shù)應(yīng)用于數(shù)據(jù)測試中,哪種結(jié)果是最好的?主語實(shí)際回歸聚類神經(jīng)網(wǎng)絡(luò)基于規(guī)那么Fred好好好好好Herman差好差好差George好好差差差Frieda好好好好差Hermione差好差差好4.如果把好的當(dāng)作差的本錢為100美元,差的當(dāng)作好的本錢為500美元,那么上述各種方法的本錢是多少? 第二節(jié) 數(shù)據(jù)挖掘的數(shù)據(jù)庫支持1.數(shù)據(jù)倉庫:因?yàn)榇嬖诖罅康臄?shù)據(jù)、所以才有

8、數(shù)據(jù)挖掘。這些數(shù)據(jù)必須以結(jié)構(gòu)化和可靠的形式存在。數(shù)據(jù)倉庫是事實(shí)和相關(guān)數(shù)據(jù)有序保存、容易讀取的存儲(chǔ)地,而這些數(shù)據(jù)可以更好地有利于決策。數(shù)據(jù)倉庫通常整合不同的來源的信息,需要識(shí)別、獲取數(shù)據(jù)并對其進(jìn)行清理、分類,以利于組織決策的方式進(jìn)行存儲(chǔ)。通常數(shù)據(jù)倉庫處理流程包括以下三點(diǎn):數(shù)據(jù)產(chǎn)生流程;數(shù)據(jù)管理流程;信息分析流程。數(shù)據(jù)倉庫具有以下作用: 為商業(yè)用戶提供完成任務(wù)所需要的數(shù)據(jù)支持;通過合并和協(xié)調(diào),消除業(yè)務(wù)元素間的屏障; 提供組織中重要局部的宏觀視野;使信息獲取更加及時(shí)和詳細(xì);為特定的團(tuán)隊(duì)提供特定的信息;提供判斷未來開展趨勢的能力。2.數(shù)據(jù)集市:是用來為數(shù)據(jù)挖掘分析進(jìn)行特定的效勞提取的特定信息。最初,數(shù)

9、據(jù)集市從獨(dú)立的數(shù)據(jù)倉庫中區(qū)別開來?,F(xiàn)在,許多數(shù)據(jù)集市是用于連接數(shù)據(jù)倉庫而不是數(shù)據(jù)倉庫的競爭產(chǎn)品,但是因?yàn)閮r(jià)格比較低廉,仍有很多數(shù)據(jù)集市被獨(dú)立使用。度量數(shù)據(jù)倉庫的詳細(xì)程度的單位是粒度,數(shù)據(jù)挖掘關(guān)注于近乎原始形式的數(shù)據(jù),所以需要處理數(shù)據(jù),因?yàn)閿?shù)據(jù)必須完整、正確、格式正確。3.聯(lián)機(jī)分析處理:聯(lián)機(jī)分析處理(OLAP)是用于數(shù)據(jù)共享的多維電子表格,可以讓用戶在他們認(rèn)為重要的維度上提取處理,生成報(bào)表。數(shù)據(jù)被分割成不同維度,并按照層級(jí)組織起來。OLAP可以生成許多變量和擴(kuò)展元素。在由數(shù)據(jù)倉庫、OLAP效勞器和客戶端組成的系統(tǒng)中,OLAP產(chǎn)品是組成局部,通常位于本地網(wǎng)絡(luò)中,系統(tǒng)連接了客戶端用戶。 OLAP效勞

10、器將信息從數(shù)據(jù)倉庫中重新提取信息,然后對數(shù)據(jù)進(jìn)行處理并發(fā)送至主效勞器,用戶通過網(wǎng)絡(luò)或者電子表格獲取這些信息。4.數(shù)據(jù)倉庫的實(shí)現(xiàn):通過提供可靠的、完整的和干凈的數(shù)據(jù)來源,數(shù)據(jù)倉庫能夠減輕上述情況的發(fā)生。從技術(shù)上來說,“臟數(shù)據(jù)是不正確的、不完整的或格式是錯(cuò)誤的。與實(shí)現(xiàn)數(shù)據(jù)倉庫系統(tǒng)相關(guān)的三個(gè)主要步驟如下:系統(tǒng)開發(fā);數(shù)據(jù)獲??;依據(jù)用途提取數(shù)據(jù)。 5.元數(shù)據(jù):數(shù)據(jù)挖掘管理不同于數(shù)據(jù)管理,數(shù)據(jù)管理關(guān)注于管理企業(yè)的所有數(shù)據(jù),而數(shù)據(jù)倉庫管理指的是數(shù)據(jù)倉庫生命周期中各個(gè)階段的設(shè)計(jì)和操作。生命周期包括以下內(nèi)容:管理元數(shù)據(jù):設(shè)計(jì)數(shù)據(jù)倉庫;確保數(shù)據(jù)質(zhì)量;在操作中管理系統(tǒng)元數(shù)據(jù)metadata是跟蹤數(shù)據(jù)所需要的參數(shù)集合

11、,用于描述倉庫的組織。數(shù)據(jù)目錄使得用戶能夠有針對性地了解數(shù)據(jù)倉庫包含什么內(nèi)容。數(shù)據(jù)倉庫的內(nèi)容由元數(shù)據(jù)定義,還提供數(shù)據(jù)的商業(yè)目的和技術(shù)目的。元數(shù)據(jù)包括以下內(nèi)容: 可獲得的數(shù)據(jù); 各數(shù)據(jù)元素的來源; 指定數(shù)據(jù)的位置; 數(shù)據(jù)更新頻率; 預(yù)定義報(bào)表和查詢; 數(shù)據(jù)讀取方法。 技術(shù)元素僅僅數(shù)據(jù)倉庫管理員可見: 數(shù)據(jù)來源、內(nèi)部和外部; 數(shù)據(jù)準(zhǔn)備特征; 數(shù)據(jù)的邏輯結(jié)構(gòu); 數(shù)據(jù)倉庫的物理結(jié)構(gòu)和內(nèi)容; 數(shù)據(jù)所有權(quán); 平安權(quán)限; 系統(tǒng)信息。 第三節(jié) 數(shù)據(jù)挖掘方法概述本節(jié)準(zhǔn)備介紹數(shù)據(jù)挖掘的根本方法,可依任務(wù)類別、估計(jì)、聚類和概要進(jìn)行分類,類別和預(yù)測屬于事前性質(zhì)的,而聚類和概要屬于事后性質(zhì)的。1.數(shù)據(jù)挖掘方法:由于目的

12、不同,數(shù)據(jù)挖掘使用了大量的模型化工具。很多作者通過可行的工具來闡釋這些目的。這些研究方法既包括人工智能工具,也包括歷史統(tǒng)計(jì)學(xué)方法的結(jié)晶。統(tǒng)計(jì)方法是強(qiáng)有力的診斷工具,能夠以此促進(jìn)參數(shù)估計(jì)、假設(shè)檢驗(yàn)和其他方法的開展。而人工智能artificial intelligence方法不需要對數(shù)據(jù)做太多的假設(shè)。表1:數(shù)據(jù)挖掘模型化工具Radding算法Peacock算法根底任務(wù)聚類檢測聚類分析統(tǒng)計(jì)學(xué)分類回歸模型統(tǒng)計(jì)學(xué)估計(jì)邏輯回歸統(tǒng)計(jì)學(xué)分類判別分析統(tǒng)計(jì)學(xué)分類神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)人工智能分類Kohionen網(wǎng)絡(luò)人工智能聚類決策樹規(guī)那么推理關(guān)聯(lián)規(guī)那么人工智能分類關(guān)聯(lián)規(guī)那么人工智能描述鏈接分析描述查詢工具描述描述統(tǒng)計(jì)學(xué)

13、統(tǒng)計(jì)學(xué)描述可視化工具統(tǒng)計(jì)學(xué)描述2.數(shù)據(jù)挖掘方法視野:根據(jù)上述表格可以知道,假設(shè)從統(tǒng)計(jì)學(xué)的角度看數(shù)據(jù)挖掘,其方法應(yīng)該包括以下幾類:聚類分析、各種形式的回歸、判別分析、多目標(biāo)線性回歸方法等;從人工智能的角度看數(shù)據(jù)挖掘,其方法有:神經(jīng)網(wǎng)絡(luò)、規(guī)那么推理、遺傳算法等。對于數(shù)據(jù)的處理,不同的方法的處理優(yōu)劣如表2所示,即處理不同數(shù)據(jù)的能力有顯著的差異,應(yīng)該根據(jù)實(shí)際情況進(jìn)行處理。表2:數(shù)據(jù)挖掘方法處理數(shù)據(jù)的綜合能力數(shù)據(jù)特征規(guī)那么推理神經(jīng)網(wǎng)絡(luò)案例推理遺傳算法處理雜亂數(shù)據(jù)好非常好好非常好處理喪失數(shù)據(jù)好好非常好好處理大數(shù)據(jù)集非常好差好好處理不同數(shù)據(jù)類型好轉(zhuǎn)成數(shù)字非常好轉(zhuǎn)成需要形式預(yù)測的準(zhǔn)確性高非常高高高解釋能力非常

14、好差非常好好綜合難易度好好好非常好運(yùn)行難易度容易難容易難3.數(shù)據(jù)挖掘的作用:通過公開出版物中的信息可以發(fā)現(xiàn)問題可以分為以下幾類:分類:用測試數(shù)據(jù)集來識(shí)別常被用來分類數(shù)據(jù)的類別和聚類,這方法典型的應(yīng)用有投資風(fēng)險(xiǎn)和回報(bào)特征進(jìn)行分類,以及對貸款人員的信用風(fēng)險(xiǎn)分類。預(yù)測:識(shí)別數(shù)據(jù)的關(guān)鍵特征,以便于找到公式來預(yù)測未來的事件,回歸模型就是如此。關(guān)聯(lián):識(shí)別決定實(shí)體關(guān)系的規(guī)那么,這方面的例子主要有企業(yè)財(cái)務(wù)特征分析。檢測:確定不規(guī)那么屬性,對于欺詐檢測特別有價(jià)值。表3:按照方法分類的數(shù)據(jù)挖掘應(yīng)用領(lǐng)域領(lǐng)域方法應(yīng)用問題類型財(cái)務(wù)神經(jīng)網(wǎng)絡(luò)預(yù)測股票價(jià)格預(yù)測神經(jīng)網(wǎng)絡(luò)預(yù)測破產(chǎn)預(yù)測規(guī)那么推理預(yù)測價(jià)格指數(shù)期貨預(yù)測檢測欺詐檢測神經(jīng)

15、網(wǎng)絡(luò)利率預(yù)測預(yù)測案例推理神經(jīng)網(wǎng)絡(luò)銀行拖欠貸款檢測可視化規(guī)那么推理預(yù)測拖欠貸款預(yù)測信用評估預(yù)測證券管理預(yù)測風(fēng)險(xiǎn)分類分類金融客戶分級(jí)分類規(guī)那么推理預(yù)測案例推理規(guī)那么推理、可視化貸款審批預(yù)測 第四節(jié) 實(shí)證數(shù)據(jù)集演示1.貸款申請數(shù)據(jù):下組數(shù)據(jù)包含了貸款申請人,完整的數(shù)據(jù)集共有650個(gè)上述的觀察目標(biāo)。申請人信息有年齡、收入、資產(chǎn)和信用等級(jí)等變量,信用等級(jí)數(shù)據(jù)來自于信用機(jī)構(gòu),紅色表示不良信用,黃色表示信用問題,綠色表示良好的信用記錄,這些信息披露被假定為對申請貸款是有用的。按時(shí)歸還表示為1,反之表示為0。如果債務(wù)超過資產(chǎn)那么表示為高風(fēng)險(xiǎn),反之為低風(fēng)險(xiǎn)。表4:申請貸款訓(xùn)練數(shù)據(jù)集年齡收入資產(chǎn)債務(wù)貸款量風(fēng)險(xiǎn)信用

16、等級(jí)結(jié)果2017152低收入1109020455400高綠按時(shí)2325862低收入14756300832300高綠按時(shí)2826169低收入47355493413100高黃按時(shí)2321117低收入2124230278300高紅延時(shí)227127低收入2390317231900低黃按時(shí)2642083中等收入3572641421300高紅不履行2455557中等收入27040481911500高綠按時(shí)2734843中等收入0210312100高紅按時(shí)2974295中等收入88827100599100高黃按時(shí)2338887中等收入6260336359400高綠延時(shí)2831758中等收入584924926

17、81000低綠按時(shí)2580180高收入31696695291000高黃延時(shí)3340921中等收入91111900762900中綠按時(shí)3663124中等收入164631144697300低綠按時(shí)3959006中等收入195759161750600低黃按時(shí)55125713高收入3821803153965200低綠按時(shí)6280149高收入511937219231000低綠按時(shí)7181723高收入783164202771800低綠按時(shí)6399522高收入78349124643900低綠按時(shí) 表5是一組測試數(shù)據(jù)集。 年齡收入資產(chǎn)債務(wù)貸款量風(fēng)險(xiǎn)信用等級(jí)結(jié)果37372141234201062414100低綠按時(shí)45573912504101918795800低綠按時(shí)45366921750371378003400低綠按時(shí)2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論