數(shù)據(jù)挖掘概念與技術(shù)課件_第1頁
數(shù)據(jù)挖掘概念與技術(shù)課件_第2頁
數(shù)據(jù)挖掘概念與技術(shù)課件_第3頁
數(shù)據(jù)挖掘概念與技術(shù)課件_第4頁
數(shù)據(jù)挖掘概念與技術(shù)課件_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘概念與技術(shù)數(shù)據(jù)挖掘概念與技術(shù)

第一課分類一、數(shù)據(jù)挖掘及知識(shí)的定義

1、數(shù)據(jù)挖掘定義:從大量數(shù)據(jù)中提取或“挖掘”知識(shí);2、數(shù)據(jù)挖掘技術(shù):分類、預(yù)測(cè)、關(guān)聯(lián)和聚類等;

3、數(shù)據(jù)挖掘過程:數(shù)據(jù)的清理、集成、選擇、變換、挖掘、模型評(píng)估、知識(shí)表示;4、知識(shí)定義:知識(shí)就是“壓縮”-濃縮就是精華!

1)OccamRazor:因不宜超出果之需!2)信息論:熵3)MDL準(zhǔn)則:minimumdescriptionlength第一課分類一、數(shù)據(jù)挖掘及知識(shí)的定義

第一課分類二、神經(jīng)網(wǎng)絡(luò)知識(shí)預(yù)備

1、單層神經(jīng)網(wǎng)絡(luò);

2、多層神經(jīng)網(wǎng)絡(luò)。第一課分類二、神經(jīng)網(wǎng)絡(luò)知識(shí)預(yù)備

第一課分類三、SPSS軟件及Logistic回歸知識(shí)預(yù)備1、回歸方法分類多個(gè)因變量(y1,y2,…yk)路徑分析結(jié)構(gòu)方程模型分析一個(gè)因變量y連續(xù)型因變量(y)---線性回歸分析分類型因變量(y)---Logistic回歸分析時(shí)間序列因變量(t)---時(shí)間序列分析生存時(shí)間因變量(t)---生存風(fēng)險(xiǎn)回歸分析第一課分類三、SPSS軟件及Logistic回歸知識(shí)預(yù)備

第一課分類三、SPSS軟件及Logistic回歸知識(shí)預(yù)備2、回歸方法適用前提1)大樣本,樣本量為自變量個(gè)數(shù)的20倍左右;2)因變量或其數(shù)學(xué)變換與自變量有線性關(guān)系;3)擾動(dòng)項(xiàng)(誤差項(xiàng))符合正態(tài)分布;4)自變量間不存在諸如多重共線性等關(guān)系;5)誤差項(xiàng)方差不變;

等等。。。。。。。。

第一課分類三、SPSS軟件及Logistic回歸知識(shí)預(yù)備

第一課分類三、SPSS軟件及Logistic回歸知識(shí)預(yù)備3、Logistic回歸方法介紹1)Logit變換

Logit變換是Logistic回歸模型的基礎(chǔ)?,F(xiàn)實(shí)中常要研究某一事件A發(fā)生的概率P及P值的大小與某些影響因此之間的關(guān)系,但由于P對(duì)X的變化在P=0或P=1的附近不是很敏感的,或說是緩慢的,比如像可靠系統(tǒng),可靠度P已經(jīng)是0.998了,即使再改善條件和系統(tǒng)結(jié)構(gòu),它的可靠度增長(zhǎng)也只能是在小數(shù)點(diǎn)后面的第三位或第四位之后,于是自然希望尋找一個(gè)P的函數(shù)形式θ(P),使它在P=0或P=1附近變化幅度較大,且最好函數(shù)形式簡(jiǎn)單,根據(jù)數(shù)學(xué)上導(dǎo)數(shù)的意義,提出用來反映θ(p)是在P附近的變化是很適合的,同時(shí)希望P=0或P=1時(shí),有較大的值,因此?。剑矗?/p>

第一課分類三、SPSS軟件及Logistic回歸知識(shí)預(yù)備

第一課分類三、SPSS軟件及Logistic回歸知識(shí)預(yù)備3、Logistic回歸方法介紹2)Logistic回歸設(shè)因變量是一個(gè)二分類變量,其取值為=1和=0。影響取值的個(gè)自變量分別為,則Logistic變換如下式表示:

第一課分類三、SPSS軟件及Logistic回歸知識(shí)預(yù)備

第一課分類四、神經(jīng)網(wǎng)絡(luò)與Logistic回歸優(yōu)缺點(diǎn)對(duì)比

1、神經(jīng)網(wǎng)絡(luò)優(yōu)缺點(diǎn)1)優(yōu)點(diǎn):數(shù)據(jù)類型無要求,高度智能,強(qiáng)“魯棒”性,可進(jìn)行非線性擬合,能容忍缺失值,異常值的出現(xiàn)等;2)缺點(diǎn):“黑箱”過程導(dǎo)致知識(shí)結(jié)果難于解釋。2、Logistic回歸方法優(yōu)缺點(diǎn)1)優(yōu)點(diǎn):線性回歸方程的知識(shí)結(jié)果使得所獲知識(shí)易于解釋;2)缺點(diǎn):數(shù)據(jù)類型要求高,回歸方法成立前提多,只適用于線性擬合,缺失值,異常值會(huì)導(dǎo)致結(jié)果精確度大為下降。

3、二者區(qū)別:硬計(jì)算與軟計(jì)算,知識(shí)表達(dá)方式不同第一課分類四、神經(jīng)網(wǎng)絡(luò)與Logistic回歸優(yōu)缺點(diǎn)對(duì)比

第二課預(yù)測(cè)一、相關(guān)概念

1、神經(jīng)網(wǎng)絡(luò)的“過擬合”現(xiàn)象1)“過擬合”指的是神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練集進(jìn)行訓(xùn)練的過程中,無法識(shí)別數(shù)據(jù)中的“噪音”,并且把“噪音”的影響毫無保留的存貯于網(wǎng)絡(luò)參數(shù)(權(quán)重、偏置)中?!斑^擬合”會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)對(duì)測(cè)試集進(jìn)行分類、預(yù)測(cè)時(shí),產(chǎn)生不必要的偏差。2)解決“過似合”現(xiàn)象辦法之一為N-fold交差驗(yàn)證。2、MSE、NMSE等概念的定義1)MSE:均方誤差(注:與均方差的區(qū)別),其定義為誤差平方和除以它的自由度。第二課預(yù)測(cè)一、相關(guān)概念

第二課預(yù)測(cè)一、相關(guān)概念

2)NMSE定義:

注:此處的方差為樣本總體方差。NMSE的物理意義為標(biāo)準(zhǔn)化的MSE。

第二課預(yù)測(cè)一、相關(guān)概念

第二課預(yù)測(cè)二、預(yù)測(cè)實(shí)驗(yàn)

1、實(shí)驗(yàn)?zāi)康模?/p>

1)理解分類與預(yù)測(cè)區(qū)別2)熟練使用神經(jīng)網(wǎng)絡(luò)軟件NeuroSolutions解決預(yù)測(cè)問題。3)學(xué)會(huì)運(yùn)用靈敏度分析,對(duì)屬性進(jìn)行靈敏度測(cè)量。4)學(xué)會(huì)通過多次訓(xùn)練模型,避免模型停止在局部最優(yōu)。

2、實(shí)驗(yàn)原理

1)神經(jīng)網(wǎng)絡(luò)方法原理

2)多元線性統(tǒng)計(jì)方法原理(注意什么是線性,其內(nèi)涵是什么?)

第二課預(yù)測(cè)二、預(yù)測(cè)實(shí)驗(yàn)

第三課聚類分析一、聚類分析定義、特征、應(yīng)用及評(píng)估

1、定義:將物理或抽象的集合分組成為由類似的對(duì)象組成的多個(gè)類的過程被稱為聚類。

1)聚類的方法類型(1)劃分方法:K-平均和K-中心算法;(2)層次方法:系統(tǒng)聚類;

(3)基于密度方法:種類較多,對(duì)發(fā)現(xiàn)數(shù)據(jù)“噪音”有優(yōu)勢(shì);(4)基于網(wǎng)格方法:小波聚類為典型,效率高,復(fù)雜度低;(5)基于模型方法:統(tǒng)計(jì)學(xué)中的分類樹方法-利用信息熵、貝葉斯統(tǒng)計(jì)原理為分類原則、競(jìng)爭(zhēng)學(xué)習(xí)與自組織特征圖。

第三課聚類分析一、聚類分析定義、特征、應(yīng)用及評(píng)估

第三課聚類分析一、聚類分析定義、特征、應(yīng)用及評(píng)估

2、聚類與分類的區(qū)別1)聚類所要?jiǎng)澐值念愇粗?,而分類要?jiǎng)澐值念愐阎?)聚類不依賴預(yù)先定義的類和帶類標(biāo)號(hào)的訓(xùn)練實(shí)例,因此它是觀察式的學(xué)習(xí),而不是示例學(xué)習(xí);3)聚類的有監(jiān)督與分類的無監(jiān)督的區(qū)別。3、聚類分析的應(yīng)用:是一種重要的數(shù)據(jù)挖掘方法,廣泛應(yīng)用于信用卡欺詐、定制市場(chǎng)(移動(dòng)客戶劃分及定價(jià)等)、醫(yī)療分析。特別是孤立點(diǎn)的挖掘與分析,有著重要的實(shí)際應(yīng)用。4、聚類質(zhì)量的評(píng)估:相異度

第三課聚類分析一、聚類分析定義、特征、應(yīng)用及評(píng)估

第三課聚類分析二、K-平均聚類方法、系統(tǒng)聚類及決策樹方法

1、K-平均聚類方法

1)原理:隨機(jī)選擇k個(gè)對(duì)象,每個(gè)對(duì)象初始地代表一個(gè)類的平均值或中心,對(duì)剩余每個(gè)對(duì)象,根據(jù)其到類中心的距離,被劃分到最近的類;然后重新計(jì)算每個(gè)類的平均值。不斷重復(fù)這個(gè)過程,直到所有的樣本都不能再分配為止(指中心點(diǎn)改變很小的時(shí)候,稱之為收斂)。2)特征:k事先定好;創(chuàng)建一個(gè)初始劃分;再采用迭代的重定位技術(shù)進(jìn)行;不必確定距離矩陣;比系統(tǒng)聚類法運(yùn)算量要小;適用于處理龐大的樣本數(shù)據(jù);適用于發(fā)現(xiàn)球狀類。3)缺點(diǎn):平均值必須有定義,對(duì)于有些分類變量的集合不適用一;不同的初始值,結(jié)果可能不同;有些k均值算法的結(jié)果與數(shù)據(jù)輸入順序有關(guān),如在線k均值算法,用爬山式技術(shù)(hill-climbing)來尋找最優(yōu)解,容易陷入局部極小值;對(duì)孤立點(diǎn)敏感。

第三課聚類分析二、K-平均聚類方法、系統(tǒng)聚類及決策樹方法

第三課聚類分析二、K-平均聚類方法、系統(tǒng)聚類及決策樹方法

1、系統(tǒng)聚類

1)原理:SPSS軟件中,HierarchicalCluster過程使用的就是系統(tǒng)聚類法來進(jìn)行分析,該方法的原理是先將所有N個(gè)變量看成不同的N類,然后將性質(zhì)最接近(距離最近)的兩類合并為一類;再從這N-1類中找到最接近的兩類加以合并,依此類推,直到所以的變量被合成一類為止。得到該結(jié)果后,再根據(jù)具體問題和聚類結(jié)果決定對(duì)該事物應(yīng)該分成幾類。顯然,一量某變量被劃定在一個(gè)類別中后,它的分類結(jié)果將不會(huì)再改變,這是它和非系統(tǒng)聚類的顯著區(qū)別。2)特征:聚類變量可以為連續(xù)及離散性質(zhì),表達(dá)結(jié)果層次豐富;變量間如存在多重共線性,對(duì)聚類結(jié)果影響較大,應(yīng)先通過主成分分析方法或剔除權(quán)重較小變量再進(jìn)行分析。3)缺點(diǎn):由于需要反復(fù)計(jì)算距離,計(jì)算量較大;異常值對(duì)聚類結(jié)果影響巨大;。

第三課聚類分析二、K-平均聚類方法、系統(tǒng)聚類及決策樹方法

第四課決策樹一、關(guān)聯(lián)規(guī)則挖掘相關(guān)理論

1、信息論

美國(guó)工程師Shannon于1948年發(fā)表“AMathematicalTheoryofcommunication”,標(biāo)致著信息論的誕生。Shannon于1949年發(fā)表“CommunicationTheoryofSecrecysystem”,以信息論為基礎(chǔ),用概率統(tǒng)計(jì)為數(shù)學(xué)手段對(duì)保密通信問題進(jìn)行了分析。由香農(nóng)提出的保密系統(tǒng)模型目前仍然是現(xiàn)代密碼學(xué)的基本模型

第四課決策樹一、關(guān)聯(lián)規(guī)則挖掘相關(guān)理論

第四課決策樹一、關(guān)聯(lián)規(guī)則挖掘相關(guān)理論

2、信息論基本原理

1)信息量信息是指消息消除掉的不確定性,消息的信息量就是它消除掉的不確定性的量度。假設(shè)隨機(jī)變量為,發(fā)生的概率定義為,它的信息量為

第四課決策樹一、關(guān)聯(lián)規(guī)則挖掘相關(guān)理論

第四課決策樹一、關(guān)聯(lián)規(guī)則挖掘相關(guān)理論

2、信息論基本原理

2)信息熵各個(gè)互不相容事件的自信息量的統(tǒng)計(jì)平均值(期望值)為該事件集合的信息熵:

第四課決策樹一、關(guān)聯(lián)規(guī)則挖掘相關(guān)理論

第四課決策樹一、關(guān)聯(lián)規(guī)則挖掘相關(guān)理論

2、信息論基本原理

3)聯(lián)合熵

第四課決策樹一、關(guān)聯(lián)規(guī)則挖掘相關(guān)理論

第四課決策樹一、關(guān)聯(lián)規(guī)則挖掘相關(guān)理論

2、信息論基本原理

4)條件熵

第四課決策樹一、關(guān)聯(lián)規(guī)則挖掘相關(guān)理論

第四課決策樹一、關(guān)聯(lián)規(guī)則挖掘相關(guān)理論

2、信息論基本原理

5)互信息

第四課決策樹一、關(guān)聯(lián)規(guī)則挖掘相關(guān)理論

第四課決策樹一、關(guān)聯(lián)規(guī)則挖掘相關(guān)理論

2、信息論基本原理

6)平均互信息量

第四課決策樹一、關(guān)聯(lián)規(guī)則挖掘相關(guān)理論

第四課決策樹一、關(guān)聯(lián)規(guī)則挖掘相關(guān)理論

2、信息論基本原理

6)平均互信息量、熵及條件熵之間的關(guān)系

第四課決策樹一、關(guān)聯(lián)規(guī)則挖掘相關(guān)理論

第四課決策樹二、關(guān)聯(lián)規(guī)則簡(jiǎn)單案例

1、蔬菜案例

顏色形狀蔬菜紅圓番茄紫長(zhǎng)茄子綠長(zhǎng)黃瓜第四課決策樹二、關(guān)聯(lián)規(guī)則簡(jiǎn)單案例顏色形狀蔬菜紅圓番茄紫長(zhǎng)

第四課決策樹二、關(guān)聯(lián)規(guī)則簡(jiǎn)單案例

2、蔬菜案例熵、條件熵及互信息(信息增益)1)熵、條件熵:H(蔬菜)=?H(蔬菜,顏色)=?H(蔬菜,形狀)=?2)信息增益I(蔬菜,顏色)=H(蔬菜)-H(蔬菜,顏色)=?I(蔬菜,形狀)=H(蔬菜)-H(蔬菜,形狀)=?3)結(jié)論:信息增益越大,就用之作為決策樹第一分類屬性。

第四課決策樹二、關(guān)聯(lián)規(guī)則簡(jiǎn)單案例

第四課決策樹二、關(guān)聯(lián)規(guī)則簡(jiǎn)單案例

3、蔬菜案例分類樹如下:

顏色紅紫 綠

番茄茄子黃瓜

第四課決策樹二、關(guān)聯(lián)規(guī)則簡(jiǎn)單案例

第四課決策樹三、關(guān)聯(lián)規(guī)則稍復(fù)雜案例

1、分類樹屬性選擇度量標(biāo)準(zhǔn)信息增益——Informationgain(ID3)增益比率——Gainration(C4.5)基尼指數(shù)——Giniindex(SLIQ,SPRINT)

…………

第四課決策樹三、關(guān)聯(lián)規(guī)則稍復(fù)雜案例

第四課決策樹三、關(guān)聯(lián)規(guī)則稍復(fù)雜案例

2、ID3算法基本思想構(gòu)造決策樹,決策樹的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)非類別屬性,每條邊對(duì)應(yīng)該屬性的每個(gè)可能值。以信息熵的下降速度作為選取測(cè)試屬性的標(biāo)準(zhǔn),即所選的測(cè)試屬性是從根到當(dāng)前節(jié)點(diǎn)的路徑上尚未被考慮的具有最高信息增益的屬性。

判定樹分類算法output訓(xùn)練集決策樹input第四課決策樹三、關(guān)聯(lián)規(guī)則稍復(fù)雜案例判定樹分類算法outp

第四課決策樹三、關(guān)聯(lián)規(guī)則稍復(fù)雜案例

3、ID3算法案例

第四課決策樹三、關(guān)聯(lián)規(guī)則稍復(fù)雜案例

第四課決策樹三、關(guān)聯(lián)規(guī)則稍復(fù)雜案例

3、ID3算法案例

分類C1:買電腦=“是”分類C2:買電腦=“否”H(C1,C2)=H(9/14,5/14)=0.940計(jì)算年齡的增益:因此相似地第四課決策樹三、關(guān)聯(lián)規(guī)則稍復(fù)雜案例分類C1:買電腦=

第四課決策樹三、稍復(fù)雜案例

4、ID3算例決策樹呈現(xiàn)

年齡?overcast學(xué)生?信用?是否正常好<=30>40否否是是是30..40第四課決策樹三、稍復(fù)雜案例年齡?overcast學(xué)生?信

第四課

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論