版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘概念與技術(shù)第1頁,共33頁,2023年,2月20日,星期六
第一課分類一、數(shù)據(jù)挖掘及知識的定義1、數(shù)據(jù)挖掘定義:從大量數(shù)據(jù)中提取或“挖掘”知識;2、數(shù)據(jù)挖掘技術(shù):分類、預(yù)測、關(guān)聯(lián)和聚類等;3、數(shù)據(jù)挖掘過程:數(shù)據(jù)的清理、集成、選擇、變換、挖掘、模型評估、知識表示;4、知識定義:知識就是“壓縮”-濃縮就是精華!1)OccamRazor:因不宜超出果之需!2)信息論:熵3)MDL準(zhǔn)則:minimumdescriptionlength第2頁,共33頁,2023年,2月20日,星期六
第一課分類二、神經(jīng)網(wǎng)絡(luò)知識預(yù)備1、單層神經(jīng)網(wǎng)絡(luò);
2、多層神經(jīng)網(wǎng)絡(luò)。第3頁,共33頁,2023年,2月20日,星期六
第一課分類三、SPSS軟件及Logistic回歸知識預(yù)備1、回歸方法分類多個因變量(y1,y2,…yk)路徑分析結(jié)構(gòu)方程模型分析一個因變量y連續(xù)型因變量(y)---線性回歸分析分類型因變量(y)---Logistic回歸分析時間序列因變量(t)---時間序列分析生存時間因變量(t)---生存風(fēng)險回歸分析第4頁,共33頁,2023年,2月20日,星期六
第一課分類三、SPSS軟件及Logistic回歸知識預(yù)備2、回歸方法適用前提1)大樣本,樣本量為自變量個數(shù)的20倍左右;2)因變量或其數(shù)學(xué)變換與自變量有線性關(guān)系;3)擾動項(誤差項)符合正態(tài)分布;4)自變量間不存在諸如多重共線性等關(guān)系;5)誤差項方差不變;
等等。。。。。。。。
第5頁,共33頁,2023年,2月20日,星期六
第一課分類三、SPSS軟件及Logistic回歸知識預(yù)備3、Logistic回歸方法介紹1)Logit變換
Logit變換是Logistic回歸模型的基礎(chǔ)?,F(xiàn)實中常要研究某一事件A發(fā)生的概率P及P值的大小與某些影響因此之間的關(guān)系,但由于P對X的變化在P=0或P=1的附近不是很敏感的,或說是緩慢的,比如像可靠系統(tǒng),可靠度P已經(jīng)是0.998了,即使再改善條件和系統(tǒng)結(jié)構(gòu),它的可靠度增長也只能是在小數(shù)點后面的第三位或第四位之后,于是自然希望尋找一個P的函數(shù)形式θ(P),使它在P=0或P=1附近變化幅度較大,且最好函數(shù)形式簡單,根據(jù)數(shù)學(xué)上導(dǎo)數(shù)的意義,提出用來反映θ(p)是在P附近的變化是很適合的,同時希望P=0或P=1時,有較大的值,因此?。?,即:
第6頁,共33頁,2023年,2月20日,星期六
第一課分類三、SPSS軟件及Logistic回歸知識預(yù)備3、Logistic回歸方法介紹2)Logistic回歸設(shè)因變量是一個二分類變量,其取值為=1和=0。影響取值的個自變量分別為,則Logistic變換如下式表示:
第7頁,共33頁,2023年,2月20日,星期六
第一課分類四、神經(jīng)網(wǎng)絡(luò)與Logistic回歸優(yōu)缺點對比
1、神經(jīng)網(wǎng)絡(luò)優(yōu)缺點1)優(yōu)點:數(shù)據(jù)類型無要求,高度智能,強“魯棒”性,可進行非線性擬合,能容忍缺失值,異常值的出現(xiàn)等;2)缺點:“黑箱”過程導(dǎo)致知識結(jié)果難于解釋。2、Logistic回歸方法優(yōu)缺點1)優(yōu)點:線性回歸方程的知識結(jié)果使得所獲知識易于解釋;2)缺點:數(shù)據(jù)類型要求高,回歸方法成立前提多,只適用于線性擬合,缺失值,異常值會導(dǎo)致結(jié)果精確度大為下降。3、二者區(qū)別:硬計算與軟計算,知識表達方式不同第8頁,共33頁,2023年,2月20日,星期六
第二課預(yù)測一、相關(guān)概念
1、神經(jīng)網(wǎng)絡(luò)的“過擬合”現(xiàn)象1)“過擬合”指的是神經(jīng)網(wǎng)絡(luò)對訓(xùn)練集進行訓(xùn)練的過程中,無法識別數(shù)據(jù)中的“噪音”,并且把“噪音”的影響毫無保留的存貯于網(wǎng)絡(luò)參數(shù)(權(quán)重、偏置)中?!斑^擬合”會導(dǎo)致神經(jīng)網(wǎng)絡(luò)對測試集進行分類、預(yù)測時,產(chǎn)生不必要的偏差。2)解決“過似合”現(xiàn)象辦法之一為N-fold交差驗證。2、MSE、NMSE等概念的定義1)MSE:均方誤差(注:與均方差的區(qū)別),其定義為誤差平方和除以它的自由度。第9頁,共33頁,2023年,2月20日,星期六
第二課預(yù)測一、相關(guān)概念
2)NMSE定義:
注:此處的方差為樣本總體方差。NMSE的物理意義為標(biāo)準(zhǔn)化的MSE。
第10頁,共33頁,2023年,2月20日,星期六
第二課預(yù)測二、預(yù)測實驗
1、實驗?zāi)康模?/p>
1)理解分類與預(yù)測區(qū)別2)熟練使用神經(jīng)網(wǎng)絡(luò)軟件NeuroSolutions解決預(yù)測問題。3)學(xué)會運用靈敏度分析,對屬性進行靈敏度測量。4)學(xué)會通過多次訓(xùn)練模型,避免模型停止在局部最優(yōu)。
2、實驗原理1)神經(jīng)網(wǎng)絡(luò)方法原理
2)多元線性統(tǒng)計方法原理(注意什么是線性,其內(nèi)涵是什么?)
第11頁,共33頁,2023年,2月20日,星期六
第三課聚類分析一、聚類分析定義、特征、應(yīng)用及評估
1、定義:將物理或抽象的集合分組成為由類似的對象組成的多個類的過程被稱為聚類。1)聚類的方法類型(1)劃分方法:K-平均和K-中心算法;(2)層次方法:系統(tǒng)聚類;
(3)基于密度方法:種類較多,對發(fā)現(xiàn)數(shù)據(jù)“噪音”有優(yōu)勢;(4)基于網(wǎng)格方法:小波聚類為典型,效率高,復(fù)雜度低;(5)基于模型方法:統(tǒng)計學(xué)中的分類樹方法-利用信息熵、貝葉斯統(tǒng)計原理為分類原則、競爭學(xué)習(xí)與自組織特征圖。
第12頁,共33頁,2023年,2月20日,星期六
第三課聚類分析一、聚類分析定義、特征、應(yīng)用及評估2、聚類與分類的區(qū)別1)聚類所要劃分的類未知,而分類要劃分的類已知;2)聚類不依賴預(yù)先定義的類和帶類標(biāo)號的訓(xùn)練實例,因此它是觀察式的學(xué)習(xí),而不是示例學(xué)習(xí);3)聚類的有監(jiān)督與分類的無監(jiān)督的區(qū)別。3、聚類分析的應(yīng)用:是一種重要的數(shù)據(jù)挖掘方法,廣泛應(yīng)用于信用卡欺詐、定制市場(移動客戶劃分及定價等)、醫(yī)療分析。特別是孤立點的挖掘與分析,有著重要的實際應(yīng)用。4、聚類質(zhì)量的評估:相異度
第13頁,共33頁,2023年,2月20日,星期六
第三課聚類分析二、K-平均聚類方法、系統(tǒng)聚類及決策樹方法1、K-平均聚類方法
1)原理:隨機選擇k個對象,每個對象初始地代表一個類的平均值或中心,對剩余每個對象,根據(jù)其到類中心的距離,被劃分到最近的類;然后重新計算每個類的平均值。不斷重復(fù)這個過程,直到所有的樣本都不能再分配為止(指中心點改變很小的時候,稱之為收斂)。2)特征:k事先定好;創(chuàng)建一個初始劃分;再采用迭代的重定位技術(shù)進行;不必確定距離矩陣;比系統(tǒng)聚類法運算量要??;適用于處理龐大的樣本數(shù)據(jù);適用于發(fā)現(xiàn)球狀類。3)缺點:平均值必須有定義,對于有些分類變量的集合不適用一;不同的初始值,結(jié)果可能不同;有些k均值算法的結(jié)果與數(shù)據(jù)輸入順序有關(guān),如在線k均值算法,用爬山式技術(shù)(hill-climbing)來尋找最優(yōu)解,容易陷入局部極小值;對孤立點敏感。
第14頁,共33頁,2023年,2月20日,星期六
第三課聚類分析二、K-平均聚類方法、系統(tǒng)聚類及決策樹方法1、系統(tǒng)聚類
1)原理:SPSS軟件中,HierarchicalCluster過程使用的就是系統(tǒng)聚類法來進行分析,該方法的原理是先將所有N個變量看成不同的N類,然后將性質(zhì)最接近(距離最近)的兩類合并為一類;再從這N-1類中找到最接近的兩類加以合并,依此類推,直到所以的變量被合成一類為止。得到該結(jié)果后,再根據(jù)具體問題和聚類結(jié)果決定對該事物應(yīng)該分成幾類。顯然,一量某變量被劃定在一個類別中后,它的分類結(jié)果將不會再改變,這是它和非系統(tǒng)聚類的顯著區(qū)別。2)特征:聚類變量可以為連續(xù)及離散性質(zhì),表達結(jié)果層次豐富;變量間如存在多重共線性,對聚類結(jié)果影響較大,應(yīng)先通過主成分分析方法或剔除權(quán)重較小變量再進行分析。3)缺點:由于需要反復(fù)計算距離,計算量較大;異常值對聚類結(jié)果影響巨大;。
第15頁,共33頁,2023年,2月20日,星期六
第四課決策樹一、關(guān)聯(lián)規(guī)則挖掘相關(guān)理論
1、信息論
美國工程師Shannon于1948年發(fā)表“AMathematicalTheoryofcommunication”,標(biāo)致著信息論的誕生。Shannon于1949年發(fā)表“CommunicationTheoryofSecrecysystem”,以信息論為基礎(chǔ),用概率統(tǒng)計為數(shù)學(xué)手段對保密通信問題進行了分析。由香農(nóng)提出的保密系統(tǒng)模型目前仍然是現(xiàn)代密碼學(xué)的基本模型
第16頁,共33頁,2023年,2月20日,星期六
第四課決策樹一、關(guān)聯(lián)規(guī)則挖掘相關(guān)理論
2、信息論基本原理
1)信息量信息是指消息消除掉的不確定性,消息的信息量就是它消除掉的不確定性的量度。假設(shè)隨機變量為,發(fā)生的概率定義為,它的信息量為
第17頁,共33頁,2023年,2月20日,星期六
第四課決策樹一、關(guān)聯(lián)規(guī)則挖掘相關(guān)理論
2、信息論基本原理
2)信息熵各個互不相容事件的自信息量的統(tǒng)計平均值(期望值)為該事件集合的信息熵:
第18頁,共33頁,2023年,2月20日,星期六
第四課決策樹一、關(guān)聯(lián)規(guī)則挖掘相關(guān)理論
2、信息論基本原理
3)聯(lián)合熵
第19頁,共33頁,2023年,2月20日,星期六
第四課決策樹一、關(guān)聯(lián)規(guī)則挖掘相關(guān)理論
2、信息論基本原理
4)條件熵
第20頁,共33頁,2023年,2月20日,星期六
第四課決策樹一、關(guān)聯(lián)規(guī)則挖掘相關(guān)理論
2、信息論基本原理
5)互信息
第21頁,共33頁,2023年,2月20日,星期六
第四課決策樹一、關(guān)聯(lián)規(guī)則挖掘相關(guān)理論
2、信息論基本原理
6)平均互信息量
第22頁,共33頁,2023年,2月20日,星期六
第四課決策樹一、關(guān)聯(lián)規(guī)則挖掘相關(guān)理論
2、信息論基本原理
6)平均互信息量、熵及條件熵之間的關(guān)系
第23頁,共33頁,2023年,2月20日,星期六
第四課決策樹二、關(guān)聯(lián)規(guī)則簡單案例
1、蔬菜案例
顏色形狀蔬菜紅圓番茄紫長茄子綠長黃瓜第24頁,共33頁,2023年,2月20日,星期六
第四課決策樹二、關(guān)聯(lián)規(guī)則簡單案例
2、蔬菜案例熵、條件熵及互信息(信息增益)1)熵、條件熵:H(蔬菜)=?H(蔬菜,顏色)=?H(蔬菜,形狀)=?2)信息增益I(蔬菜,顏色)=H(蔬菜)-H(蔬菜,顏色)=?I(蔬菜,形狀)=H(蔬菜)-H(蔬菜,形狀)=?3)結(jié)論:信息增益越大,就用之作為決策樹第一分類屬性。
第25頁,共33頁,2023年,2月20日,星期六
第四課決策樹二、關(guān)聯(lián)規(guī)則簡單案例
3、蔬菜案例分類樹如下:
顏色紅紫 綠
番茄茄子黃瓜
第26頁,共33頁,2023年,2月20日,星期六
第四課決策樹三、關(guān)聯(lián)規(guī)則稍復(fù)雜案例
1、分類樹屬性選擇度量標(biāo)準(zhǔn)信息增益——Informationgain(ID3)增益比率——Gainration(C4.5)基尼指數(shù)——Giniindex(SLIQ,SPRINT)
…………
第27頁,共33頁,2023年,2月20日,星期六
第四課決策樹三、關(guān)聯(lián)規(guī)則稍復(fù)雜案例
2、ID3算法基本思想構(gòu)造決策樹,決策樹的每個節(jié)點對應(yīng)一個非類別屬性,每條邊對應(yīng)該屬性的每個可能值。以信息熵的下降速度作為選取測試屬性的標(biāo)準(zhǔn),即所選的測試屬性是從根到當(dāng)前節(jié)點的路徑上尚未被考慮的具有最高信息增益的屬性。
判定樹分類算法output訓(xùn)練集決策樹input第28頁,共33頁,2023年,2月20日,星期六
第四課決策樹三、關(guān)聯(lián)規(guī)則稍復(fù)雜案例
3、ID3算法案例
第29頁,共33頁,2023年,2月20日,星期六
第四課決策樹三、關(guān)聯(lián)規(guī)則稍復(fù)雜案例
3、ID3算法案例
分類C1:買電腦=“是”分類C2:買電腦=“否”H(C1,C2)=H(9/14,5/14)=0.940計算年齡的增益:因此相似地第30頁,共33頁,2023年,2月20日,星期六
第四課決策樹三、稍復(fù)雜案例
4、ID3算例決策樹呈現(xiàn)
年齡?overcast學(xué)生?信用?是否正常好<=30>40否否是是是30..40第31頁,共33頁,2023年,2月
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度商務(wù)樓食堂承包經(jīng)營服務(wù)合同4篇
- 2025年度國際旅游包機服務(wù)合同執(zhí)行2篇
- 2025年廠外施工臨時用水用電合同范本3篇
- 2025年度服裝出口銷售合同定制版3篇
- 2024版簡易工程承包合同
- 2025年度政府大數(shù)據(jù)服務(wù)中心外包服務(wù)合同范本4篇
- 2024聘用醫(yī)療設(shè)備維修工程師合同范本3篇
- 2025年度新型建筑鋼結(jié)構(gòu)工程承包合同4篇
- 2025年度智慧停車系統(tǒng)設(shè)計與施工承包合同4篇
- 2025年度人工智能產(chǎn)業(yè)孵化器運營管理合同2篇
- 衡水市出租車駕駛員從業(yè)資格區(qū)域科目考試題庫(全真題庫)
- 護理安全用氧培訓(xùn)課件
- 《三國演義》中人物性格探析研究性課題報告
- 注冊電氣工程師公共基礎(chǔ)高數(shù)輔導(dǎo)課件
- 土方勞務(wù)分包合同中鐵十一局
- 乳腺導(dǎo)管原位癌
- 冷庫管道應(yīng)急預(yù)案
- 司法考試必背大全(涵蓋所有法律考點)
- 公共部分裝修工程 施工組織設(shè)計
- 《學(xué)習(xí)教育重要論述》考試復(fù)習(xí)題庫(共250余題)
- 裝飾裝修施工及擔(dān)保合同
評論
0/150
提交評論