




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第七章數(shù)據(jù)分類分析大數(shù)據(jù)管理與應(yīng)用——主編:王剛副主編:劉婧、邵臻分類分析是一種對離散標(biāo)簽進(jìn)行預(yù)測的監(jiān)督學(xué)習(xí)方法,其目的是從給定的分類訓(xùn)練數(shù)據(jù)中學(xué)習(xí)分類模型,數(shù)據(jù)分類分析在許多場景下都有重要應(yīng)用,如客戶流失預(yù)測、客戶信用風(fēng)險等級預(yù)測和國家電網(wǎng)客戶用電異常行為分析等。在本章中您將了解數(shù)據(jù)分類分析的基本概念,掌握數(shù)據(jù)分類分析的六種基本類型及其典型方法,并了解數(shù)據(jù)分類分析如何應(yīng)用于實際場景。數(shù)據(jù)分類分析概述基于函數(shù)的分類分析基于概率的分類分析基于最近鄰的分類分析基于決策樹的分類分析基于規(guī)則的分類分析集成分類分析第七章
數(shù)據(jù)分類分析01數(shù)據(jù)分類分析概述02基于函數(shù)的分類分析03基于概率的分類分析04基于最近鄰的分類分析05基于決策樹的分類分析06基于規(guī)則的分類分析07集成分類分析
1.1分類分析基本概念分類分析的基本類型主要可以分為以下六類:基于函數(shù)的分類分析基于概率的分類分析基于最近鄰的分類分析基于決策樹的分類分析基于規(guī)則的分類分析集成分類分析1.2分類分析基本類型客戶流失預(yù)測企業(yè)利用大量的銷售數(shù)據(jù)構(gòu)建客戶流失分類模型,幫助業(yè)務(wù)人員識別哪些客戶有流失的風(fēng)險,并找出客戶流失的原因,從而公司能夠及時采取相應(yīng)的措施挽留客戶??蛻粜庞蔑L(fēng)險等級預(yù)測銀行基于客戶的基本信息、銀行流水記錄和借貸信息等相關(guān)數(shù)據(jù)構(gòu)建信用風(fēng)險等級分類模型,對客戶的信用風(fēng)險等級進(jìn)行劃分,從而確保信用風(fēng)險較低的客戶能夠得到貸款。國家電網(wǎng)客戶用電異常行為分析電網(wǎng)公司通過收集海量的用電數(shù)據(jù)構(gòu)建用電行為特征,如周統(tǒng)計指標(biāo)、月統(tǒng)計指標(biāo)和季度用電量等,并基于這些特征來構(gòu)建客戶用電異常行為分類模型,從而保證正常的供電秩序。其他領(lǐng)域電子商城的優(yōu)惠券使用預(yù)測、商品圖片分類、中文語料的類別分析和情感分析、基于文本內(nèi)容的垃圾短信識別、自動駕駛場景中的交通標(biāo)志檢測、監(jiān)控場景下的行人精細(xì)化識別等。1.3分類分析的應(yīng)用
2.1基于函數(shù)的分類分析的概念
2.2Logistic回歸模型
2.2Logistic回歸模型
2.2Logistic回歸模型圖7-1邏輯函數(shù)的圖像
2.2Logistic回歸模型圖7-2交叉熵?fù)p失函數(shù)的圖像
2.2Logistic回歸模型
3.1基于概率的分類分析的概念樸素貝葉斯模型概述樸素貝葉斯模型是一種簡單而高效的分類模型,可以基于貝葉斯定理和條件獨立假設(shè)計算出待分類項在其當(dāng)前條件下各個可能類別出現(xiàn)的概率,并將取得最大值的那個類別作為最終輸出結(jié)果。樸素貝葉斯模型主要的思想就是在已給定特征屬性值的前提下找到出現(xiàn)概率最大的類別標(biāo)簽?!皹闼亍笔侵钙湓诠烙嬵悧l件概率時假設(shè)各個特征屬性之間條件獨立,這也是其易于操作的原因。3.2樸素貝葉斯模型
3.2樸素貝葉斯模型
3.2樸素貝葉斯模型
3.2樸素貝葉斯模型基于K最近鄰(K-NearestNeighbor,KNN)的分類分析將一組已分類點中最接近的分類分配給一個未分類的樣本點,與其他分類方法不同,最近鄰分類法是一種惰性學(xué)習(xí)方法,不需要在給定樣本的基礎(chǔ)上進(jìn)行訓(xùn)練,而是在給出需要預(yù)測的新樣本后,通過新樣本最鄰近的樣本標(biāo)簽來確定其預(yù)測分類。最近鄰分類分析是一種非參數(shù)方法,比較簡單、直觀、易于實現(xiàn)。為了解決最近鄰算法對噪聲數(shù)據(jù)過于敏感的缺陷,可以采用擴大參與決策的樣本量的方法,使用K個鄰近點進(jìn)行決策,形成了KNN分類法。KNN分類法可以生成任意形狀的決策邊界,較其他分類器更為靈活,特別適合于多分類問題,目前該方法已廣泛應(yīng)用于新聞文本分類和遙感圖像分類等。4.1基于最近鄰的分類分析的概念KNN模型概述KNN分類法是一種基于樣本的惰性學(xué)習(xí)方法。如果一個樣本在特征空間中的K個最鄰近的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。KNN算法的基本思想:假設(shè)給定一個訓(xùn)練數(shù)據(jù)集,其中的樣本類別已定,對于新的樣本,根據(jù)其K個最近鄰的訓(xùn)練樣本的類別,通過多數(shù)表決等方式來進(jìn)行預(yù)測,輸出為預(yù)測新樣本的類別標(biāo)簽。4.2KNN模型
4.2KNN模型
4.2KNN模型KNN的分類決策規(guī)則一般使用多數(shù)投票法,即根據(jù)離樣本最近的K個訓(xùn)練樣本中的多數(shù)類,決定預(yù)測樣本類別。此外,還可以根據(jù)距離遠(yuǎn)近進(jìn)行加權(quán)投票,距離越近的樣本權(quán)重越大。算法KNN模型的算法偽代碼:4.2KNN模型決策樹模型是一種呈樹形結(jié)構(gòu)的機器學(xué)習(xí)模型,它由一個根節(jié)點、若干個內(nèi)部節(jié)點和葉節(jié)點構(gòu)成,其中,根節(jié)點和內(nèi)部節(jié)點表示特征,葉節(jié)點則表示類標(biāo)簽。從根節(jié)點到一個葉節(jié)點對應(yīng)了一條判定規(guī)則,決策樹模型的學(xué)習(xí)目標(biāo)就是通過遞歸的手段對特征空間進(jìn)行劃分,從而構(gòu)造一個從根節(jié)點聯(lián)通到不同葉節(jié)點的決策樹。因此,在分類問題中,決策樹模型可以認(rèn)為是if-then規(guī)則的集合。最早的決策樹模型由Hunt等人于1966年提出,該模型也是許多決策樹模型的基礎(chǔ),包括ID3、C4.5、C5.0和CART(ClassificationAndRegressionTrees)等。決策樹模型的學(xué)習(xí)分為特征選擇、決策樹生成和決策樹剪枝三個步驟。特征選擇是決策樹模型進(jìn)行特征空間劃分的依據(jù),也是構(gòu)建決策樹模型的核心。Quinlan提出的ID3和C4.5模型分別使用信息增益(InformationGain)和信息增益率(InformationGainRatio)進(jìn)行特征選擇,Breiman等人提出的CART模型則使用了基尼(Gini)系數(shù)作為特征選擇的依據(jù)。5.1基于決策樹的分類分析的概念I(lǐng)D3決策樹模型概述ID3決策樹模型是一種通過信息增益對特征空間進(jìn)行劃分的決策樹模型。ID3模型的主要思想就是使得最終的葉結(jié)點中的樣本盡可能為同類樣本,即樣本盡可能“純”。但是決策樹無法直接得到整個模型的結(jié)構(gòu),需要采用遞歸算法通過選擇特征不斷地對特征空間進(jìn)行切分,使得切分后得到的子樣本集盡可能“純”。ID3決策樹模型引進(jìn)信息熵理論描述樣本的“不純度”,即使用信息增益選擇最優(yōu)劃分特征。5.2ID3決策樹模型
5.2ID3決策樹模型
5.2ID3決策樹模型算法為使得損失函數(shù)最小,需要使得決策樹總體的熵最小,因此決策樹模型的優(yōu)化算法是一個使決策樹的熵不斷減少的過程。ID3算法采用“分而治之”策略進(jìn)行優(yōu)化,并采用信息增益作為衡量熵減少的程度。決策樹模型的算法偽代碼:5.2ID3決策樹模型
6.1基于規(guī)則的分類分析的概念
6.2RIPPER模型
6.2RIPPER模型算法RIPPER算法主要分為兩個步驟,第一步是規(guī)則集的生成,第二步是規(guī)則集的優(yōu)化。RIPPER模型能夠通過局部優(yōu)化方式得到規(guī)則集,然后通過全局優(yōu)化的方式緩解了局部優(yōu)化的局限性,因而能夠取得比較好的學(xué)習(xí)效果。RIPPER算法的偽代碼:6.2RIPPER模型集成分類模型通過訓(xùn)練并組合多個分類器的優(yōu)勢來提升性能,這種組合模型也被稱為“委員會”(Committee)。集成分類模型一般包括兩個步驟,首先通過訓(xùn)練集生成一組基分類器(BaseClassifier),然后對基分類器的預(yù)測結(jié)果進(jìn)行組合。根據(jù)基分類器的生成方式,集成分類模型主要有Bagging、提升方法(Boosting)和隨機子空間(RandomSubspace,RS)三類方法。7.1集成分類模型概述圖7-3集成學(xué)習(xí)示意圖AdaBoost模型概述AdaBoost模型是Boosting集成分類模型的代表,它是一種通過序列方法訓(xùn)練多個基分類器并對這些基分類器進(jìn)行組合的集成分類模型。AdaBoost模型的主要思想是利用訓(xùn)練集中的等權(quán)重樣本訓(xùn)練出基分類器,然后根據(jù)基分類器的分類誤差率來賦予分錯的樣本更高的權(quán)重,然后在樣本更新權(quán)重后被用來訓(xùn)練下一個基分類器,重復(fù)此過程并將所有基分類器的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 營養(yǎng)學(xué)飲食指南閱讀題
- 房車項目可行性研究報告
- 建筑設(shè)計咨詢服務(wù)合同
- 主管護(hù)師內(nèi)科護(hù)理復(fù)習(xí)試題有答案
- 餐飲行業(yè)智慧餐廳點餐系統(tǒng)方案
- 三農(nóng)產(chǎn)品加工設(shè)備操作培訓(xùn)作業(yè)指導(dǎo)書
- 智能財稅綜合實訓(xùn) 下篇 第五章工作領(lǐng)域三-任務(wù)二
- 寵物養(yǎng)護(hù)指南
- 分析工業(yè)生產(chǎn)中磁場對材料影響
- 三農(nóng)村居民信息服務(wù)與普及指南
- 2025年西安鐵路職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫學(xué)生專用
- pisa數(shù)學(xué)素養(yǎng)測試題及答案
- 2025年安徽電氣工程職業(yè)技術(shù)學(xué)院單招職業(yè)技能考試題庫匯編
- 2025年錫林郭勒職業(yè)學(xué)院單招職業(yè)技能測試題庫匯編
- 2025年合肥財經(jīng)職業(yè)學(xué)院單招職業(yè)適應(yīng)性測試題庫必考題
- 2025年臨床醫(yī)師定期考核必考復(fù)習(xí)題庫及答案(900題)
- 《游園》課件統(tǒng)編版高中語文必修下冊
- 2025年河南省中考化學(xué)二輪復(fù)習(xí)備考策略及命題趨勢 課件
- 【教學(xué)設(shè)計】審定新北師大版六年級下冊數(shù)學(xué)《圖形的運動》教學(xué)設(shè)計
- 護(hù)理敏感質(zhì)量指標(biāo)——疼痛評估正確率
- 推薦精選常見血液病急性白血病的MICM分型和預(yù)后
評論
0/150
提交評論