Python工程應用-數(shù)據(jù)分析基礎與實踐課件-第13章_第1頁
Python工程應用-數(shù)據(jù)分析基礎與實踐課件-第13章_第2頁
Python工程應用-數(shù)據(jù)分析基礎與實踐課件-第13章_第3頁
Python工程應用-數(shù)據(jù)分析基礎與實踐課件-第13章_第4頁
Python工程應用-數(shù)據(jù)分析基礎與實踐課件-第13章_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第一章概論西華大學機器學習第十三章偷稅漏稅行為識別分析XXX學校XXX2022目錄Contents案例引入模型介紹案例操作

本章知識圖譜3案例引入一1案例引入5案例數(shù)據(jù):

本案例將以汽車銷售行業(yè)為例,將提供汽車銷售行業(yè)納稅人的各個屬性和是否偷稅漏稅的標識。案例目標:

結合汽車銷售行業(yè)納稅人的各個屬性,總結衡量納稅人的經(jīng)營特征,建立偷稅漏稅行為的識別模型,識別偷稅漏稅的納稅人。模型介紹二2模型介紹7

本案例將使用LM神經(jīng)網(wǎng)絡對該問題進行求解,因此先對該方法進行介紹。LM(Levenberg-Marquardt,萊文貝格——馬夸特)神經(jīng)網(wǎng)絡算法,是梯度下降法和高斯牛頓法相結合的方法,它綜合了這兩種算法的優(yōu)點,在一定程度上克服了基本BP神經(jīng)網(wǎng)絡收斂速度慢和容易陷入局部最小點等問題。LM神經(jīng)網(wǎng)絡算法參數(shù)沿著與誤差梯度相反的方向移動,使誤差函數(shù)減小,直到取得極小值。設誤差指標函數(shù)為:

2模型介紹8

2模型介紹9

案例操作三3.1案例步驟3.1案例步驟收集某地區(qū)汽車銷售行業(yè)的銷售情況和納稅情況。數(shù)據(jù)集中應該提供汽車銷售行業(yè)納稅人的各個屬性與是否偷稅漏稅的標識。對數(shù)據(jù)集進行數(shù)據(jù)探索,查看是否有缺失值、異常值等。利用Step2中的探索結果,對數(shù)據(jù)進行清洗。并且隨機選擇80%的數(shù)據(jù)集作為后續(xù)模型的訓練樣本,20%的數(shù)據(jù)集作為后續(xù)模型的測試樣本。利用CART決策樹和神經(jīng)網(wǎng)絡分別建立汽車銷售行業(yè)預測模型,并且對模型進行訓練。利用Step4中訓練的模型以及Step3中的測試數(shù)據(jù)集,對模型進行評估測試。對識別結果進行輸出。3.2案例實現(xiàn)1、數(shù)據(jù)獲取

本案例為了盡可能覆蓋各種偷稅漏稅方式,收集了不同納稅類別的所有偷稅漏稅用戶和正常用戶的納稅情況,以及偷稅漏稅用戶的偷稅漏稅關鍵數(shù)據(jù)指標,共計124條數(shù)據(jù)。2、數(shù)據(jù)探索分析

觀察所獲得的數(shù)據(jù),可以知道樣本數(shù)據(jù)包含15個特征屬性,分別為14個輸入特征和1個輸出特征,有納稅人基本信息和經(jīng)營指標數(shù)據(jù)。數(shù)據(jù)探索分析能夠及早發(fā)現(xiàn)數(shù)據(jù)是否存在較大差異,并且對數(shù)據(jù)整體情況有基本的認識。3.2案例實現(xiàn)

運行結果:

根據(jù)數(shù)據(jù)的分布情況可以看出,銷售類型主要是國產(chǎn)轎車和進口轎車,銷售模式主要是4S店和一級代理商。3.2案例實現(xiàn)3、數(shù)據(jù)預處理

通過數(shù)據(jù)探索可以知道數(shù)據(jù)里存在缺失值和異常值,需要進行預處理,運行結果:4、劃分訓練數(shù)據(jù)集與測試數(shù)據(jù)集

為了保證模型的正確性和合理性,需要將數(shù)據(jù)集劃分為訓練數(shù)據(jù)集和測試數(shù)據(jù)集。將80%的數(shù)據(jù)集作為訓練數(shù)據(jù)集,20%的數(shù)據(jù)集作為測試數(shù)據(jù)集。3.2案例實現(xiàn)5、構建偷稅漏稅行為識別模型

由圖結果可以看出,準確分類的樣本數(shù)為:98+1=99;由此可知模型準確率為:99/(99+0+0)=100%。(1)CART決策樹分類模型建立2)決策樹分類模型評估1)LM神經(jīng)網(wǎng)絡預測結果3.2案例實現(xiàn)(2)LM神經(jīng)網(wǎng)絡模型建立1)LM神經(jīng)網(wǎng)絡預測結果

由圖結果可以看出,準確分類的人數(shù)為:59+37=96;由此可知模型準確率為:96/(96+0+3)=96.97%2)LM神經(jīng)網(wǎng)絡評估結果3.2案例實現(xiàn)(3)兩模型ROC曲線比較

優(yōu)秀的分類器所對應的ROC曲線應該更加靠近左上角。對比分析,CART決策樹的ROC曲線比LM神經(jīng)網(wǎng)絡的ROC曲線更加靠近左上角,說明CART決策樹模型的分類性能更好,更加適用于對本案例的偷漏稅行為的識別。

思考題19

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論