金融數(shù)據(jù)挖掘和商業(yè)數(shù)據(jù)挖掘建構(gòu)信用卡評分模型之商業(yè)智能流程課件_第1頁
金融數(shù)據(jù)挖掘和商業(yè)數(shù)據(jù)挖掘建構(gòu)信用卡評分模型之商業(yè)智能流程課件_第2頁
金融數(shù)據(jù)挖掘和商業(yè)數(shù)據(jù)挖掘建構(gòu)信用卡評分模型之商業(yè)智能流程課件_第3頁
金融數(shù)據(jù)挖掘和商業(yè)數(shù)據(jù)挖掘建構(gòu)信用卡評分模型之商業(yè)智能流程課件_第4頁
金融數(shù)據(jù)挖掘和商業(yè)數(shù)據(jù)挖掘建構(gòu)信用卡評分模型之商業(yè)智能流程課件_第5頁
已閱讀5頁,還剩47頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

金融數(shù)據(jù)挖掘和商業(yè)數(shù)據(jù)挖掘

建構(gòu)信用卡評分模型之商業(yè)智能流程鄭宇庭謝邦昌程兆慶

臺灣政治大學資料采礦中心11/1/20221金融數(shù)據(jù)挖掘和商業(yè)數(shù)據(jù)挖掘

建構(gòu)信用卡評分模型之商業(yè)智能流報告大綱研究目的分析工具

建模流程結(jié)論與建議Q&A11/1/20222報告大綱研究目的10/23/20222研究目的有效地篩選出償債能力不佳的個人信用卡客戶,依此開發(fā)出一套信用風險系統(tǒng),以幫助銀行做出正確的核卡決策。這個系統(tǒng)的開發(fā)、維護、與更新的成本預期將比銀行現(xiàn)有系統(tǒng)的成本低。11/1/20223研究目的有效地篩選出償債能力不佳的個人信用卡客戶,依此開發(fā)出分析工具MicrosoftSQLSever2005價格自動化以及開發(fā)延伸程度目前SPSS跟微軟之間是采取合作的態(tài)度11/1/20224分析工具MicrosoftSQLSever200510建模流程:CRISP-DMDATAMINING執(zhí)行階段商業(yè)理解資料理解資料準備建模評估發(fā)布資料源DATAMINING處理流程11/1/20225圖表來源:楊自強企業(yè)如何應(yīng)用商業(yè)智慧來提升執(zhí)行力與競爭力建模流程:CRISP-DMDATAMINING商業(yè)理解資料微軟商業(yè)智慧解決方案SSIS

分析服務(wù)報表服務(wù)分析服務(wù)(DataMining)資料來源檢視表(DataSourceView)整合性服務(wù)(SSIS)商業(yè)理解資料理解資料準備建模評估發(fā)布資料源資料源11/1/20226圖表來源:楊自強企業(yè)如何應(yīng)用商業(yè)智慧來提升執(zhí)行力與競爭力微軟商業(yè)智慧解決方案SSIS資料來源檢視表(DataSou資料采礦無處不在商業(yè)問題Microsoft算法預測類別變量,例如營銷響應(yīng)、顧客流失、違約預測(巴塞爾資本協(xié)定IRB)…決策樹貝氏機率分類群集類神經(jīng)網(wǎng)絡(luò)羅吉斯回歸預測連續(xù)變量,例如預測銷售量、預測客戶價值變動、預測金融商品價格波動...回歸樹時間序列類神經(jīng)網(wǎng)絡(luò)預測序列,例如找出網(wǎng)站使用者的點選路徑模式、客戶繳款行為模式、商品購物順序時序群集找出產(chǎn)品交叉銷售關(guān)聯(lián)性,又稱為購物籃分析關(guān)聯(lián)規(guī)則決策樹找出潛在相似性,例如市場區(qū)隔、偵測晶圓瑕疵分配、文件分類、保險浮濫理賠偵測、偽卡偵測群集時序群集11/1/20227資料采礦無處不在商業(yè)問題Microsoft算法預測類別變量商業(yè)理解(BusinessUnderstanding)厘清商業(yè)問題目前呆帳率是多少?信用卡審核流程?信用卡評分模型=分類模型11/1/20228商業(yè)理解(BusinessUnderstanding)厘清資料理解(DataUnderstanding)資料來源某銀行2000.1.1~2002.6.30的信用卡資料數(shù)據(jù)內(nèi)容申請數(shù)據(jù)文件繳款紀錄文件總共有1220個變數(shù),502,333筆原始資料違約戶定義繳款期間曾經(jīng)有逾期60天以上未繳之卡戶

11/1/20229資料理解(DataUnderstanding)資料來源10建模流程圖選擇2001.4~2001.6原始資料清除遺漏值、異常值數(shù)據(jù)轉(zhuǎn)換誤差抽樣訓練組測試組建模評估評估11/1/202210建模流程圖選擇2001.4~2001.6原始資料清除遺漏值、資料準備(DataPreparation)選擇合理的建模變量基本數(shù)據(jù)性別、教育程度、職業(yè)別……聯(lián)合征信中心(JCIC)的資料被查詢總家數(shù)、延遲月數(shù)比率……與銀行往來的資料申請卡別類型、有沒有使用扣款服務(wù)……11/1/202211資料準備(DataPreparation)選擇合理的建模變資料準備(DataPreparation)選擇合理的建模時間時間間隔取為12個月至18個月清除遺漏值、異常值數(shù)據(jù)轉(zhuǎn)換連續(xù)型轉(zhuǎn)成離散型:被查詢總家數(shù)…合并變項太多之變量:職業(yè)別…衍生新的變數(shù)11/1/202212資料準備(DataPreparation)選擇合理的建模時類型變量名稱數(shù)據(jù)類型個人資料教育別類別型(2類)性別旗標型行業(yè)別類別型(3類)職稱別類別型(3類)工作年資類別型(5類)緊急聯(lián)絡(luò)人與正卡關(guān)系類別型(4類)與銀行往來紀錄是否申請結(jié)余代償旗標型扣款賬號旗標型金融聯(lián)合征信中心<過去六個月>延遲月數(shù)比率連續(xù)型<過去六個月>循還月數(shù)比率連續(xù)型近一年M2次數(shù)整數(shù)型<最近一個月>近期是否逾期旗標型負債所得比連續(xù)型有效卡張數(shù)類別型(3類)被查詢總家數(shù)類別型(4類)11/1/202213類型變量名稱數(shù)據(jù)類型個人資料教育別類別型(2類)性別旗標型行建模(Modeling)誤差抽樣(Over-Sampling)將稀有事件透過抽樣的方式將其比重提高多的少抽(Reduce):正常戶抽取率0.1違約戶抽取率1將資料分成訓練組與測試組避免過度學習(Over-fitting)建模方法選擇羅吉斯回歸、決策樹、類神經(jīng)網(wǎng)絡(luò)11/1/202214建模(Modeling)誤差抽樣(Over-SamplingDataMiningModelEvaluation11/1/202215DataMiningModelEvaluation10DataMiningModelEvaluation分類矩陣橫軸為預測結(jié)果,縱軸為實際結(jié)果增益圖橫軸為名單百分比,縱軸為累積占全體之百分比收益圖根據(jù)成本以及銷售成功利潤,并計算出累積利潤圖散布圖針對連續(xù)變量,可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形11/1/202216DataMiningModelEvaluation分類選擇“vTargetMail(dbo)”勾選需要比較之模型DataMiningModelEvaluation說明:在進行模型效益評估前必須先選入數(shù)據(jù)表,并在模型中勾選要進行評估比較之模型11/1/202217選擇“vTargetMail(dbo)”勾選需要比較之模型DDataMiningModelEvaluation分類矩陣藉由分類矩陣進一步比較,判別兩模型的預測能力,由決策樹模型發(fā)現(xiàn),預測正確的資料有7103+5857=12960;而群集分析模型的正確預測數(shù)據(jù)為5395+5308=10703,也可看出決策樹分類結(jié)果較群集分析分類結(jié)果好11/1/202218DataMiningModelEvaluation分類DataMiningModelEvaluation增益圖增益圖:主要展現(xiàn)在整體的百分上所累積的效益狀況11/1/202219DataMiningModelEvaluation增益DataMiningModelEvaluation收益圖收益圖:可根據(jù)所設(shè)定之固定成本、單位成本以及單位營收加以計算,找出最佳獲利點11/1/202220DataMiningModelEvaluation收益DataMiningModelEvaluation散布圖散布圖:了解各模型之預測值、預測趨勢以及實際值11/1/202221DataMiningModelEvaluation散布評估(Evaluation)增益圖(liftchart)11/1/202222評估(Evaluation)增益圖(liftchart)1評估(Evaluation)分類矩陣(classificationmatrix)衡量指標Precise=a/a+bRecall=a/a+cAccuracy=a+d/a+b+c+d

實際預測違約戶正常戶違約戶ab正常戶cd11/1/202223評估(Evaluation)分類矩陣(classificat發(fā)布(Deployment)產(chǎn)生預測的違約機率值單一查詢整批查詢11/1/202224發(fā)布(Deployment)產(chǎn)生預測的違約機率值10/23/結(jié)論與建議本研究以羅吉斯回歸模型預測能力最好本研究目的在于幫助作核卡的決策,另外有一些主題可供繼續(xù)研究核卡后針對繳費情況的變化,再建構(gòu)一預測違約模型,以預防違約發(fā)生。已違約建立一處理催收順序的模型11/1/202225結(jié)論與建議本研究以羅吉斯回歸模型預測能力最好10/23/20Q&A歡迎提出問題討論11/1/202226Q&A10/23/202226金融數(shù)據(jù)挖掘和商業(yè)數(shù)據(jù)挖掘

建構(gòu)信用卡評分模型之商業(yè)智能流程鄭宇庭謝邦昌程兆慶

臺灣政治大學資料采礦中心11/1/202227金融數(shù)據(jù)挖掘和商業(yè)數(shù)據(jù)挖掘

建構(gòu)信用卡評分模型之商業(yè)智能流報告大綱研究目的分析工具

建模流程結(jié)論與建議Q&A11/1/202228報告大綱研究目的10/23/20222研究目的有效地篩選出償債能力不佳的個人信用卡客戶,依此開發(fā)出一套信用風險系統(tǒng),以幫助銀行做出正確的核卡決策。這個系統(tǒng)的開發(fā)、維護、與更新的成本預期將比銀行現(xiàn)有系統(tǒng)的成本低。11/1/202229研究目的有效地篩選出償債能力不佳的個人信用卡客戶,依此開發(fā)出分析工具MicrosoftSQLSever2005價格自動化以及開發(fā)延伸程度目前SPSS跟微軟之間是采取合作的態(tài)度11/1/202230分析工具MicrosoftSQLSever200510建模流程:CRISP-DMDATAMINING執(zhí)行階段商業(yè)理解資料理解資料準備建模評估發(fā)布資料源DATAMINING處理流程11/1/202231圖表來源:楊自強企業(yè)如何應(yīng)用商業(yè)智慧來提升執(zhí)行力與競爭力建模流程:CRISP-DMDATAMINING商業(yè)理解資料微軟商業(yè)智慧解決方案SSIS

分析服務(wù)報表服務(wù)分析服務(wù)(DataMining)資料來源檢視表(DataSourceView)整合性服務(wù)(SSIS)商業(yè)理解資料理解資料準備建模評估發(fā)布資料源資料源11/1/202232圖表來源:楊自強企業(yè)如何應(yīng)用商業(yè)智慧來提升執(zhí)行力與競爭力微軟商業(yè)智慧解決方案SSIS資料來源檢視表(DataSou資料采礦無處不在商業(yè)問題Microsoft算法預測類別變量,例如營銷響應(yīng)、顧客流失、違約預測(巴塞爾資本協(xié)定IRB)…決策樹貝氏機率分類群集類神經(jīng)網(wǎng)絡(luò)羅吉斯回歸預測連續(xù)變量,例如預測銷售量、預測客戶價值變動、預測金融商品價格波動...回歸樹時間序列類神經(jīng)網(wǎng)絡(luò)預測序列,例如找出網(wǎng)站使用者的點選路徑模式、客戶繳款行為模式、商品購物順序時序群集找出產(chǎn)品交叉銷售關(guān)聯(lián)性,又稱為購物籃分析關(guān)聯(lián)規(guī)則決策樹找出潛在相似性,例如市場區(qū)隔、偵測晶圓瑕疵分配、文件分類、保險浮濫理賠偵測、偽卡偵測群集時序群集11/1/202233資料采礦無處不在商業(yè)問題Microsoft算法預測類別變量商業(yè)理解(BusinessUnderstanding)厘清商業(yè)問題目前呆帳率是多少?信用卡審核流程?信用卡評分模型=分類模型11/1/202234商業(yè)理解(BusinessUnderstanding)厘清資料理解(DataUnderstanding)資料來源某銀行2000.1.1~2002.6.30的信用卡資料數(shù)據(jù)內(nèi)容申請數(shù)據(jù)文件繳款紀錄文件總共有1220個變數(shù),502,333筆原始資料違約戶定義繳款期間曾經(jīng)有逾期60天以上未繳之卡戶

11/1/202235資料理解(DataUnderstanding)資料來源10建模流程圖選擇2001.4~2001.6原始資料清除遺漏值、異常值數(shù)據(jù)轉(zhuǎn)換誤差抽樣訓練組測試組建模評估評估11/1/202236建模流程圖選擇2001.4~2001.6原始資料清除遺漏值、資料準備(DataPreparation)選擇合理的建模變量基本數(shù)據(jù)性別、教育程度、職業(yè)別……聯(lián)合征信中心(JCIC)的資料被查詢總家數(shù)、延遲月數(shù)比率……與銀行往來的資料申請卡別類型、有沒有使用扣款服務(wù)……11/1/202237資料準備(DataPreparation)選擇合理的建模變資料準備(DataPreparation)選擇合理的建模時間時間間隔取為12個月至18個月清除遺漏值、異常值數(shù)據(jù)轉(zhuǎn)換連續(xù)型轉(zhuǎn)成離散型:被查詢總家數(shù)…合并變項太多之變量:職業(yè)別…衍生新的變數(shù)11/1/202238資料準備(DataPreparation)選擇合理的建模時類型變量名稱數(shù)據(jù)類型個人資料教育別類別型(2類)性別旗標型行業(yè)別類別型(3類)職稱別類別型(3類)工作年資類別型(5類)緊急聯(lián)絡(luò)人與正卡關(guān)系類別型(4類)與銀行往來紀錄是否申請結(jié)余代償旗標型扣款賬號旗標型金融聯(lián)合征信中心<過去六個月>延遲月數(shù)比率連續(xù)型<過去六個月>循還月數(shù)比率連續(xù)型近一年M2次數(shù)整數(shù)型<最近一個月>近期是否逾期旗標型負債所得比連續(xù)型有效卡張數(shù)類別型(3類)被查詢總家數(shù)類別型(4類)11/1/202239類型變量名稱數(shù)據(jù)類型個人資料教育別類別型(2類)性別旗標型行建模(Modeling)誤差抽樣(Over-Sampling)將稀有事件透過抽樣的方式將其比重提高多的少抽(Reduce):正常戶抽取率0.1違約戶抽取率1將資料分成訓練組與測試組避免過度學習(Over-fitting)建模方法選擇羅吉斯回歸、決策樹、類神經(jīng)網(wǎng)絡(luò)11/1/202240建模(Modeling)誤差抽樣(Over-SamplingDataMiningModelEvaluation11/1/202241DataMiningModelEvaluation10DataMiningModelEvaluation分類矩陣橫軸為預測結(jié)果,縱軸為實際結(jié)果增益圖橫軸為名單百分比,縱軸為累積占全體之百分比收益圖根據(jù)成本以及銷售成功利潤,并計算出累積利潤圖散布圖針對連續(xù)變量,可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形11/1/202242DataMiningModelEvaluation分類選擇“vTargetMail(dbo)”勾選需要比較之模型DataMiningModelEvaluation說明:在進行模型效益評估前必須先選入數(shù)據(jù)表,并在模型中勾選要進行評估比較之模型11/1/202243選擇“vTargetMail(dbo)”勾選需要比較之模型DDataMiningModelEvaluation分類矩陣藉由分類矩陣進一步比較,判別兩模型的預測能力,由決策樹模型發(fā)現(xiàn),預測正確的資料有7103+5857=12960;而群集分析模型的正確預測數(shù)據(jù)為5395+5308=10703,也可看出決策樹分類結(jié)果較群集分析分類結(jié)果好11/1/202244DataMiningModelEvaluation分類DataMiningModelEvaluation增益圖增益圖:主要展現(xiàn)在整體的百分上所累積的效益狀況11/1/202245DataMiningModelEvaluat

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論