新華保險-理賠反欺詐預(yù)警識別平臺項目POC分析報告_第1頁
新華保險-理賠反欺詐預(yù)警識別平臺項目POC分析報告_第2頁
新華保險-理賠反欺詐預(yù)警識別平臺項目POC分析報告_第3頁
新華保險-理賠反欺詐預(yù)警識別平臺項目POC分析報告_第4頁
新華保險-理賠反欺詐預(yù)警識別平臺項目POC分析報告_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

新華保險理賠反欺詐預(yù)警識別平臺項目POC分析報告初稿嚴格保密1八月20141 整體整體規(guī)劃與分析思路12 樣本數(shù)據(jù)描述分析53 低風險案件識別模型114 后續(xù)工作19頁碼章節(jié)標題目錄整體整體規(guī)劃與分析思路章節(jié)11新華保險理賠反欺詐預(yù)警識別平臺項目POC分析報告?理賠數(shù)據(jù)低風險識別分析工作計劃(7.24-7.31)工作方法1.1項目整體規(guī)劃

2ExecutiveSummary新華保險理賠反欺詐預(yù)警識別平臺項目POC分析報告?理賠數(shù)據(jù)低風險識別分析總體目標:有效識別和抓取低風險案件通過業(yè)務(wù)規(guī)則鑒定低風險案件新華現(xiàn)狀通過數(shù)據(jù)挖掘平臺找出低風險案件特征PwC方法理賠案件簡易案件非自動審核自動審核低風險案件D1D2D3D4D5D6獲取數(shù)據(jù)及主題分析數(shù)據(jù)探索和模型建立模型結(jié)果檢驗與解釋撰寫項目分析報告業(yè)務(wù)規(guī)則和挖掘模型的交互價值驗證章節(jié)1–整體整體規(guī)劃與分析思路1.2整體分析思路

3ExecutiveSummary新華保險理賠反欺詐預(yù)警識別平臺項目POC分析報告?理賠數(shù)據(jù)低風險識別分析定義分析主題現(xiàn)有規(guī)則分析現(xiàn)有案件及來源建立分析數(shù)據(jù)市集建立預(yù)測模型低風險案件定義字段診斷12345模型評估6業(yè)務(wù)解釋7

針對新華2014年1月到5月的簡易小額自動案件(低風險案件)數(shù)據(jù),從賠案出險人對應(yīng)的既往賠付數(shù)據(jù)、保單數(shù)據(jù)、保全數(shù)據(jù)、續(xù)期數(shù)據(jù)樣本,進行低風險案件的模型識別,并對2014年6月賠案進行低風險模型識別,整體風險思路如下:

分析業(yè)務(wù)規(guī)則案件的差異性分析整理數(shù)據(jù)分析寬表數(shù)據(jù)探索及挖掘評價指標及模型比較規(guī)則解釋及分析章節(jié)1–整體整體規(guī)劃與分析思路保戶信息保單保全理賠案件理賠信息

1.3POC所用到的表與字段概覽簡單帳金額責任外金額意外細節(jié)拒付信息報案日期出險日期保單生效日保額總理賠次數(shù)繳費次數(shù)險種名稱繳費金額保全生效日期保全業(yè)務(wù)類型出險機構(gòu)治療情況申請人關(guān)系性別生日數(shù)據(jù)類型共六張表:97個變量理賠類型4新華保險理賠反欺詐預(yù)警識別平臺項目POC分析報告?理賠數(shù)據(jù)低風險識別分析ExecutiveSummary章節(jié)1–整體整體規(guī)劃與分析思路5新華保險理賠反欺詐預(yù)警識別平臺項目POC分析報告?理賠數(shù)據(jù)低風險識別分析章節(jié)2樣本數(shù)據(jù)描述分析2.1數(shù)據(jù)探索分析

新華保險理賠反欺詐預(yù)警識別平臺項目POC分析報告?理賠數(shù)據(jù)低風險識別分析規(guī)則發(fā)現(xiàn)低風險案件在案件類型集中度過濾出疾病醫(yī)療和意外醫(yī)療案件風險標記同一賠案號下有唯一低風險標記對賠案號去重數(shù)據(jù)關(guān)聯(lián)將理賠與保單、保全、續(xù)期等表相關(guān)聯(lián),并構(gòu)建30多個衍生變量。理賠數(shù)據(jù)過濾篩選低風險案件關(guān)注:疾病醫(yī)療和意外醫(yī)療中訓練樣本篩選數(shù)量變化1007067673164498只針對疾病醫(yī)療和意外醫(yī)療的理賠案件進行低風險識別,同一賠案號下的風險值唯一.在一個賠案下,構(gòu)建衍生變量如:每個賠案下的保單數(shù),最大賬單金額,平均的意外到保單生效時間間隔等。6章節(jié)2–樣本數(shù)據(jù)描述分析2.1數(shù)據(jù)探索分析其他:附加(2014)B款意外醫(yī)療

附加吉瑞重癥監(jiān)護津貼

附加醫(yī)療

吉瑞綜合意外傷害保險

康健華安醫(yī)療保險

康健吉順定期防癌

康健榮尊定期防癌險種與目標變量之間的相關(guān)性分析各個險種上的低風險占比不一樣。險種有可能成為影響變量。所有分析案件中,低風險的占比平均值為37.3%,其中有三個險種高于平均值,主要是:附加意外傷害醫(yī)療 附加意外醫(yī)療 住院費用(2007)圖中展示,2014年1月-2014年6月期間,各險種的分布比較穩(wěn)定,故險種不存在的季節(jié)性因素的影響,從而使得評分結(jié)果的表現(xiàn)趨穩(wěn)。

各險種在2014年1月-6月分布7新華保險理賠反欺詐預(yù)警識別平臺項目POC分析報告?理賠數(shù)據(jù)低風險識別分析章節(jié)2–樣本數(shù)據(jù)描述分析2.1數(shù)據(jù)探索分析

8新華保險理賠反欺詐預(yù)警識別平臺項目POC分析報告?理賠數(shù)據(jù)低風險識別分析最大賬單金額與目標變量的相關(guān)分析低分險高分險從單因子的方差分析上,賬單金額在高低風險上有顯著差異。同時,從最大賬單金額的盒型圖分布看出,高低風險上,都有賬單金額的異常值。比如最大賬單金額達到780000,遠遠超過平均值8203.在統(tǒng)計意義上,最大賬單金額的差異性是否顯著的方差分析對不同的高低風險,最大賬單金額的均值差異分析章節(jié)2–樣本數(shù)據(jù)描述分析2.1數(shù)據(jù)探索分析

9新華保險理賠反欺詐預(yù)警識別平臺項目POC分析報告?理賠數(shù)據(jù)低風險識別分析由于理賠時效性,保單有效性等特征,從理賠流程看,需要具備時間檢驗的一致性:保單生效日期<=意外發(fā)生日期<=出險日期<=報案日期<=立案日期本次理賠數(shù)據(jù)探索結(jié)果分析:時間不一致的異常特征分析:意外發(fā)生日期VS保單生效日期意外發(fā)生日期晚于保單生效日期的占比在1.54%,雖然這個比重比較高,但和業(yè)務(wù)人員溝通,在理賠周期內(nèi),客戶有跨年的情況,保單的生效日期會變成新一年的生效日,造成數(shù)據(jù)錯誤。出險日期VS意外發(fā)生日期比如對于賠案號90010063671,出險日期與意外發(fā)生日期相差了一年,但是查看數(shù)據(jù)發(fā)現(xiàn)事故描述中與意外發(fā)生日期一致,所以可以判定此項錄入出險日期數(shù)據(jù)有問題。報案日期VS出險日期比如對于賠案號90002701819(低風險案件,但是報案時間是2014年1月,而出險日期為2014年2月,可以根據(jù)此異常值對這個賠案進行在調(diào)查。

章節(jié)2–樣本數(shù)據(jù)描述分析2.2變量基本統(tǒng)計分析

為提取更多的變量,從現(xiàn)有數(shù)據(jù)中,提取衍生變量,增加變量的利用率,提升建模結(jié)果。

10新華保險理賠反欺詐預(yù)警識別平臺項目POC分析報告?理賠數(shù)據(jù)低風險識別分析出險年齡、理賠次數(shù)、保單生效到意外的時間間隔的偏度小,也就是數(shù)據(jù)值分布集中,波動性較小;其余的變量,波動性較大,在選擇分析模型時,需要作變量轉(zhuǎn)換,減少異常值造成模型不穩(wěn)定。結(jié)論變量的基本統(tǒng)計分析,以下只取部分連續(xù)字段的衍生變量的基本統(tǒng)計分布:章節(jié)2–樣本數(shù)據(jù)描述分析低風險案件識別模型章節(jié)311新華保險理賠反欺詐預(yù)警識別平臺項目POC分析報告?理賠數(shù)據(jù)低風險識別分析3.1建模流程建立預(yù)測模型預(yù)測模型抽樣探索修正模型評估定義變量及數(shù)據(jù)字段抽樣-訓練數(shù)據(jù)及驗證數(shù)據(jù)檢視數(shù)據(jù)完整性/遺漏值檢視數(shù)據(jù)的分布及離群值數(shù)據(jù)轉(zhuǎn)置處理變量選擇變數(shù)集群決策樹模型邏輯回歸模型神經(jīng)網(wǎng)絡(luò)模型模型組合其他方法模型穩(wěn)定性評估模型選擇產(chǎn)生預(yù)測風險分數(shù)樣本抽取數(shù)據(jù)可視化關(guān)聯(lián)分析數(shù)據(jù)轉(zhuǎn)換變量選擇聚類神經(jīng)網(wǎng)絡(luò)決策樹回歸模型支持向量機模型評估低風險案件識別12新華保險理賠反欺詐預(yù)警識別平臺項目POC分析報告?理賠數(shù)據(jù)低風險識別分析ExecutiveSummary章節(jié)3–低風險案件識別模型數(shù)據(jù)分析顯著性分析相關(guān)性檢驗建立模型模型驗證保單業(yè)務(wù)員體檢院所個人資料…ConstantFactorX1FactorX2FactorX3…風險分數(shù)3640459013新華保險理賠反欺詐預(yù)警識別平臺項目POC分析報告?理賠數(shù)據(jù)低風險識別分析ExecutiveSummary個人因素醫(yī)院因素時間因素業(yè)務(wù)人員因素理賠事故專業(yè)經(jīng)驗分析系統(tǒng)業(yè)務(wù)員據(jù)賠率疾病據(jù)賠率事故日距離生效日客戶理賠歷史醫(yī)院據(jù)賠率章節(jié)3–低風險案件識別模型3.2低風險識別模型結(jié)果

14ExecutiveSummary新華保險理賠反欺詐預(yù)警識別平臺項目POC分析報告?理賠數(shù)據(jù)低風險識別分析訓練集(70%)預(yù)測分類高風險低風險實際分類高風險

24,398

3,906低風險

626

16,217驗證集(30%)預(yù)測分類高風險低風險實際分類高風險

10,424

1,707低風險

287

6,933對于低風險的理賠案件的識別過程中,訓練集和驗證集的預(yù)測準確率都達到90%,該模型預(yù)測率高且穩(wěn)定。而且實際低風險的案件,被模型正確捕捉到96.3%,覆蓋率高。同時低風險漏報率,在測試集還是驗證集上,都不到1.5%的比率。如果將來有更多的識別變量,如治療醫(yī)院的資質(zhì)情況,是否在定點醫(yī)院治療信息的等字段收集,低風險的案件識別率將會大大提升。模型評估分析樣本覆蓋率命中率正確率訓練集96.3%80.6%90.0%驗證集96.0%80.2%89.7%以誤分類率最低作為模型評價指標,對多個模型優(yōu)化比較,最終決策樹模型無論在訓練集還是驗證集上都是效果最優(yōu)且穩(wěn)定。章節(jié)3–低風險案件識別模型3.3低風險識別模型解讀

15ExecutiveSummary新華保險理賠反欺詐預(yù)警識別平臺項目POC分析報告?理賠數(shù)據(jù)低風險識別分析1.數(shù)據(jù)挖掘所選用的重要變量,是從120多個變量里,根據(jù)自變量對目標變量的相關(guān)性分析,從各個輸入輸入變量的最大R方,進行比較篩選。2.極其重要的變量:主要關(guān)注在出險類別,保單生效時間到意外發(fā)生的時間間隔,賬單金額,出險原因代碼。這些都客觀反映了低風險的最顯著特性;非常重要和一般重要的變量,主要是歷史繳付次數(shù)、二級機構(gòu)、保項、保全等客戶繳費歷史行為和案件特征信息。這客觀體現(xiàn)了低風險案件的理賠金額少快賠付的顯著特征。3.重要變量的選取,只是說明了該指標對低風險案件有重要影響。但是否正相關(guān),在哪個取值范圍內(nèi)影響?具體的規(guī)則和閾值,都需要數(shù)據(jù)挖掘的去探索,這也是其價值所在。變量重要性0.10.3章節(jié)3–低風險案件識別模型3.3低風險識別模型解讀

16ExecutiveSummary新華保險理賠反欺詐預(yù)警識別平臺項目POC分析報告?理賠數(shù)據(jù)低風險識別分析以最大賬單金額為區(qū)分點的某個決策樹上,以(是否大于5492.51)為規(guī)則,區(qū)分效果最好!以出險原因代碼為區(qū)分點的某個決策樹上,以(是否1:意外出險)為規(guī)則,區(qū)分效果最好!通過構(gòu)建決策樹、邏輯回歸、神經(jīng)網(wǎng)絡(luò)、支持向量機等多種模型,通過誤分類率最低為最優(yōu)模型評估指標,進行模型模型比較,找到最優(yōu)模型為決策樹模型。對于輸入變量分布偏度很大,有較多異常值;且本次低風險的目標定義是基于業(yè)務(wù)規(guī)則制定,所以決策樹從規(guī)則出發(fā)推導模型的特點,效果最好,而且應(yīng)用性最直接。1:意外出險2:疾病出險章節(jié)3–低風險案件識別模型3.4低風險識別模型應(yīng)用17ExecutiveSummary新華保險理賠反欺詐預(yù)警識別平臺項目POC分析報告?理賠數(shù)據(jù)低風險識別分析1.利用模型的規(guī)則,和業(yè)務(wù)規(guī)則進行比較??垂餐裕町愋?。為后續(xù)業(yè)務(wù)自動規(guī)則配置起到互補作用。2.對新案件進行評分,并區(qū)分出高低風險案件。低風險識別模型是理賠作業(yè)的關(guān)鍵首要步驟,也會影響后續(xù)的欺詐可疑案件識別效果。理賠作業(yè)及分析流程低風險的異常監(jiān)控高風險的欺詐診斷章節(jié)3–低風險案件識別模型3.4低風險識別模型的補充分析18ExecutiveSummary章節(jié)3–低風險案件識別模型理賠時效在高低風險上案件上有顯著差異,且理賠時效作為低風險案件監(jiān)控指標,以達到快賠的目標。

高風險案件低風險案件1.理賠時效分析---低風險案件有理賠周期短的特點。2.低風險案件異常分析---通過聚類等模式識別,找出歷史低風險案件中異常群體。對低風險案件聚類,共23個類別,其中有一類約占3.7%的賠案有異常。賠付金與保額的占比在每一種類的分布特征新華保險理賠反欺詐預(yù)警識別平臺項目POC分析報告?理賠數(shù)據(jù)低風險識別分析類別后續(xù)工作章節(jié)419新華保險理賠反欺詐預(yù)警識別平臺項目POC分析報告?理賠數(shù)據(jù)低風險識別分析后續(xù)階段工作

目前的預(yù)測模型由于數(shù)據(jù)質(zhì)量低以及指標數(shù)量不夠的問題,一些關(guān)鍵指標的數(shù)據(jù)無法取得,而且受POC時間所限,使得模型的解釋能力無法再提升,預(yù)測準確率已到達到極限近90%,為了有效提高模型的效果和預(yù)測準確率,我們建議新華保險在后續(xù)的業(yè)務(wù)中,可以進行相關(guān)的主題分析:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論