




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、全國大學生數學建模競賽選拔賽承 諾 書我們完全明白,在競賽開始后參賽隊員不能以任何方式(包括電話、電子郵件、網上咨詢等)與隊外的任何人(包括指導教師)研究、討論與賽題有關的問題。我們知道,抄襲別人的成果是違反競賽章程和參賽規(guī)則的,如果引用別人的成果或其他公開的資料(包括網上查到的資料),必須按照規(guī)定的參考文獻的表述方式在正文引用處和參考文獻中明確列出。我們鄭重承諾,嚴格遵守競賽章程和參賽規(guī)則,以保證競賽的公正、公平性。如有違反競賽章程和參賽規(guī)則的行為,我們將受到嚴肅處理,并取消參賽資格。我們參賽選擇的題號是(從A/B/C/D中選擇一項填寫): A 參賽隊員 (打印后再手簽)::1. 2. 3.
2、 指導教師或指導教師組負責人 (沒有可不填寫): (論文紙質版與電子版中的以上信息必須一致,只是電子版中無需簽名。以上內容請仔細核對,提交后將不再允許做任何修改。如填寫錯誤,論文可能被取消評獎資格。) 日期: 2015 年 7 月 29 日醫(yī)保欺詐的主動發(fā)現摘要醫(yī)療保險是關系到國計民生和國家發(fā)展的重大問題,醫(yī)保欺詐問題嚴重威脅醫(yī)?;鸢踩?,妨礙醫(yī)保政策的有效實施,因此醫(yī)保欺詐行為的主動發(fā)現對醫(yī)療保險的發(fā)展、完善和社會穩(wěn)定發(fā)展有重大的意義。本提出了一種基于BP神經網絡的識別的鑒別醫(yī)保欺詐行為的方法。對于數據的處理,我們選擇了Excel和Access根據病人ID將表2.1病人資料和表2.2費用明細
3、表進行了匯總和歸一,并剔除了包括記錄不完整、格式錯誤之內的無效數據,在這個過程中我們發(fā)現了所有的消費記錄只是買藥,并且在這個月的消費記錄中只有極少數病人存在轉科室行為,而且一部分病人是自費的,沒有醫(yī)保欺詐嫌疑,還有一些病人存在多人共用醫(yī)??ǖ默F象,直接確定其為醫(yī)保欺詐,這些病人的消費記錄為我們訓練BP神經網絡提供了樣本支持。對于這個問題,我們首先用Excel和Access從大量的數據中篩選出了對欺詐識別有用的信息,其中包括病人的年齡,性別,所在科室,當月總消費以及當月消費頻率等等你,又考慮到不同科室的消費情況存在差異因此我們求出了各個科室的平均消費額,并且做出了每個病人當月的消費對對應科室平均
4、消費的相對差。有了這些欺詐因子和自費患者以及共用醫(yī)??ɑ颊叩南M記錄,我們建立了Logistic二元回歸模型,來評估各個欺詐因子對欺詐的可能性大小的影響進而剔除了對欺詐可能性無效的欺詐因子,保留了對欺詐可能性影響顯著的欺詐因子作為輸入向量對BP神經進行訓練,并且用訓練后的網絡對醫(yī)保病人進行了欺詐識別。最終我們認為輸出結果為1的病人具有重大醫(yī)保欺詐嫌疑。關鍵詞醫(yī)保欺詐 Logistic二元回歸 BP神經網絡 數據一、 問題重述1.1 問題背景醫(yī)療保險是為解決公民或勞動者因為疾病和非因公負傷,喪失勞動能力后的治療費用及服務,給予物質幫助的一種社會保險制度。醫(yī)療保險欺詐行為是指違反醫(yī)療保險管理法規(guī)和
5、政策,采用虛構事實、隱瞞真相以及其他方法,向醫(yī)?;鸸芾頇C構騙取醫(yī)保基金或醫(yī)保待遇的行為。這一行為具有兩個基本特征:一是主觀表現為直接故意,并且以非法占有醫(yī)?;鸹蚍欠ǐ@得醫(yī)保待遇為目的,二是實施手段主要是通過虛構事實和隱瞞真相,即故意虛構未曾發(fā)生的保險事故,或者對發(fā)生的保險事故編造虛假的原因或者夸大損失程度,以達到騙取醫(yī)療保險基金或醫(yī)療保險待遇的目的。我國自城鎮(zhèn)職工醫(yī)療保險和新農村合作醫(yī)療制度實施以來,欺騙醫(yī)?;鸬陌讣粩喟l(fā)生,事實上,醫(yī)療保險欺詐在許多國家每年都有數億美元的損失,對醫(yī)?;鸢踩珮嫵闪酥卮蟮耐{,妨礙了各國醫(yī)保政策的實施,因此醫(yī)療保險欺詐已成為各國非常重視的社會問題利用數學
6、建模的方法分析醫(yī)療保險欺詐行為,建立相應的數學模型可為發(fā)現醫(yī)療保險欺詐問題提供科學有力的依據。1.2 問題描述醫(yī)療保險欺詐行為具有兩個基本特征:一是主觀表現為直接故意,并且以非法占有醫(yī)?;鸹蚍欠ǐ@得醫(yī)保待遇為目的;二是實施手段主要是通過虛構事實和隱瞞真相,即故意虛構未曾發(fā)生的保險事故,或者對發(fā)生的保險事故編造虛假的原因或者夸大損失程度,以達到騙取醫(yī)療保險基金或醫(yī)療保險待遇的目的。騙保人進行醫(yī)保欺詐時通常使用的手段有冒用他人醫(yī)療保險證、卡就醫(yī);異地就醫(yī)人員偽造或虛開醫(yī)療票據回來報銷;“掛床”住院就醫(yī);要求醫(yī)院開具本人不必要的診療項目或藥品,由他人代作或代用等。下面這些情況都有可能是醫(yī)保欺詐:單
7、張?zhí)幏剿庂M特別高,一張卡在一定時間內反復多次拿藥等。二、 問題分析BP神經網絡是一種按誤差你傳播算法訓練的前饋網絡,學習過程由信號的正向傳播與誤差的逆向傳播兩個過程組成. 正向傳播時, 模式作用于輸入層, 經隱層處理后, 傳入誤差的逆向傳播階段, 將輸出誤差按某形式, 通過隱層向輸入層逐層返回, 并“分攤”給各層的所有單元, 從而獲得各層單元的參考誤差或稱誤差信號, 以作為修改各單元權值的依據. 權值不斷修改的過程, 也就是網絡學習過程. 此過程一直進行到網絡輸出的誤差準逐漸減少到可接受的程度或達到設定的學習次數為止。目前BP神經網絡已在國內外相關經濟研究領域得到廣泛應用,在國內的證券、銀行等
8、相關領域已有學者開始運用BP網絡進行研究,葉明華將該方法運用到機動車保險欺詐的研究當中,并且嘗試了統計回歸與神經網絡的融合,證實了神經網絡運用于保險欺詐的識別是可行的,并且通過回歸分析精煉后的識別因子能夠使神經網絡具有更好的識別效果。在這個問題中,數據量巨大,同時自費患者和欺詐患者(共用醫(yī)??ǎ┨峁┝舜罅康臉颖荆@些樣本恰好可以用于BP神經網絡的訓練,同時還可以用Logistic二元回歸分析篩選出影響顯著的欺詐因子,將定量與定性相結合,使結果更準確。因此,對于這個問題,運用層次分析法和Logistic二元回歸分析相結合的方法進行醫(yī)保欺詐的識別。三、 模型假設1.自費病人無醫(yī)保欺詐嫌疑2.消費
9、總額和消費數量為負數的視為記錄錯誤,取絕對值計算3.忽略這個月內極少數病人轉科室治療的情況4.這個月當地沒有地震等重大災難的發(fā)生四、 模型的建立與求解4.1 預處理數據4.1.1 樣本與欺詐因子選取根據附錄表格2.1和2.2中的病人資料和消費記錄中使用Excel和Access的數據處理函數,結合相關資料,先做出各個科室的平均消費額,然后提取出包括病人科室,病人所在科室的平均消費額,病人當月總費用,當月拿藥頻次,年齡,性別在內的6個欺詐因子,并將這些欺詐因子整合到病人ID中,表格見附件1。表4.1 欺詐因子匯總表醫(yī)保病人ID病人科室各科室平均消費額當月拿藥頻次 當月總費用年齡性別36305015
10、220.1960112942220.0529 162769018732.1121484643160.2552 116879915220.1960112961018.2946 2178614203170.46705697510.2496 226497218732.1121484651314.2629 219905618732.1121484661255.1246 252473815220.196011293721.5148 240626015220.196011294643.5248 116730518732.112148466913.2747 133196818732.112148468894
11、.1330 2161213173151.356301953752.6577 16126571095.2881589712354.6832 14.1.2 自費病人與醫(yī)??ü灿貌∪藦念}目表2.1 病人資料醫(yī)??ㄌ栆粰谥泻Y選出醫(yī)??ㄌ枮?的病人,提取出他們的病人ID并確定他們?yōu)樽再M病人。對醫(yī)??ㄌ栆粰谶\用COUNTIF函數篩選一卡多用病人發(fā)現存在2人共用醫(yī)??ㄒ约?人共用醫(yī)??ǖ默F象,提取出他們的ID并確定其為共用醫(yī)??ú∪恕7謩e根據自費病人以及醫(yī)??ü灿貌∪说腎D作出如表格4.2的欺詐因子匯總表便于進一步分析。4.2 欺詐因子的精煉運用二元離散選擇模型對選取的6個欺詐因子進行回歸分析,從中獲取具有
12、顯著性的欺詐因子,我們通過IBM SPSS Statistics 19軟件實現樣本數據的Logistic二元回歸分析。參數設定為:方法:Enter步進概率:進入=0.05,刪除=0.1;最大迭代次數: 50Exp(B)的C.I.(X): 95%。表4.2 迭代歷史記錄迭代-2 對數似然值系數Constant步驟 017647.606-1.93524584.590-2.93133917.985-3.64543832.549-4.01353829.783-4.09563829.779-4.09873829.779-4.098a. 模型中包括常量。b. 初始 -2 對數似然值: 3829.779c.
13、 因為參數估計的更改范圍小于 .001,所以估計在迭代次數 7 處終止。表4.3為迭代歷史記錄,估計在迭代7次后終止,初始的-2對數似然值達到43.927。表4.3分類表已觀測已預測欺詐與否百分比校正01步驟 0欺詐與否0225850100.013750.0總計百分比98.4a. 模型中包括常量。b. 切割值為 .500在表4.4中可見在輸入的樣本中有22585例被預測為0,有375例應該為1的也被預測為0,預測正確率98.4%。 表4.4 顯著性檢驗得分dfSig.步驟 0變量相對差1.6241.202當月總費用7.6071.006當月拿藥頻次1.4011.237年齡10.6761.001性
14、別(1)63.6741.000病人科室216.1201.000各科室平均消費額18.7101.000總統計量300.1287.000表4.5是對模型的全局檢驗,為似然比檢驗,共給出七個結果:sig值<0.05表明有統計學意義。從中可見病人當月總費用,年齡,性別,病人所在科室以及病人所在科室的平均消費額對回歸具有顯著影響,而其他因素沒有影響。根據這個結論就可以建立醫(yī)保欺詐識別的BP網絡模型。4.3 醫(yī)保欺詐識別的BP網絡模型1)設置初始權值W(0)為較小的隨機非零值。2)給定輸入/輸出樣本集合,up,dpp 誤差指標Ep=12i(dip-yip)2 總誤差指標Eall=p=1PEp重復下列
15、過程直至滿足收斂條件(Eall)a)對于任意一個樣本p,計算正向過程:反向過程: lip=-(dip-yip)f'( lxip) lip=m l+1mp l+1wmif' lxip,1<l<LEp lwij= lipOjp,1<lLb)修正權值 包括兩種學習方式:模式(Pattern)學習方式: 訓練(Epoch)學習方式: 網絡輸入矩陣是由Logistic二元回歸分析獲取的具有模型顯著性的5個欺詐識別因子向量組成,網絡輸出向量矩陣是由是否欺詐(0和1)組成的一維矩陣,0代表該病人沒有欺詐,1代表欺詐。經過反復多次試驗,本著誤差最小,訓練時間最短的原則最終確定
16、了有2個隱藏層的BP神經網絡模型。設置目標誤差為0.025,最大迭代次數50000等。圖4.1 BP 神經網絡訓練圖從圖4.1中看出我們的BP神經網絡經過396個迭代周期,歷時2分50秒之后終于達到了目標誤差0.025。訓練過程如圖所示。圖4.2 模擬訓練過程圖4.4 欺詐病人識別根據訓練好的BP神經網絡,對不能確定是否欺詐的病人進行欺詐識別,找到可能的欺詐病人ID,并根據其欺詐可能性大小進行了排序,排序越靠前欺詐嫌疑越大。最終結果請看附件5.五、 模型的評價與推廣5.1模型的優(yōu)缺點本文采取采取Logistic回歸和BP神經網絡結合的方法,運用Spss軟件對樣本進行Logistic回歸分析提取
17、具有模型顯著性的識別因子;將所得識別因子作為BP神經網絡模型的輸入向量進行訓練,并選取檢驗樣本對模型的有效性進行預測檢驗,證明了模型的準確性和用這種方法用于醫(yī)保欺詐識別的可行性。本模型基于BP神經網絡的方法具有很多優(yōu)點:BP神經網絡的非線性映射能力強,數學理論證明三層的神經網絡就能夠以任意精度逼近任何非線性連續(xù)函數。避開了求欺詐因子與欺詐與否之間復雜函數關系的過程,使問題的解決更加簡單,其次BP神經網絡具有一定的容錯能力,BP神經網絡在其局部的或者部分的神經元受到破壞后對全局的訓練結果不會造成很大的影響,也就是說即使系統在受到局部損傷時還是可以正常工作的。同時本模型也存在著一定的局限性,BP神
18、經網絡是一種局部搜索的優(yōu)化方法,它要解決的是一個復雜非線性化問題,網絡的權值是通過沿局部改善的方向逐漸進行調整的,這樣會使算法陷入局部極值,加上BP神經網絡對初始網絡權重非常敏感,以不同的權重初始化網絡,其往往會收斂于不同的局部極小,這也是我們多次訓練會得到不同結果的原因。其次, BP神經網絡結構的選擇至今尚無一種統一而完整的理論指導,一般只能由經驗選定。網絡結構選擇過大,訓練中效率不高,可能出現過擬合現象,造成網絡性能低,容錯性下降,若選擇過小,則又會造成網絡可能不收斂。而網絡的結構直接影響網絡的逼近能力及推廣性質。本文中我們采取了多次試驗的方法,確定了網絡的結構,具有一定的主觀性。5.2
19、模型的推廣該模型可有效檢測出醫(yī)保中發(fā)生的詐騙現象,這一模型基于BP神經網絡可以很容易地推廣到其他類型的保險行業(yè)中,例如人壽保險,機動車險等。同時本模型雖然給出了具有重大醫(yī)保欺詐嫌疑的病人ID,遺憾的是我們并沒有給出每個病人欺詐的具體概率是多少,這也是我們模型需要改進的地方。我們的結果可以為醫(yī)保欺詐的識別,提供一份寶貴的可參考的資料。六、 參考文獻1 林源. 國內外醫(yī)療保險欺詐研究現狀分析J. INSURANCE STUDIES, 2010, 12(12): 115-1222 劉坤坤,車險保險欺詐識別和測量模型實證研究基于廣東省車險歷史索賠數據,暨南學報(哲學社會科學版),8:50-55,201
20、2。3 朱大奇,史慧編著.人工神經網絡原理及應用M. 科學出版社, 20064 唐萬梅. BP神經網絡網絡結構優(yōu)化問題的研究J. 系統工程理論與實踐. 2005(10)5 劉彩紅. BP神經網絡學習算法的研究D. 重慶:重慶師范大學, 2008. 1-766 段超霞,田學民. 基于正交最小二乘的傅立葉神經網絡結構選取方法J. 石油化工自動化. 2012(06)7 葉飛躍. 數據挖掘過程中的模糊聚類方法J. 計算機與現代化. 2003(09)8 王學民編著.應用多元分析M. 上海財經大學出版社, 19999 廖寧放,高稚允. BP神經網絡用于函數逼近的最佳隱層結構J. 北京理工大學學報. 199
21、8(04)10 叢爽編著.面向MATLAB工具箱的神經網絡理論與應用M. 中國科學技術大學出版社, 199811 鄧偉妮. 基于BP神經網絡的西安市PM10污染預報及其MATLAB實現D. 西安科大學 2008七、附錄7.1 訓練BP程序clc,clear all;%define the input and outputpqz = xlsread('E:數學數學建模深圳杯2015題篩選后的BP素材欺詐者的樣本.xlsx','B2:G376');%創(chuàng)建BP網絡和定義訓練函數pzf = xlsread('E:數學數學建模深圳杯2015題篩選后的BP素材自費患者的樣本.xlsx','B2:G15587');%歸一化處理部分p = pqz;pzf;pt = p'pn = premnmx(pt);%創(chuàng)建
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 制造業(yè)承攬加工合同范本解析
- 銷售合同范本:房地產買賣合同
- 房地產項目材料供應合同
- 幼兒園教師招聘合同范本
- 公務用建筑設施維修保養(yǎng)合同樣本
- Module 3 Leisure time Unit 6 Healthy diet Reading 教學設計 2024-2025學年滬教牛津版英語九年級上冊
- 短期租賃合同簡易范本
- 天津市大學生實習勞動合同范本
- 企業(yè)保密及競業(yè)限制合同范本
- 6梯形的面積 教學設計-2024-2025學年人教版數學五年級上冊
- 特種行業(yè)許可證變更申請表
- 基礎日語1學習通超星課后章節(jié)答案期末考試題庫2023年
- 政務信息工作先進單位事跡材料
- 道路建筑材料電子教案(全)
- 《一頁紙項目管理》中文模板
- 《淡水養(yǎng)殖基礎知識》
- 英語演講-機器人發(fā)展
- 1、1~36號元素電子排布式、排布圖
- advantrol-pro v2.70學習版系統組態(tài)使用手冊
- 職業(yè)院校技能大賽沙盤模擬企業(yè)經營賽項規(guī)程
- 職業(yè)衛(wèi)生調查表
評論
0/150
提交評論