![數(shù)據(jù)挖掘在體檢代謝綜合征智能甄別中的應(yīng)用研究_第1頁(yè)](http://file4.renrendoc.com/view/c3f32bfc17289065c287cee8d9c435b3/c3f32bfc17289065c287cee8d9c435b31.gif)
![數(shù)據(jù)挖掘在體檢代謝綜合征智能甄別中的應(yīng)用研究_第2頁(yè)](http://file4.renrendoc.com/view/c3f32bfc17289065c287cee8d9c435b3/c3f32bfc17289065c287cee8d9c435b32.gif)
![數(shù)據(jù)挖掘在體檢代謝綜合征智能甄別中的應(yīng)用研究_第3頁(yè)](http://file4.renrendoc.com/view/c3f32bfc17289065c287cee8d9c435b3/c3f32bfc17289065c287cee8d9c435b33.gif)
![數(shù)據(jù)挖掘在體檢代謝綜合征智能甄別中的應(yīng)用研究_第4頁(yè)](http://file4.renrendoc.com/view/c3f32bfc17289065c287cee8d9c435b3/c3f32bfc17289065c287cee8d9c435b34.gif)
![數(shù)據(jù)挖掘在體檢代謝綜合征智能甄別中的應(yīng)用研究_第5頁(yè)](http://file4.renrendoc.com/view/c3f32bfc17289065c287cee8d9c435b3/c3f32bfc17289065c287cee8d9c435b35.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘在體檢代謝綜合征智能甄別中的應(yīng)用研究數(shù)據(jù)挖掘在體檢人群代謝綜合征智能甄別中的應(yīng)用研究目錄Contents內(nèi)容與方法結(jié)果討論前言1243前言1前言內(nèi)容與方法結(jié)果討論研究背景
體檢是“三早”的重要前依端口。
國(guó)內(nèi)外均累積了海量的體檢數(shù)據(jù)。
如何利用和分析健康體檢數(shù)據(jù)是一個(gè)重要的研究方向。前言內(nèi)容與方法結(jié)果討論研究背景數(shù)據(jù)冗余體檢數(shù)據(jù):數(shù)據(jù)量大,指標(biāo)多數(shù)據(jù)挖掘中,冗余的體檢變量會(huì)減緩疾病分類的效率,降低疾病分類性能。體檢數(shù)據(jù)分析過(guò)程中面臨著諸多問(wèn)題,其中數(shù)據(jù)冗余,類不平衡逐漸受到關(guān)注降維Lasso特征選擇前言內(nèi)容與方法結(jié)果討論研究背景類不平衡指在數(shù)據(jù)集中陽(yáng)性類數(shù)量遠(yuǎn)小于陰性類數(shù)量。不平衡類分布下,傳統(tǒng)分類方法傾向于將待分類樣本劃分為陰性,而陽(yáng)性樣本識(shí)別較差。陽(yáng)性類樣本的正確分類比陰性類樣本的分類更有價(jià)值。體檢數(shù)據(jù)分析過(guò)程中面臨著諸多問(wèn)題,其中數(shù)據(jù)冗余,類不平衡逐漸受到關(guān)注數(shù)據(jù)層面:數(shù)據(jù)平衡分類算法層面:數(shù)據(jù)分類解決途徑傳統(tǒng)分類器改進(jìn)設(shè)計(jì)新算法重采樣技術(shù)傳統(tǒng)分類器前言內(nèi)容與方法結(jié)果討論
研究意義代謝綜合征(MetabolicSyndrome,MS)是以中心性肥胖、高血壓、糖尿病、高血脂集結(jié)于一身的病理狀態(tài)。隨著現(xiàn)代人患肥胖、高血壓、糖尿病、脂肪肝、血脂紊亂等慢性病人數(shù)逐漸增加,造成慢性代謝綜合性疾病的全球大流行。代謝綜合征的預(yù)防遠(yuǎn)比治療更能節(jié)約醫(yī)藥衛(wèi)生資源和改善個(gè)體的健康狀態(tài)。體檢作為一級(jí)預(yù)防階段能較早篩選代謝綜合征患者,幫助患者積極采取干預(yù)措施,防止并發(fā)癥發(fā)生。前言內(nèi)容與方法結(jié)果討論研究目的
基于健康體檢大數(shù)據(jù),以代謝綜合征智能甄別(分類)為切入點(diǎn),探討與分析Lasso特征選擇與重采樣技術(shù)在醫(yī)療大數(shù)據(jù)分類診斷中的可行性與應(yīng)用價(jià)值,為解決醫(yī)療大數(shù)據(jù)挖掘中數(shù)據(jù)冗余及類不平衡分類問(wèn)題的研究提供方法學(xué)參考。2內(nèi)容與方法前言內(nèi)容與方法結(jié)果討論Lasso特征選擇通過(guò)添加約束條件s≥0對(duì)模型系數(shù)壓縮,當(dāng)模型中回歸系數(shù)Lasso估計(jì)的絕對(duì)值小于其最小回歸系數(shù)的絕對(duì)值時(shí),某些相關(guān)度低的變量系數(shù)就被壓縮為0,此時(shí)所對(duì)應(yīng)的變量將被剔除,達(dá)到降維目的。
前言內(nèi)容與方法結(jié)果討論重采樣技術(shù)隨機(jī)過(guò)采樣:隨機(jī)欠采樣:混合采樣:假設(shè)不平衡數(shù)據(jù)集中包含陽(yáng)性類樣本的數(shù)量為s,陰性類樣本的數(shù)量為n。前言內(nèi)容與方法結(jié)果討論分類方法BP神經(jīng)網(wǎng)絡(luò)C4.5決策樹(shù)前言內(nèi)容與方法結(jié)果討論交叉驗(yàn)證:10-折交叉驗(yàn)證二分類問(wèn)題的混淆矩陣真實(shí)類型分類器分類患者健康患者TruePositive(TP)FalseNegative(FN)健康FalsePositive(FP)TrueNegative(TN)評(píng)價(jià)指標(biāo)(1)(2)(3)前言內(nèi)容與方法結(jié)果討論研究?jī)?nèi)容1.Lasso特征選擇處理數(shù)據(jù)冗余未運(yùn)用Lasso特征選擇運(yùn)用Lasso特征選擇2.重采樣技術(shù)處理不平衡數(shù)據(jù)(1)不平衡數(shù)據(jù)集模擬(1,10,50,100)(2)未運(yùn)用Lasso特征選擇運(yùn)用Lasso特征選擇3.綜合評(píng)價(jià)Lasso特征選擇與重采樣技術(shù)對(duì)分類性能的影響(1)Lasso特征選擇與重采樣技術(shù)后評(píng)價(jià)指標(biāo)的兩因素方差分析(2)Lasso特征選擇與重采樣技術(shù)對(duì)分類結(jié)果的穩(wěn)健性對(duì)分類性能的影響對(duì)分類的影響重采樣技術(shù)3結(jié)果前言內(nèi)容與方法討論結(jié)果
收集烏魯木齊市某體檢機(jī)構(gòu)2014~2016年漢族體檢者信息69267例,經(jīng)數(shù)據(jù)清洗后,共54個(gè)體檢指標(biāo)。
根據(jù)中華醫(yī)學(xué)會(huì)糖尿病學(xué)分會(huì)的代謝綜合征診斷標(biāo)準(zhǔn),共篩選2735例代謝綜合征患者,患病率約為4%,不平衡比例≈24。前言內(nèi)容與方法討論結(jié)果一、Lasso特征選擇在智能甄別中的應(yīng)用血小板平均體積高密度脂蛋白膽固醇空腹血糖中性粒細(xì)胞百分比年齡圖3Lasso對(duì)該數(shù)據(jù)的特征序列圖前言內(nèi)容與方法討論結(jié)果一、Lasso特征選擇對(duì)分類性能的影響表3Lasso特征選擇對(duì)代謝綜合征分類性能影響C4.5決策樹(shù)F-valueG-meanAUC
未使用Lasso特征選擇0.9750.7940.802
使用Lasso特征選擇0.9790.8170.836BP神經(jīng)網(wǎng)絡(luò)
未使用Lasso特征選擇0.9700.7260.952
使用Lasso特征選擇0.9720.7260.964前言內(nèi)容與方法討論結(jié)果二、重采樣技術(shù)對(duì)分類性能的影響2.未用Lasso特征選擇原不平衡數(shù)據(jù)隨機(jī)過(guò)采樣隨機(jī)欠采樣混合采樣3.運(yùn)用Lasso特征選擇原不平衡數(shù)據(jù)隨機(jī)過(guò)采樣隨機(jī)欠采樣混合采樣分類(C4.5決策樹(shù)、BP神經(jīng)網(wǎng)絡(luò))分類(C4.5決策樹(shù)、BP神經(jīng)網(wǎng)絡(luò))1.計(jì)算機(jī)模擬不平衡比例對(duì)分類性能的影響前言內(nèi)容與方法討論結(jié)果表4不同不平衡比例的數(shù)據(jù)集分類結(jié)果不平衡比例患病率F-valueG-meanAUCC4.5決策樹(shù)11/20.9200.9200.936101/110.9700.8790.921501/510.9930.8420.8941001/1010.9970.8400.892BP神經(jīng)網(wǎng)絡(luò)11/20.9660.9660.984101/110.9830.9470.960501/510.9940.8710.8751001/1010.9970.8470.8271.不同比例的類不平衡數(shù)據(jù)對(duì)分類性能的影響前言內(nèi)容與方法討論結(jié)果表5重采樣技術(shù)對(duì)分類性能的影響結(jié)果分類算法數(shù)據(jù)集F-valueG-meanAUCC4.5決策樹(shù)原不平衡數(shù)據(jù)0.9750.7940.802
隨機(jī)過(guò)采樣0.9910.9900.991
隨機(jī)欠采樣0.9210.9210.914
混合采樣0.9890.9890.990BP神經(jīng)網(wǎng)絡(luò)原不平衡數(shù)據(jù)0.9700.7260.952
隨機(jī)過(guò)采樣0.9650.9640.981
隨機(jī)欠采樣0.8900.8900.953
混合采樣0.9580.9570.9792.三種重采樣技術(shù)在代謝綜合征智能甄別中的應(yīng)用前言內(nèi)容與方法討論結(jié)果3.基于Lasso特征選擇三種重采樣技術(shù)在代謝綜合征智能甄別的應(yīng)用表6
Lasso特征選擇聯(lián)合重采樣對(duì)分類性能的影響結(jié)果分類算法數(shù)據(jù)集F-valueG-meanAUCC4.5決策樹(shù)不平衡數(shù)據(jù)集0.9790.8170.836
隨機(jī)過(guò)采樣0.9880.9880.990
隨機(jī)欠采樣0.9320.9320.953
混合采樣0.9850.9850.988BP神經(jīng)網(wǎng)絡(luò)不平衡數(shù)據(jù)集0.9720.7260.964
隨機(jī)過(guò)采樣0.9320.9320.974
隨機(jī)欠采樣0.9320.9320.972
混合采樣0.9320.9310.973前言內(nèi)容與方法討論結(jié)果三、綜合評(píng)價(jià)Lasso特征選擇與重采樣技術(shù)對(duì)分類性能的影響2.F-valueG-meanAUCLasso特征選擇
重采樣技術(shù)C4.5決策樹(shù)Lasso特征選擇重采樣技術(shù)樹(shù)狀結(jié)構(gòu)圖分類前言內(nèi)容與方法討論結(jié)果1.Lasso特征選擇與重采樣技術(shù)分類性能的優(yōu)劣評(píng)價(jià)前言內(nèi)容與方法討論結(jié)果1.Lasso特征選擇與重采樣技術(shù)分類性能的優(yōu)劣評(píng)價(jià)前言內(nèi)容與方法討論結(jié)果2.Lasso特征選擇與重采樣技術(shù)對(duì)分類性能的穩(wěn)健性圖5原始不平衡數(shù)據(jù)樹(shù)狀結(jié)構(gòu)圖前言內(nèi)容與方法討論結(jié)果圖6未使用Lasso特征選擇的隨機(jī)過(guò)采樣樹(shù)狀結(jié)構(gòu)圖2.Lasso特征選擇與重采樣技術(shù)對(duì)分類性能的穩(wěn)健性前言內(nèi)容與方法討論結(jié)果圖7Lasso特征選擇后隨機(jī)過(guò)采樣樹(shù)狀圖2.Lasso特征選擇與重采樣技術(shù)對(duì)分類性能的穩(wěn)健性4討論前言內(nèi)容與方法結(jié)果討論1.Lasso特征選擇代謝綜合征體檢變量分析Lasso特征選擇的變量是:空腹血糖、高密度脂蛋白膽固醇、年齡、中性粒細(xì)胞百分比、血小板平均體積。①②空腹血糖、高密度脂蛋白膽固醇與代謝綜合征的診斷密切相關(guān)。隨著年齡增大,人體代謝功能下降,生理系統(tǒng)衰老加速,機(jī)體更易受到疾病侵襲。③巨噬細(xì)胞活化在代謝功能失調(diào)中起關(guān)鍵作用,中性粒細(xì)胞作為巨噬細(xì)胞的代表與代謝綜合征密切相關(guān)。④代謝綜合征的低炎性狀態(tài)與血小板存在相互作用。前言內(nèi)容與方法討論結(jié)果2.重采樣技術(shù)對(duì)類不平衡數(shù)據(jù)分類性能的影響分析
不平衡數(shù)據(jù)分類問(wèn)題受到諸多研究者的關(guān)注C4.5決策樹(shù)與BP神經(jīng)網(wǎng)絡(luò)在分類性能略有差別BP神經(jīng)網(wǎng)絡(luò):定量變量;C4.5決策樹(shù):定性變量重采樣分類性能優(yōu)于原不平衡數(shù)據(jù)
隨機(jī)過(guò)采樣略
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度加油站儲(chǔ)油罐售后服務(wù)及維修合同
- 2025年度荒山荒坡綜合治理工程承包合同樣本
- 2025年度智慧旅游項(xiàng)目結(jié)算合同范本
- 2025年中學(xué)下半年學(xué)生會(huì)學(xué)期工作總結(jié)模版(四篇)
- 2025年中學(xué)語(yǔ)文教師培訓(xùn)心得樣本(4篇)
- 2025年二小第二學(xué)期英語(yǔ)教研組總結(jié)模版(2篇)
- 2025年度供用水環(huán)境監(jiān)測(cè)與保護(hù)合同
- 2025年度果樹(shù)種植基地果苗種植與生態(tài)保護(hù)合同
- 2025年度區(qū)塊鏈技術(shù)應(yīng)用公司股權(quán)轉(zhuǎn)讓與生態(tài)建設(shè)合同
- 2025年度新媒體廣告制作與推廣服務(wù)合同范本
- 復(fù)旦中華傳統(tǒng)體育課程講義05木蘭拳基本技術(shù)
- GB/T 13234-2018用能單位節(jié)能量計(jì)算方法
- (課件)肝性腦病
- 北師大版五年級(jí)上冊(cè)數(shù)學(xué)教學(xué)課件第5課時(shí) 人民幣兌換
- 工程回訪記錄單
- 住房公積金投訴申請(qǐng)書(shū)
- 高考物理二輪專題課件:“配速法”解決擺線問(wèn)題
- 檢驗(yàn)科生物安全風(fēng)險(xiǎn)評(píng)估報(bào)告
- 京頤得移動(dòng)門診產(chǎn)品輸液
- 如何做一名合格的帶教老師PPT精選文檔
- ISO9001-14001-2015內(nèi)部審核檢查表
評(píng)論
0/150
提交評(píng)論