數(shù)據(jù)挖掘在體檢代謝綜合征智能甄別中的應(yīng)用研究_第1頁(yè)
數(shù)據(jù)挖掘在體檢代謝綜合征智能甄別中的應(yīng)用研究_第2頁(yè)
數(shù)據(jù)挖掘在體檢代謝綜合征智能甄別中的應(yīng)用研究_第3頁(yè)
數(shù)據(jù)挖掘在體檢代謝綜合征智能甄別中的應(yīng)用研究_第4頁(yè)
數(shù)據(jù)挖掘在體檢代謝綜合征智能甄別中的應(yīng)用研究_第5頁(yè)
已閱讀5頁(yè),還剩28頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘在體檢代謝綜合征智能甄別中的應(yīng)用研究數(shù)據(jù)挖掘在體檢人群代謝綜合征智能甄別中的應(yīng)用研究目錄Contents內(nèi)容與方法結(jié)果討論前言1243前言1前言內(nèi)容與方法結(jié)果討論研究背景

體檢是“三早”的重要前依端口。

國(guó)內(nèi)外均累積了海量的體檢數(shù)據(jù)。

如何利用和分析健康體檢數(shù)據(jù)是一個(gè)重要的研究方向。前言內(nèi)容與方法結(jié)果討論研究背景數(shù)據(jù)冗余體檢數(shù)據(jù):數(shù)據(jù)量大,指標(biāo)多數(shù)據(jù)挖掘中,冗余的體檢變量會(huì)減緩疾病分類的效率,降低疾病分類性能。體檢數(shù)據(jù)分析過(guò)程中面臨著諸多問(wèn)題,其中數(shù)據(jù)冗余,類不平衡逐漸受到關(guān)注降維Lasso特征選擇前言內(nèi)容與方法結(jié)果討論研究背景類不平衡指在數(shù)據(jù)集中陽(yáng)性類數(shù)量遠(yuǎn)小于陰性類數(shù)量。不平衡類分布下,傳統(tǒng)分類方法傾向于將待分類樣本劃分為陰性,而陽(yáng)性樣本識(shí)別較差。陽(yáng)性類樣本的正確分類比陰性類樣本的分類更有價(jià)值。體檢數(shù)據(jù)分析過(guò)程中面臨著諸多問(wèn)題,其中數(shù)據(jù)冗余,類不平衡逐漸受到關(guān)注數(shù)據(jù)層面:數(shù)據(jù)平衡分類算法層面:數(shù)據(jù)分類解決途徑傳統(tǒng)分類器改進(jìn)設(shè)計(jì)新算法重采樣技術(shù)傳統(tǒng)分類器前言內(nèi)容與方法結(jié)果討論

研究意義代謝綜合征(MetabolicSyndrome,MS)是以中心性肥胖、高血壓、糖尿病、高血脂集結(jié)于一身的病理狀態(tài)。隨著現(xiàn)代人患肥胖、高血壓、糖尿病、脂肪肝、血脂紊亂等慢性病人數(shù)逐漸增加,造成慢性代謝綜合性疾病的全球大流行。代謝綜合征的預(yù)防遠(yuǎn)比治療更能節(jié)約醫(yī)藥衛(wèi)生資源和改善個(gè)體的健康狀態(tài)。體檢作為一級(jí)預(yù)防階段能較早篩選代謝綜合征患者,幫助患者積極采取干預(yù)措施,防止并發(fā)癥發(fā)生。前言內(nèi)容與方法結(jié)果討論研究目的

基于健康體檢大數(shù)據(jù),以代謝綜合征智能甄別(分類)為切入點(diǎn),探討與分析Lasso特征選擇與重采樣技術(shù)在醫(yī)療大數(shù)據(jù)分類診斷中的可行性與應(yīng)用價(jià)值,為解決醫(yī)療大數(shù)據(jù)挖掘中數(shù)據(jù)冗余及類不平衡分類問(wèn)題的研究提供方法學(xué)參考。2內(nèi)容與方法前言內(nèi)容與方法結(jié)果討論Lasso特征選擇通過(guò)添加約束條件s≥0對(duì)模型系數(shù)壓縮,當(dāng)模型中回歸系數(shù)Lasso估計(jì)的絕對(duì)值小于其最小回歸系數(shù)的絕對(duì)值時(shí),某些相關(guān)度低的變量系數(shù)就被壓縮為0,此時(shí)所對(duì)應(yīng)的變量將被剔除,達(dá)到降維目的。

前言內(nèi)容與方法結(jié)果討論重采樣技術(shù)隨機(jī)過(guò)采樣:隨機(jī)欠采樣:混合采樣:假設(shè)不平衡數(shù)據(jù)集中包含陽(yáng)性類樣本的數(shù)量為s,陰性類樣本的數(shù)量為n。前言內(nèi)容與方法結(jié)果討論分類方法BP神經(jīng)網(wǎng)絡(luò)C4.5決策樹(shù)前言內(nèi)容與方法結(jié)果討論交叉驗(yàn)證:10-折交叉驗(yàn)證二分類問(wèn)題的混淆矩陣真實(shí)類型分類器分類患者健康患者TruePositive(TP)FalseNegative(FN)健康FalsePositive(FP)TrueNegative(TN)評(píng)價(jià)指標(biāo)(1)(2)(3)前言內(nèi)容與方法結(jié)果討論研究?jī)?nèi)容1.Lasso特征選擇處理數(shù)據(jù)冗余未運(yùn)用Lasso特征選擇運(yùn)用Lasso特征選擇2.重采樣技術(shù)處理不平衡數(shù)據(jù)(1)不平衡數(shù)據(jù)集模擬(1,10,50,100)(2)未運(yùn)用Lasso特征選擇運(yùn)用Lasso特征選擇3.綜合評(píng)價(jià)Lasso特征選擇與重采樣技術(shù)對(duì)分類性能的影響(1)Lasso特征選擇與重采樣技術(shù)后評(píng)價(jià)指標(biāo)的兩因素方差分析(2)Lasso特征選擇與重采樣技術(shù)對(duì)分類結(jié)果的穩(wěn)健性對(duì)分類性能的影響對(duì)分類的影響重采樣技術(shù)3結(jié)果前言內(nèi)容與方法討論結(jié)果

收集烏魯木齊市某體檢機(jī)構(gòu)2014~2016年漢族體檢者信息69267例,經(jīng)數(shù)據(jù)清洗后,共54個(gè)體檢指標(biāo)。

根據(jù)中華醫(yī)學(xué)會(huì)糖尿病學(xué)分會(huì)的代謝綜合征診斷標(biāo)準(zhǔn),共篩選2735例代謝綜合征患者,患病率約為4%,不平衡比例≈24。前言內(nèi)容與方法討論結(jié)果一、Lasso特征選擇在智能甄別中的應(yīng)用血小板平均體積高密度脂蛋白膽固醇空腹血糖中性粒細(xì)胞百分比年齡圖3Lasso對(duì)該數(shù)據(jù)的特征序列圖前言內(nèi)容與方法討論結(jié)果一、Lasso特征選擇對(duì)分類性能的影響表3Lasso特征選擇對(duì)代謝綜合征分類性能影響C4.5決策樹(shù)F-valueG-meanAUC

未使用Lasso特征選擇0.9750.7940.802

使用Lasso特征選擇0.9790.8170.836BP神經(jīng)網(wǎng)絡(luò)

未使用Lasso特征選擇0.9700.7260.952

使用Lasso特征選擇0.9720.7260.964前言內(nèi)容與方法討論結(jié)果二、重采樣技術(shù)對(duì)分類性能的影響2.未用Lasso特征選擇原不平衡數(shù)據(jù)隨機(jī)過(guò)采樣隨機(jī)欠采樣混合采樣3.運(yùn)用Lasso特征選擇原不平衡數(shù)據(jù)隨機(jī)過(guò)采樣隨機(jī)欠采樣混合采樣分類(C4.5決策樹(shù)、BP神經(jīng)網(wǎng)絡(luò))分類(C4.5決策樹(shù)、BP神經(jīng)網(wǎng)絡(luò))1.計(jì)算機(jī)模擬不平衡比例對(duì)分類性能的影響前言內(nèi)容與方法討論結(jié)果表4不同不平衡比例的數(shù)據(jù)集分類結(jié)果不平衡比例患病率F-valueG-meanAUCC4.5決策樹(shù)11/20.9200.9200.936101/110.9700.8790.921501/510.9930.8420.8941001/1010.9970.8400.892BP神經(jīng)網(wǎng)絡(luò)11/20.9660.9660.984101/110.9830.9470.960501/510.9940.8710.8751001/1010.9970.8470.8271.不同比例的類不平衡數(shù)據(jù)對(duì)分類性能的影響前言內(nèi)容與方法討論結(jié)果表5重采樣技術(shù)對(duì)分類性能的影響結(jié)果分類算法數(shù)據(jù)集F-valueG-meanAUCC4.5決策樹(shù)原不平衡數(shù)據(jù)0.9750.7940.802

隨機(jī)過(guò)采樣0.9910.9900.991

隨機(jī)欠采樣0.9210.9210.914

混合采樣0.9890.9890.990BP神經(jīng)網(wǎng)絡(luò)原不平衡數(shù)據(jù)0.9700.7260.952

隨機(jī)過(guò)采樣0.9650.9640.981

隨機(jī)欠采樣0.8900.8900.953

混合采樣0.9580.9570.9792.三種重采樣技術(shù)在代謝綜合征智能甄別中的應(yīng)用前言內(nèi)容與方法討論結(jié)果3.基于Lasso特征選擇三種重采樣技術(shù)在代謝綜合征智能甄別的應(yīng)用表6

Lasso特征選擇聯(lián)合重采樣對(duì)分類性能的影響結(jié)果分類算法數(shù)據(jù)集F-valueG-meanAUCC4.5決策樹(shù)不平衡數(shù)據(jù)集0.9790.8170.836

隨機(jī)過(guò)采樣0.9880.9880.990

隨機(jī)欠采樣0.9320.9320.953

混合采樣0.9850.9850.988BP神經(jīng)網(wǎng)絡(luò)不平衡數(shù)據(jù)集0.9720.7260.964

隨機(jī)過(guò)采樣0.9320.9320.974

隨機(jī)欠采樣0.9320.9320.972

混合采樣0.9320.9310.973前言內(nèi)容與方法討論結(jié)果三、綜合評(píng)價(jià)Lasso特征選擇與重采樣技術(shù)對(duì)分類性能的影響2.F-valueG-meanAUCLasso特征選擇

重采樣技術(shù)C4.5決策樹(shù)Lasso特征選擇重采樣技術(shù)樹(shù)狀結(jié)構(gòu)圖分類前言內(nèi)容與方法討論結(jié)果1.Lasso特征選擇與重采樣技術(shù)分類性能的優(yōu)劣評(píng)價(jià)前言內(nèi)容與方法討論結(jié)果1.Lasso特征選擇與重采樣技術(shù)分類性能的優(yōu)劣評(píng)價(jià)前言內(nèi)容與方法討論結(jié)果2.Lasso特征選擇與重采樣技術(shù)對(duì)分類性能的穩(wěn)健性圖5原始不平衡數(shù)據(jù)樹(shù)狀結(jié)構(gòu)圖前言內(nèi)容與方法討論結(jié)果圖6未使用Lasso特征選擇的隨機(jī)過(guò)采樣樹(shù)狀結(jié)構(gòu)圖2.Lasso特征選擇與重采樣技術(shù)對(duì)分類性能的穩(wěn)健性前言內(nèi)容與方法討論結(jié)果圖7Lasso特征選擇后隨機(jī)過(guò)采樣樹(shù)狀圖2.Lasso特征選擇與重采樣技術(shù)對(duì)分類性能的穩(wěn)健性4討論前言內(nèi)容與方法結(jié)果討論1.Lasso特征選擇代謝綜合征體檢變量分析Lasso特征選擇的變量是:空腹血糖、高密度脂蛋白膽固醇、年齡、中性粒細(xì)胞百分比、血小板平均體積。①②空腹血糖、高密度脂蛋白膽固醇與代謝綜合征的診斷密切相關(guān)。隨著年齡增大,人體代謝功能下降,生理系統(tǒng)衰老加速,機(jī)體更易受到疾病侵襲。③巨噬細(xì)胞活化在代謝功能失調(diào)中起關(guān)鍵作用,中性粒細(xì)胞作為巨噬細(xì)胞的代表與代謝綜合征密切相關(guān)。④代謝綜合征的低炎性狀態(tài)與血小板存在相互作用。前言內(nèi)容與方法討論結(jié)果2.重采樣技術(shù)對(duì)類不平衡數(shù)據(jù)分類性能的影響分析

不平衡數(shù)據(jù)分類問(wèn)題受到諸多研究者的關(guān)注C4.5決策樹(shù)與BP神經(jīng)網(wǎng)絡(luò)在分類性能略有差別BP神經(jīng)網(wǎng)絡(luò):定量變量;C4.5決策樹(shù):定性變量重采樣分類性能優(yōu)于原不平衡數(shù)據(jù)

隨機(jī)過(guò)采樣略

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論