版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
DBXX/TXXX—XXXX
江西省醫(yī)療大數(shù)據(jù)平臺(tái)技術(shù)規(guī)范第八部分:人工智能臨床預(yù)測(cè)模型
構(gòu)建規(guī)范
1范圍
本標(biāo)準(zhǔn)規(guī)定了基于人工智能的臨床預(yù)測(cè)模型構(gòu)建的相關(guān)要求,包括臨床預(yù)測(cè)模型構(gòu)建的總則、框架、
規(guī)定了臨床預(yù)測(cè)模型構(gòu)建的目標(biāo)定義、數(shù)據(jù)的采集、數(shù)據(jù)預(yù)處理和數(shù)據(jù)理解,特征工程、模型訓(xùn)練、效
果評(píng)價(jià)、以及模型的擴(kuò)展與驗(yàn)證等內(nèi)容。本標(biāo)準(zhǔn)適用于基于人工智能臨床預(yù)測(cè)模型體系的構(gòu)建。
本規(guī)范適用于人工智能臨床預(yù)測(cè)模型的建立;人工智能臨床預(yù)測(cè)模型建立過程的明確,人工智能臨
床預(yù)測(cè)模型實(shí)施落地的指導(dǎo);人工智能臨床預(yù)測(cè)模型的研發(fā)和評(píng)價(jià)。
2規(guī)范性引用文件
下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本
文件。
GB/T5271.31-2006信息技術(shù)詞匯第31部分:人工智能機(jī)器學(xué)習(xí)
GZBC/T37-2020醫(yī)療機(jī)構(gòu)數(shù)據(jù)治理規(guī)范
YD/T3762-2020大數(shù)據(jù)數(shù)據(jù)挖掘平臺(tái)技術(shù)要求與測(cè)試方法《國(guó)家健康醫(yī)療大數(shù)據(jù)標(biāo)準(zhǔn)、安全和服務(wù)
管理辦法(試行)》(國(guó)衛(wèi)規(guī)劃發(fā)〔2018〕23號(hào))
3術(shù)語和定義
下列術(shù)語和定義適用于本文件。
3.1
醫(yī)療大數(shù)據(jù)medicalbigdata
在疾病防治過程中產(chǎn)生的與醫(yī)療相關(guān)的海量數(shù)據(jù)的集合。
3.2
結(jié)構(gòu)化數(shù)據(jù)structureddata
一種數(shù)據(jù)表示形式,按此種形式,由數(shù)據(jù)元素匯集而成的每個(gè)記錄的結(jié)構(gòu)都是一致的并且可以使用
關(guān)系模型予以有效描述。
[GB/T35295-2017,定義2.2.13]
3.3
人工智能arificialInteligence
1
DBXX/TXXX—XXXX
研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。
人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支,它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方
式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語言識(shí)別、圖像識(shí)別、自然語言處理和專家系統(tǒng)等。
3.4
自然語言處理naturallanguageprocessing
人工智能的分支學(xué)科,研究用計(jì)算機(jī)模擬人的語言交際過程,實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行
有效通信的各種理論和方法。
3.5
機(jī)器學(xué)習(xí)machinelearning
功能單元通過獲取新知識(shí)或技能,或通過整理已有的知識(shí)或技能來改進(jìn)其性能的過程。
[GB/T5271.31-2006定義,31.1.2]
3.6
深度學(xué)習(xí)deeplearning
機(jī)器學(xué)習(xí)中一種基于對(duì)數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法,通過組合低層特征形成更加抽象的高層表示屬
性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。
[GB/TCESA1119-2020定義,3.6]
3.7
有監(jiān)督學(xué)習(xí)supervisedlearning
指已有的樣本(數(shù)據(jù))已經(jīng)包含自身的特征變量(自變量)及正確的響應(yīng)變量(因變量)。
3.8
無監(jiān)督學(xué)習(xí)unsupervisedlearning
指已有的樣本(數(shù)據(jù))不包含因變量。
3.9
通用數(shù)據(jù)模型commondatamodel)
一種從多種來源的電子信息數(shù)據(jù)庫中提取特定信息的結(jié)構(gòu)和框架,它通過建立標(biāo)準(zhǔn)化的變量表單,
從海量數(shù)據(jù)中準(zhǔn)確、快速、有效地提取科學(xué)研究或管理所需要的關(guān)鍵信息。
4縮略語
下列縮略語適用于本標(biāo)準(zhǔn):
——AI人工智能ArificialIntelligence;
——NLP自然語言處理NaturalLanguageProcessing;
——AUC曲線下面積AreaUnderCurve;
——SPE特異度specificity;
2
DBXX/TXXX—XXXX
——SEN靈敏度Sensitivity;
——CNN卷積神經(jīng)網(wǎng)絡(luò)ConvolutionalNeuralNetworks;
——RNN循環(huán)神經(jīng)網(wǎng)絡(luò)RecurrentNeuralNetwork;
——GAN生成式對(duì)抗網(wǎng)絡(luò)GenerativeAdversarialNetworks;
——SVM支持向量機(jī)SupportVectorMachine;
——RF隨機(jī)森林RandomForest;
——XGBoost極端梯度提升樹eXtremeGradientBoosting;
——MAE平均絕對(duì)誤差MeanAbsoluteDeviation;
——MSE均方誤差MeanSquaredError;
——RSR方RSquared;
——CDM通用數(shù)據(jù)模型CommonDataModel。
5總則
5.1概述
臨床預(yù)測(cè)模型主要源于醫(yī)療大數(shù)據(jù)管理及應(yīng)用、疾病預(yù)防的需求,主要包括:
——醫(yī)療機(jī)構(gòu)數(shù)據(jù)產(chǎn)品化、資產(chǎn)化和價(jià)值化的要求;
——疾病三級(jí)預(yù)防的要求,主要為:
疾病預(yù)測(cè)模型給某病量化風(fēng)險(xiǎn)值(概率),為健康教育和行為干預(yù)提供更直觀、有力的科
學(xué)工具;
疾病診斷,借助無創(chuàng)的、低成本、易采集的指標(biāo),給出高靈敏度和特異度的診斷方案;
疾病預(yù)后預(yù)測(cè),可對(duì)疾病的復(fù)發(fā)、死亡,傷殘以及出現(xiàn)并發(fā)癥的概率給出量化的估算。
5.2目標(biāo)
5.2.1醫(yī)療數(shù)據(jù)的臨床預(yù)測(cè)模型的目標(biāo)是保障應(yīng)用過程中的共同決策、精準(zhǔn)篩選、質(zhì)量管理:
5.2.2共同決策:醫(yī)生和患者借助臨床預(yù)測(cè)模型可以更好的做出共同決策。
5.2.3精準(zhǔn)篩選:臨床研究者可以更精準(zhǔn)的篩選合適的研究對(duì)象。
5.2.4質(zhì)量管理:衛(wèi)生管理者更好的進(jìn)行醫(yī)療質(zhì)量管理,合理的配置醫(yī)療資源。
5.3任務(wù)
醫(yī)療機(jī)構(gòu)應(yīng)通過目標(biāo)定義、數(shù)據(jù)的采集、數(shù)據(jù)預(yù)處理和數(shù)據(jù)理解,特征工程、模型訓(xùn)練、效果評(píng)價(jià)、
以及模型的擴(kuò)展與驗(yàn)證的過程,實(shí)施臨床預(yù)測(cè)模型構(gòu)建的任務(wù),主要包括:
——通過將醫(yī)療過程中的問題轉(zhuǎn)化為適合人工智能項(xiàng)目的問題定義,并制定初步計(jì)劃;
——通過不同數(shù)據(jù)源采集模型構(gòu)建所需數(shù)據(jù);
——處理數(shù)據(jù)噪聲、數(shù)據(jù)冗余、數(shù)據(jù)丟失等問題,對(duì)數(shù)據(jù)進(jìn)行初步分析與探索;
——通過特征工程獲取可解釋的優(yōu)質(zhì)特征;
——通過模型訓(xùn)練,并進(jìn)行優(yōu)化;
——通過評(píng)價(jià)指標(biāo)評(píng)估模型的性能;
——通過外部驗(yàn)證集對(duì)模型驗(yàn)證,并對(duì)模型進(jìn)行不斷改進(jìn)。
5.4原則
醫(yī)療臨床預(yù)測(cè)模型應(yīng)以數(shù)據(jù)質(zhì)量為核心、以數(shù)據(jù)安全為原則,實(shí)現(xiàn)應(yīng)用過程中的共同決策、精準(zhǔn)篩
選和質(zhì)量管理的目標(biāo)。
3
DBXX/TXXX—XXXX
6構(gòu)建框架
6.1醫(yī)學(xué)臨床預(yù)測(cè)模型構(gòu)建框架主要包括目標(biāo)定義、數(shù)據(jù)的采集、臨床模型構(gòu)建、模型效果評(píng)價(jià)、模
型的驗(yàn)證與更新。
圖1XXX
6.2目標(biāo)定義:分析所需解決的實(shí)際問題,并制定相應(yīng)的計(jì)劃。
6.3數(shù)據(jù)采集:主要采集醫(yī)療業(yè)務(wù)數(shù)據(jù)、醫(yī)療影像數(shù)據(jù)、具有時(shí)序特征的生理信號(hào)數(shù)據(jù)。
6.4臨床預(yù)測(cè)模型構(gòu)建。
6.5數(shù)據(jù)理解:主要審查數(shù)據(jù)的維度、類型、屬性、分布情況、相關(guān)性等。
6.6數(shù)據(jù)預(yù)處理:主要包括數(shù)據(jù)的清洗、數(shù)據(jù)的變換。
6.7特征工程:主要包括特征提取、特征選擇。
6.8模型訓(xùn)練:主要包括機(jī)器學(xué)習(xí)模型、深度學(xué)習(xí)模型、統(tǒng)計(jì)學(xué)模型訓(xùn)練。
6.9模型效果評(píng)價(jià):借助or值、P值、AUC、SPE、SEN等指標(biāo)評(píng)估模型的性能。
6.10模型的驗(yàn)證與更新:通過對(duì)模型的驗(yàn)證,實(shí)現(xiàn)模型的更新。
7過程
7.1目標(biāo)定義
目標(biāo)定義應(yīng)該保持和業(yè)務(wù)規(guī)劃、信息技術(shù)規(guī)劃一致,并明確目標(biāo),并指定實(shí)施的策略:
——調(diào)研目前疾病預(yù)防的業(yè)務(wù)現(xiàn)狀和后續(xù)改進(jìn)方向。
——將疾病預(yù)防問題轉(zhuǎn)化成臨床預(yù)測(cè)問題,明確臨床預(yù)測(cè)模型的類型,對(duì)于診斷類問題,其預(yù)測(cè)
因子與結(jié)局均在同一時(shí)點(diǎn)或很短的時(shí)間內(nèi),適合采用橫斷面研究數(shù)據(jù)構(gòu)建診斷模型;對(duì)于預(yù)后
類問題,其預(yù)測(cè)因子與結(jié)局有縱向的時(shí)間邏輯,適合采用隊(duì)列研究數(shù)據(jù)擬合預(yù)后模型。診斷模
型研究中,需要有“金標(biāo)準(zhǔn)”來單獨(dú)診斷疾病,且“金標(biāo)準(zhǔn)”的診斷應(yīng)該在“盲法”狀態(tài)下進(jìn)
行,即“金標(biāo)準(zhǔn)”的診斷不能借助預(yù)測(cè)模型中的預(yù)測(cè)因子信息,以避免診斷評(píng)估偏倚(diagnostic
reviewbias)。預(yù)后模型研究中,預(yù)測(cè)因子與結(jié)局的本質(zhì)就是縱向關(guān)系,且研究者通常希望
獲得在自然狀態(tài)下疾病的轉(zhuǎn)歸,因此前瞻性隊(duì)列研究是預(yù)后模型最常見,也是最佳的研究設(shè)計(jì)
類型。
——制定臨床預(yù)測(cè)模型各期任務(wù)目標(biāo)責(zé)任、實(shí)現(xiàn)內(nèi)容、實(shí)施方案等,設(shè)計(jì)實(shí)施中,若為新的研究,
應(yīng)從研究方案、研究者操作手冊(cè)、病例報(bào)告表、倫理批件等相關(guān)文件的準(zhǔn)備開始,并進(jìn)行數(shù)據(jù)
質(zhì)控與管理;若為基于既往數(shù)據(jù)的回顧性研究,也應(yīng)對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估;
4
DBXX/TXXX—XXXX
——制定技術(shù)方案,并明確各階段的任務(wù)、責(zé)任和完成時(shí)間。
7.2數(shù)據(jù)的采集
數(shù)據(jù)的采集應(yīng)對(duì)數(shù)據(jù)進(jìn)行治理,保證數(shù)據(jù)的完整性、唯一性、規(guī)范性、準(zhǔn)確性、一致性:
——應(yīng)對(duì)采集的數(shù)據(jù)進(jìn)行質(zhì)量控制、數(shù)據(jù)字典標(biāo)準(zhǔn)化工作。
——應(yīng)通過自然語言處理對(duì)文本數(shù)據(jù)進(jìn)行處理,將病歷文書內(nèi)容、影像學(xué)報(bào)告等非結(jié)構(gòu)化文本進(jìn)
行批量結(jié)構(gòu)化處理工作。
7.3構(gòu)建流程
構(gòu)建流程主要包括數(shù)據(jù)理解、數(shù)據(jù)預(yù)處理、特征工程、模型選擇、模型訓(xùn)練、模型部署,其中主
要為:
——要求對(duì)數(shù)據(jù)缺失情況、數(shù)據(jù)量、數(shù)據(jù)類型、數(shù)據(jù)屬性、數(shù)據(jù)分布、數(shù)據(jù)類別的平衡性、數(shù)據(jù)
之間的相關(guān)性進(jìn)行初步了解,并在分析結(jié)束后生成數(shù)據(jù)分析文檔。
——主要進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)變換,數(shù)據(jù)清洗要求處理數(shù)據(jù)中的錯(cuò)誤點(diǎn)、冗余點(diǎn)、噪聲,缺失值,
并盡可能的符合原始數(shù)據(jù)的分布,數(shù)據(jù)變換要求根據(jù)實(shí)際業(yè)務(wù)情況,對(duì)數(shù)據(jù)進(jìn)行規(guī)范化、離散
化、特征編碼等操作,確保能消除量綱和取值范圍差異的影響,反應(yīng)真實(shí)數(shù)據(jù)關(guān)系,增強(qiáng)模型
的穩(wěn)定性,降低過擬合風(fēng)險(xiǎn)。
——主要對(duì)特征進(jìn)行提取和特征選擇,數(shù)據(jù)特征提取和特征選擇均要求降低模型訓(xùn)練的時(shí)間復(fù)雜
度、以較少的特征進(jìn)行解釋模型解釋,不同的是,特征提取要求用新的特征去解釋原有的理論,
比較適合于醫(yī)學(xué)圖像特征提取。而特征選擇而是要求用原有的部分特征去解釋原有的理論,適
用于各種源數(shù)據(jù)的篩選。對(duì)于特征選擇,要有工具可以自動(dòng)篩選出合適的候選特征,供科研人
員參考。
——模型選擇用于從多個(gè)備選模型中選擇預(yù)測(cè)準(zhǔn)確且表現(xiàn)穩(wěn)定的模型。對(duì)于模型選擇,所使用的
建模工具需要包含豐富的深度學(xué)習(xí)模型、機(jī)器學(xué)習(xí)模型、統(tǒng)計(jì)學(xué)模型,同時(shí)要能根據(jù)所選擇的
模型自動(dòng)生成建模過程文檔,讓科研人員能夠能夠直觀的判斷模型是否符合醫(yī)學(xué)認(rèn)知。
——模型訓(xùn)練適合用于各種模型,包括深度學(xué)習(xí)模型、機(jī)器學(xué)習(xí)模型、統(tǒng)計(jì)學(xué)模型。其中深度學(xué)
習(xí)和機(jī)器學(xué)習(xí)要求對(duì)超參數(shù)進(jìn)行優(yōu)化,直到訓(xùn)練成一個(gè)效果較好的模型;統(tǒng)計(jì)學(xué)模型要求參數(shù)
估計(jì),深度學(xué)習(xí)模型使用的算法包括但不限于CNN、RNN、GAN;機(jī)器學(xué)習(xí)模型使用的算法包括
但不限于:SVM、RF、XGBoost;統(tǒng)計(jì)學(xué)模型使用的算法包括但不限于Logistic模型、Cox模
型。對(duì)于超參數(shù)優(yōu)化,需要有豐富的超參數(shù)調(diào)優(yōu)工具來輔助科研人員。
——模型部署后,才能真正讓人工智能模型應(yīng)用于臨床實(shí)踐中。由于并非所有醫(yī)院都能夠提供非
常強(qiáng)大的硬件資源,被部署模型要能提供相應(yīng)的功能適應(yīng)硬件配置較低的服務(wù)器。需要提供針
對(duì)較低配置服務(wù)器的訓(xùn)練和部署方案,通過適當(dāng)犧牲一定的模型效果,完成模型訓(xùn)練和部署工
作。
7.4模型效果評(píng)價(jià)
不同的模型要求的評(píng)價(jià)指標(biāo)不一致,其中:
——如果為機(jī)器學(xué)習(xí)、深度學(xué)習(xí)分類問題,常用的模型評(píng)價(jià)指標(biāo)為準(zhǔn)確率、AUC、SPE、SEN、F1-score
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 趙志群課程設(shè)計(jì)
- 藍(lán)牙音響課程設(shè)計(jì)圖案
- 資料結(jié)構(gòu)決策的課程設(shè)計(jì)
- 高質(zhì)量居家鍛煉課程設(shè)計(jì)
- 項(xiàng)目軟件課程設(shè)計(jì)總結(jié)
- 網(wǎng)拍攝影課程設(shè)計(jì)
- 2025年三提三治活動(dòng)工作總結(jié)樣本(二篇)
- 2025年業(yè)務(wù)員試用期工作總結(jié)簡(jiǎn)單版(八篇)
- 軸承購銷合同樣本4
- 二零二五年智能家居床墊銷售與售后服務(wù)合同范本2篇
- 《精密板料矯平機(jī) 第1部分:型式和基本參數(shù)》
- 監(jiān)理報(bào)告范本
- 店鋪交割合同范例
- 大型活動(dòng)LED屏幕安全應(yīng)急預(yù)案
- 2024年內(nèi)蒙古包頭市中考道德與法治試卷
- 湖南省長(zhǎng)沙市2024-2025學(xué)年高二上學(xué)期期中考試地理試卷(含答案)
- 自來水質(zhì)量提升技術(shù)方案
- 金色簡(jiǎn)約蛇年年終總結(jié)匯報(bào)模板
- 農(nóng)用地土壤環(huán)境質(zhì)量類別劃分技術(shù)指南(試行)(環(huán)辦土壤2017第97號(hào))
- 反向開票政策解讀課件
- 工程周工作計(jì)劃
評(píng)論
0/150
提交評(píng)論