江西省醫(yī)療大數(shù)據(jù)平臺(tái)技術(shù)規(guī)范 第八部分人工智能臨床預(yù)測(cè)模型構(gòu)建規(guī)范_第1頁
江西省醫(yī)療大數(shù)據(jù)平臺(tái)技術(shù)規(guī)范 第八部分人工智能臨床預(yù)測(cè)模型構(gòu)建規(guī)范_第2頁
江西省醫(yī)療大數(shù)據(jù)平臺(tái)技術(shù)規(guī)范 第八部分人工智能臨床預(yù)測(cè)模型構(gòu)建規(guī)范_第3頁
江西省醫(yī)療大數(shù)據(jù)平臺(tái)技術(shù)規(guī)范 第八部分人工智能臨床預(yù)測(cè)模型構(gòu)建規(guī)范_第4頁
江西省醫(yī)療大數(shù)據(jù)平臺(tái)技術(shù)規(guī)范 第八部分人工智能臨床預(yù)測(cè)模型構(gòu)建規(guī)范_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

DBXX/TXXX—XXXX

江西省醫(yī)療大數(shù)據(jù)平臺(tái)技術(shù)規(guī)范第八部分:人工智能臨床預(yù)測(cè)模型

構(gòu)建規(guī)范

1范圍

本標(biāo)準(zhǔn)規(guī)定了基于人工智能的臨床預(yù)測(cè)模型構(gòu)建的相關(guān)要求,包括臨床預(yù)測(cè)模型構(gòu)建的總則、框架、

規(guī)定了臨床預(yù)測(cè)模型構(gòu)建的目標(biāo)定義、數(shù)據(jù)的采集、數(shù)據(jù)預(yù)處理和數(shù)據(jù)理解,特征工程、模型訓(xùn)練、效

果評(píng)價(jià)、以及模型的擴(kuò)展與驗(yàn)證等內(nèi)容。本標(biāo)準(zhǔn)適用于基于人工智能臨床預(yù)測(cè)模型體系的構(gòu)建。

本規(guī)范適用于人工智能臨床預(yù)測(cè)模型的建立;人工智能臨床預(yù)測(cè)模型建立過程的明確,人工智能臨

床預(yù)測(cè)模型實(shí)施落地的指導(dǎo);人工智能臨床預(yù)測(cè)模型的研發(fā)和評(píng)價(jià)。

2規(guī)范性引用文件

下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

GB/T5271.31-2006信息技術(shù)詞匯第31部分:人工智能機(jī)器學(xué)習(xí)

GZBC/T37-2020醫(yī)療機(jī)構(gòu)數(shù)據(jù)治理規(guī)范

YD/T3762-2020大數(shù)據(jù)數(shù)據(jù)挖掘平臺(tái)技術(shù)要求與測(cè)試方法《國(guó)家健康醫(yī)療大數(shù)據(jù)標(biāo)準(zhǔn)、安全和服務(wù)

管理辦法(試行)》(國(guó)衛(wèi)規(guī)劃發(fā)〔2018〕23號(hào))

3術(shù)語和定義

下列術(shù)語和定義適用于本文件。

3.1

醫(yī)療大數(shù)據(jù)medicalbigdata

在疾病防治過程中產(chǎn)生的與醫(yī)療相關(guān)的海量數(shù)據(jù)的集合。

3.2

結(jié)構(gòu)化數(shù)據(jù)structureddata

一種數(shù)據(jù)表示形式,按此種形式,由數(shù)據(jù)元素匯集而成的每個(gè)記錄的結(jié)構(gòu)都是一致的并且可以使用

關(guān)系模型予以有效描述。

[GB/T35295-2017,定義2.2.13]

3.3

人工智能arificialInteligence

1

DBXX/TXXX—XXXX

研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。

人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支,它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方

式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語言識(shí)別、圖像識(shí)別、自然語言處理和專家系統(tǒng)等。

3.4

自然語言處理naturallanguageprocessing

人工智能的分支學(xué)科,研究用計(jì)算機(jī)模擬人的語言交際過程,實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行

有效通信的各種理論和方法。

3.5

機(jī)器學(xué)習(xí)machinelearning

功能單元通過獲取新知識(shí)或技能,或通過整理已有的知識(shí)或技能來改進(jìn)其性能的過程。

[GB/T5271.31-2006定義,31.1.2]

3.6

深度學(xué)習(xí)deeplearning

機(jī)器學(xué)習(xí)中一種基于對(duì)數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法,通過組合低層特征形成更加抽象的高層表示屬

性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。

[GB/TCESA1119-2020定義,3.6]

3.7

有監(jiān)督學(xué)習(xí)supervisedlearning

指已有的樣本(數(shù)據(jù))已經(jīng)包含自身的特征變量(自變量)及正確的響應(yīng)變量(因變量)。

3.8

無監(jiān)督學(xué)習(xí)unsupervisedlearning

指已有的樣本(數(shù)據(jù))不包含因變量。

3.9

通用數(shù)據(jù)模型commondatamodel)

一種從多種來源的電子信息數(shù)據(jù)庫中提取特定信息的結(jié)構(gòu)和框架,它通過建立標(biāo)準(zhǔn)化的變量表單,

從海量數(shù)據(jù)中準(zhǔn)確、快速、有效地提取科學(xué)研究或管理所需要的關(guān)鍵信息。

4縮略語

下列縮略語適用于本標(biāo)準(zhǔn):

——AI人工智能ArificialIntelligence;

——NLP自然語言處理NaturalLanguageProcessing;

——AUC曲線下面積AreaUnderCurve;

——SPE特異度specificity;

2

DBXX/TXXX—XXXX

——SEN靈敏度Sensitivity;

——CNN卷積神經(jīng)網(wǎng)絡(luò)ConvolutionalNeuralNetworks;

——RNN循環(huán)神經(jīng)網(wǎng)絡(luò)RecurrentNeuralNetwork;

——GAN生成式對(duì)抗網(wǎng)絡(luò)GenerativeAdversarialNetworks;

——SVM支持向量機(jī)SupportVectorMachine;

——RF隨機(jī)森林RandomForest;

——XGBoost極端梯度提升樹eXtremeGradientBoosting;

——MAE平均絕對(duì)誤差MeanAbsoluteDeviation;

——MSE均方誤差MeanSquaredError;

——RSR方RSquared;

——CDM通用數(shù)據(jù)模型CommonDataModel。

5總則

5.1概述

臨床預(yù)測(cè)模型主要源于醫(yī)療大數(shù)據(jù)管理及應(yīng)用、疾病預(yù)防的需求,主要包括:

——醫(yī)療機(jī)構(gòu)數(shù)據(jù)產(chǎn)品化、資產(chǎn)化和價(jià)值化的要求;

——疾病三級(jí)預(yù)防的要求,主要為:

疾病預(yù)測(cè)模型給某病量化風(fēng)險(xiǎn)值(概率),為健康教育和行為干預(yù)提供更直觀、有力的科

學(xué)工具;

疾病診斷,借助無創(chuàng)的、低成本、易采集的指標(biāo),給出高靈敏度和特異度的診斷方案;

疾病預(yù)后預(yù)測(cè),可對(duì)疾病的復(fù)發(fā)、死亡,傷殘以及出現(xiàn)并發(fā)癥的概率給出量化的估算。

5.2目標(biāo)

5.2.1醫(yī)療數(shù)據(jù)的臨床預(yù)測(cè)模型的目標(biāo)是保障應(yīng)用過程中的共同決策、精準(zhǔn)篩選、質(zhì)量管理:

5.2.2共同決策:醫(yī)生和患者借助臨床預(yù)測(cè)模型可以更好的做出共同決策。

5.2.3精準(zhǔn)篩選:臨床研究者可以更精準(zhǔn)的篩選合適的研究對(duì)象。

5.2.4質(zhì)量管理:衛(wèi)生管理者更好的進(jìn)行醫(yī)療質(zhì)量管理,合理的配置醫(yī)療資源。

5.3任務(wù)

醫(yī)療機(jī)構(gòu)應(yīng)通過目標(biāo)定義、數(shù)據(jù)的采集、數(shù)據(jù)預(yù)處理和數(shù)據(jù)理解,特征工程、模型訓(xùn)練、效果評(píng)價(jià)、

以及模型的擴(kuò)展與驗(yàn)證的過程,實(shí)施臨床預(yù)測(cè)模型構(gòu)建的任務(wù),主要包括:

——通過將醫(yī)療過程中的問題轉(zhuǎn)化為適合人工智能項(xiàng)目的問題定義,并制定初步計(jì)劃;

——通過不同數(shù)據(jù)源采集模型構(gòu)建所需數(shù)據(jù);

——處理數(shù)據(jù)噪聲、數(shù)據(jù)冗余、數(shù)據(jù)丟失等問題,對(duì)數(shù)據(jù)進(jìn)行初步分析與探索;

——通過特征工程獲取可解釋的優(yōu)質(zhì)特征;

——通過模型訓(xùn)練,并進(jìn)行優(yōu)化;

——通過評(píng)價(jià)指標(biāo)評(píng)估模型的性能;

——通過外部驗(yàn)證集對(duì)模型驗(yàn)證,并對(duì)模型進(jìn)行不斷改進(jìn)。

5.4原則

醫(yī)療臨床預(yù)測(cè)模型應(yīng)以數(shù)據(jù)質(zhì)量為核心、以數(shù)據(jù)安全為原則,實(shí)現(xiàn)應(yīng)用過程中的共同決策、精準(zhǔn)篩

選和質(zhì)量管理的目標(biāo)。

3

DBXX/TXXX—XXXX

6構(gòu)建框架

6.1醫(yī)學(xué)臨床預(yù)測(cè)模型構(gòu)建框架主要包括目標(biāo)定義、數(shù)據(jù)的采集、臨床模型構(gòu)建、模型效果評(píng)價(jià)、模

型的驗(yàn)證與更新。

圖1XXX

6.2目標(biāo)定義:分析所需解決的實(shí)際問題,并制定相應(yīng)的計(jì)劃。

6.3數(shù)據(jù)采集:主要采集醫(yī)療業(yè)務(wù)數(shù)據(jù)、醫(yī)療影像數(shù)據(jù)、具有時(shí)序特征的生理信號(hào)數(shù)據(jù)。

6.4臨床預(yù)測(cè)模型構(gòu)建。

6.5數(shù)據(jù)理解:主要審查數(shù)據(jù)的維度、類型、屬性、分布情況、相關(guān)性等。

6.6數(shù)據(jù)預(yù)處理:主要包括數(shù)據(jù)的清洗、數(shù)據(jù)的變換。

6.7特征工程:主要包括特征提取、特征選擇。

6.8模型訓(xùn)練:主要包括機(jī)器學(xué)習(xí)模型、深度學(xué)習(xí)模型、統(tǒng)計(jì)學(xué)模型訓(xùn)練。

6.9模型效果評(píng)價(jià):借助or值、P值、AUC、SPE、SEN等指標(biāo)評(píng)估模型的性能。

6.10模型的驗(yàn)證與更新:通過對(duì)模型的驗(yàn)證,實(shí)現(xiàn)模型的更新。

7過程

7.1目標(biāo)定義

目標(biāo)定義應(yīng)該保持和業(yè)務(wù)規(guī)劃、信息技術(shù)規(guī)劃一致,并明確目標(biāo),并指定實(shí)施的策略:

——調(diào)研目前疾病預(yù)防的業(yè)務(wù)現(xiàn)狀和后續(xù)改進(jìn)方向。

——將疾病預(yù)防問題轉(zhuǎn)化成臨床預(yù)測(cè)問題,明確臨床預(yù)測(cè)模型的類型,對(duì)于診斷類問題,其預(yù)測(cè)

因子與結(jié)局均在同一時(shí)點(diǎn)或很短的時(shí)間內(nèi),適合采用橫斷面研究數(shù)據(jù)構(gòu)建診斷模型;對(duì)于預(yù)后

類問題,其預(yù)測(cè)因子與結(jié)局有縱向的時(shí)間邏輯,適合采用隊(duì)列研究數(shù)據(jù)擬合預(yù)后模型。診斷模

型研究中,需要有“金標(biāo)準(zhǔn)”來單獨(dú)診斷疾病,且“金標(biāo)準(zhǔn)”的診斷應(yīng)該在“盲法”狀態(tài)下進(jìn)

行,即“金標(biāo)準(zhǔn)”的診斷不能借助預(yù)測(cè)模型中的預(yù)測(cè)因子信息,以避免診斷評(píng)估偏倚(diagnostic

reviewbias)。預(yù)后模型研究中,預(yù)測(cè)因子與結(jié)局的本質(zhì)就是縱向關(guān)系,且研究者通常希望

獲得在自然狀態(tài)下疾病的轉(zhuǎn)歸,因此前瞻性隊(duì)列研究是預(yù)后模型最常見,也是最佳的研究設(shè)計(jì)

類型。

——制定臨床預(yù)測(cè)模型各期任務(wù)目標(biāo)責(zé)任、實(shí)現(xiàn)內(nèi)容、實(shí)施方案等,設(shè)計(jì)實(shí)施中,若為新的研究,

應(yīng)從研究方案、研究者操作手冊(cè)、病例報(bào)告表、倫理批件等相關(guān)文件的準(zhǔn)備開始,并進(jìn)行數(shù)據(jù)

質(zhì)控與管理;若為基于既往數(shù)據(jù)的回顧性研究,也應(yīng)對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估;

4

DBXX/TXXX—XXXX

——制定技術(shù)方案,并明確各階段的任務(wù)、責(zé)任和完成時(shí)間。

7.2數(shù)據(jù)的采集

數(shù)據(jù)的采集應(yīng)對(duì)數(shù)據(jù)進(jìn)行治理,保證數(shù)據(jù)的完整性、唯一性、規(guī)范性、準(zhǔn)確性、一致性:

——應(yīng)對(duì)采集的數(shù)據(jù)進(jìn)行質(zhì)量控制、數(shù)據(jù)字典標(biāo)準(zhǔn)化工作。

——應(yīng)通過自然語言處理對(duì)文本數(shù)據(jù)進(jìn)行處理,將病歷文書內(nèi)容、影像學(xué)報(bào)告等非結(jié)構(gòu)化文本進(jìn)

行批量結(jié)構(gòu)化處理工作。

7.3構(gòu)建流程

構(gòu)建流程主要包括數(shù)據(jù)理解、數(shù)據(jù)預(yù)處理、特征工程、模型選擇、模型訓(xùn)練、模型部署,其中主

要為:

——要求對(duì)數(shù)據(jù)缺失情況、數(shù)據(jù)量、數(shù)據(jù)類型、數(shù)據(jù)屬性、數(shù)據(jù)分布、數(shù)據(jù)類別的平衡性、數(shù)據(jù)

之間的相關(guān)性進(jìn)行初步了解,并在分析結(jié)束后生成數(shù)據(jù)分析文檔。

——主要進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)變換,數(shù)據(jù)清洗要求處理數(shù)據(jù)中的錯(cuò)誤點(diǎn)、冗余點(diǎn)、噪聲,缺失值,

并盡可能的符合原始數(shù)據(jù)的分布,數(shù)據(jù)變換要求根據(jù)實(shí)際業(yè)務(wù)情況,對(duì)數(shù)據(jù)進(jìn)行規(guī)范化、離散

化、特征編碼等操作,確保能消除量綱和取值范圍差異的影響,反應(yīng)真實(shí)數(shù)據(jù)關(guān)系,增強(qiáng)模型

的穩(wěn)定性,降低過擬合風(fēng)險(xiǎn)。

——主要對(duì)特征進(jìn)行提取和特征選擇,數(shù)據(jù)特征提取和特征選擇均要求降低模型訓(xùn)練的時(shí)間復(fù)雜

度、以較少的特征進(jìn)行解釋模型解釋,不同的是,特征提取要求用新的特征去解釋原有的理論,

比較適合于醫(yī)學(xué)圖像特征提取。而特征選擇而是要求用原有的部分特征去解釋原有的理論,適

用于各種源數(shù)據(jù)的篩選。對(duì)于特征選擇,要有工具可以自動(dòng)篩選出合適的候選特征,供科研人

員參考。

——模型選擇用于從多個(gè)備選模型中選擇預(yù)測(cè)準(zhǔn)確且表現(xiàn)穩(wěn)定的模型。對(duì)于模型選擇,所使用的

建模工具需要包含豐富的深度學(xué)習(xí)模型、機(jī)器學(xué)習(xí)模型、統(tǒng)計(jì)學(xué)模型,同時(shí)要能根據(jù)所選擇的

模型自動(dòng)生成建模過程文檔,讓科研人員能夠能夠直觀的判斷模型是否符合醫(yī)學(xué)認(rèn)知。

——模型訓(xùn)練適合用于各種模型,包括深度學(xué)習(xí)模型、機(jī)器學(xué)習(xí)模型、統(tǒng)計(jì)學(xué)模型。其中深度學(xué)

習(xí)和機(jī)器學(xué)習(xí)要求對(duì)超參數(shù)進(jìn)行優(yōu)化,直到訓(xùn)練成一個(gè)效果較好的模型;統(tǒng)計(jì)學(xué)模型要求參數(shù)

估計(jì),深度學(xué)習(xí)模型使用的算法包括但不限于CNN、RNN、GAN;機(jī)器學(xué)習(xí)模型使用的算法包括

但不限于:SVM、RF、XGBoost;統(tǒng)計(jì)學(xué)模型使用的算法包括但不限于Logistic模型、Cox模

型。對(duì)于超參數(shù)優(yōu)化,需要有豐富的超參數(shù)調(diào)優(yōu)工具來輔助科研人員。

——模型部署后,才能真正讓人工智能模型應(yīng)用于臨床實(shí)踐中。由于并非所有醫(yī)院都能夠提供非

常強(qiáng)大的硬件資源,被部署模型要能提供相應(yīng)的功能適應(yīng)硬件配置較低的服務(wù)器。需要提供針

對(duì)較低配置服務(wù)器的訓(xùn)練和部署方案,通過適當(dāng)犧牲一定的模型效果,完成模型訓(xùn)練和部署工

作。

7.4模型效果評(píng)價(jià)

不同的模型要求的評(píng)價(jià)指標(biāo)不一致,其中:

——如果為機(jī)器學(xué)習(xí)、深度學(xué)習(xí)分類問題,常用的模型評(píng)價(jià)指標(biāo)為準(zhǔn)確率、AUC、SPE、SEN、F1-score

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論