江西省醫(yī)療大數(shù)據(jù)平臺(tái)技術(shù)規(guī)范第八部分人工智能臨床預(yù)測(cè)模型構(gòu)建規(guī)范

上傳人：1*** IP屬地：浙江上傳時(shí)間：2024-05-07 格式：PDF 頁數(shù)：6 大小：265.55KB 積分：12 舉報(bào) 版權(quán)申訴

江西省醫(yī)療大數(shù)據(jù)平臺(tái)技術(shù)規(guī)范第八部分人工智能臨床預(yù)測(cè)模型構(gòu)建規(guī)范_第2頁

江西省醫(yī)療大數(shù)據(jù)平臺(tái)技術(shù)規(guī)范第八部分人工智能臨床預(yù)測(cè)模型構(gòu)建規(guī)范_第3頁

江西省醫(yī)療大數(shù)據(jù)平臺(tái)技術(shù)規(guī)范第八部分人工智能臨床預(yù)測(cè)模型構(gòu)建規(guī)范_第4頁

江西省醫(yī)療大數(shù)據(jù)平臺(tái)技術(shù)規(guī)范第八部分人工智能臨床預(yù)測(cè)模型構(gòu)建規(guī)范_第5頁

已閱讀5頁，還剩1頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

DBXX/TXXX—XXXX

江西省醫(yī)療大數(shù)據(jù)平臺(tái)技術(shù)規(guī)范第八部分：人工智能臨床預(yù)測(cè)模型

構(gòu)建規(guī)范

1范圍

本標(biāo)準(zhǔn)規(guī)定了基于人工智能的臨床預(yù)測(cè)模型構(gòu)建的相關(guān)要求，包括臨床預(yù)測(cè)模型構(gòu)建的總則、框架、

規(guī)定了臨床預(yù)測(cè)模型構(gòu)建的目標(biāo)定義、數(shù)據(jù)的采集、數(shù)據(jù)預(yù)處理和數(shù)據(jù)理解，特征工程、模型訓(xùn)練、效

果評(píng)價(jià)、以及模型的擴(kuò)展與驗(yàn)證等內(nèi)容。本標(biāo)準(zhǔn)適用于基于人工智能臨床預(yù)測(cè)模型體系的構(gòu)建。

本規(guī)范適用于人工智能臨床預(yù)測(cè)模型的建立；人工智能臨床預(yù)測(cè)模型建立過程的明確，人工智能臨

床預(yù)測(cè)模型實(shí)施落地的指導(dǎo)；人工智能臨床預(yù)測(cè)模型的研發(fā)和評(píng)價(jià)。

2規(guī)范性引用文件

下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中，注日期的引用文件，

僅該日期對(duì)應(yīng)的版本適用于本文件；不注日期的引用文件，其最新版本（包括所有的修改單）適用于本

文件。

GB/T5271.31-2006信息技術(shù)詞匯第31部分：人工智能機(jī)器學(xué)習(xí)

GZBC/T37-2020醫(yī)療機(jī)構(gòu)數(shù)據(jù)治理規(guī)范

YD/T3762-2020大數(shù)據(jù)數(shù)據(jù)挖掘平臺(tái)技術(shù)要求與測(cè)試方法《國(guó)家健康醫(yī)療大數(shù)據(jù)標(biāo)準(zhǔn)、安全和服務(wù)

管理辦法（試行）》（國(guó)衛(wèi)規(guī)劃發(fā)〔2018〕23號(hào)）

3術(shù)語和定義

下列術(shù)語和定義適用于本文件。

3.1

醫(yī)療大數(shù)據(jù)medicalbigdata

在疾病防治過程中產(chǎn)生的與醫(yī)療相關(guān)的海量數(shù)據(jù)的集合。

3.2

結(jié)構(gòu)化數(shù)據(jù)structureddata

一種數(shù)據(jù)表示形式，按此種形式，由數(shù)據(jù)元素匯集而成的每個(gè)記錄的結(jié)構(gòu)都是一致的并且可以使用

關(guān)系模型予以有效描述。

[GB/T35295-2017，定義2.2.13]

3.3

人工智能arificialInteligence

DBXX/TXXX—XXXX

研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。

人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支，它企圖了解智能的實(shí)質(zhì)，并生產(chǎn)出一種新的能以人類智能相似的方

式做出反應(yīng)的智能機(jī)器，該領(lǐng)域的研究包括機(jī)器人、語言識(shí)別、圖像識(shí)別、自然語言處理和專家系統(tǒng)等。

3.4

自然語言處理naturallanguageprocessing

人工智能的分支學(xué)科，研究用計(jì)算機(jī)模擬人的語言交際過程，實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行

有效通信的各種理論和方法。

3.5

機(jī)器學(xué)習(xí)machinelearning

功能單元通過獲取新知識(shí)或技能，或通過整理已有的知識(shí)或技能來改進(jìn)其性能的過程。

[GB/T5271.31-2006定義，31.1.2]

3.6

深度學(xué)習(xí)deeplearning

機(jī)器學(xué)習(xí)中一種基于對(duì)數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法，通過組合低層特征形成更加抽象的高層表示屬

性類別或特征，以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。

[GB/TCESA1119-2020定義，3.6]

3.7

有監(jiān)督學(xué)習(xí)supervisedlearning

指已有的樣本（數(shù)據(jù)）已經(jīng)包含自身的特征變量（自變量）及正確的響應(yīng)變量（因變量）。

3.8

無監(jiān)督學(xué)習(xí)unsupervisedlearning

指已有的樣本（數(shù)據(jù)）不包含因變量。

3.9

通用數(shù)據(jù)模型commondatamodel)

一種從多種來源的電子信息數(shù)據(jù)庫中提取特定信息的結(jié)構(gòu)和框架，它通過建立標(biāo)準(zhǔn)化的變量表單,

從海量數(shù)據(jù)中準(zhǔn)確、快速、有效地提取科學(xué)研究或管理所需要的關(guān)鍵信息。

4縮略語

下列縮略語適用于本標(biāo)準(zhǔn)：

——AI人工智能ArificialIntelligence；

——NLP自然語言處理NaturalLanguageProcessing；

——AUC曲線下面積AreaUnderCurve；

——SPE特異度specificity；

DBXX/TXXX—XXXX

——SEN靈敏度Sensitivity；

——CNN卷積神經(jīng)網(wǎng)絡(luò)ConvolutionalNeuralNetworks；

——RNN循環(huán)神經(jīng)網(wǎng)絡(luò)RecurrentNeuralNetwork；

——GAN生成式對(duì)抗網(wǎng)絡(luò)GenerativeAdversarialNetworks；

——SVM支持向量機(jī)SupportVectorMachine；

——RF隨機(jī)森林RandomForest；

——XGBoost極端梯度提升樹eXtremeGradientBoosting；

——MAE平均絕對(duì)誤差MeanAbsoluteDeviation；

——MSE均方誤差MeanSquaredError；

——RSR方RSquared；

——CDM通用數(shù)據(jù)模型CommonDataModel。

5總則

5.1概述

臨床預(yù)測(cè)模型主要源于醫(yī)療大數(shù)據(jù)管理及應(yīng)用、疾病預(yù)防的需求，主要包括：

——醫(yī)療機(jī)構(gòu)數(shù)據(jù)產(chǎn)品化、資產(chǎn)化和價(jià)值化的要求；

——疾病三級(jí)預(yù)防的要求，主要為：

疾病預(yù)測(cè)模型給某病量化風(fēng)險(xiǎn)值（概率），為健康教育和行為干預(yù)提供更直觀、有力的科

學(xué)工具；

疾病診斷，借助無創(chuàng)的、低成本、易采集的指標(biāo)，給出高靈敏度和特異度的診斷方案；

疾病預(yù)后預(yù)測(cè)，可對(duì)疾病的復(fù)發(fā)、死亡，傷殘以及出現(xiàn)并發(fā)癥的概率給出量化的估算。

5.2目標(biāo)

5.2.1醫(yī)療數(shù)據(jù)的臨床預(yù)測(cè)模型的目標(biāo)是保障應(yīng)用過程中的共同決策、精準(zhǔn)篩選、質(zhì)量管理：

5.2.2共同決策：醫(yī)生和患者借助臨床預(yù)測(cè)模型可以更好的做出共同決策。

5.2.3精準(zhǔn)篩選：臨床研究者可以更精準(zhǔn)的篩選合適的研究對(duì)象。

5.2.4質(zhì)量管理：衛(wèi)生管理者更好的進(jìn)行醫(yī)療質(zhì)量管理，合理的配置醫(yī)療資源。

5.3任務(wù)

醫(yī)療機(jī)構(gòu)應(yīng)通過目標(biāo)定義、數(shù)據(jù)的采集、數(shù)據(jù)預(yù)處理和數(shù)據(jù)理解，特征工程、模型訓(xùn)練、效果評(píng)價(jià)、

以及模型的擴(kuò)展與驗(yàn)證的過程，實(shí)施臨床預(yù)測(cè)模型構(gòu)建的任務(wù)，主要包括：

——通過將醫(yī)療過程中的問題轉(zhuǎn)化為適合人工智能項(xiàng)目的問題定義，并制定初步計(jì)劃；

——通過不同數(shù)據(jù)源采集模型構(gòu)建所需數(shù)據(jù)；

——處理數(shù)據(jù)噪聲、數(shù)據(jù)冗余、數(shù)據(jù)丟失等問題，對(duì)數(shù)據(jù)進(jìn)行初步分析與探索；

——通過特征工程獲取可解釋的優(yōu)質(zhì)特征；

——通過模型訓(xùn)練，并進(jìn)行優(yōu)化；

——通過評(píng)價(jià)指標(biāo)評(píng)估模型的性能；

——通過外部驗(yàn)證集對(duì)模型驗(yàn)證，并對(duì)模型進(jìn)行不斷改進(jìn)。

5.4原則

醫(yī)療臨床預(yù)測(cè)模型應(yīng)以數(shù)據(jù)質(zhì)量為核心、以數(shù)據(jù)安全為原則，實(shí)現(xiàn)應(yīng)用過程中的共同決策、精準(zhǔn)篩

選和質(zhì)量管理的目標(biāo)。

DBXX/TXXX—XXXX

6構(gòu)建框架

6.1醫(yī)學(xué)臨床預(yù)測(cè)模型構(gòu)建框架主要包括目標(biāo)定義、數(shù)據(jù)的采集、臨床模型構(gòu)建、模型效果評(píng)價(jià)、模

型的驗(yàn)證與更新。

圖1XXX

6.2目標(biāo)定義：分析所需解決的實(shí)際問題，并制定相應(yīng)的計(jì)劃。

6.3數(shù)據(jù)采集：主要采集醫(yī)療業(yè)務(wù)數(shù)據(jù)、醫(yī)療影像數(shù)據(jù)、具有時(shí)序特征的生理信號(hào)數(shù)據(jù)。

6.4臨床預(yù)測(cè)模型構(gòu)建。

6.5數(shù)據(jù)理解：主要審查數(shù)據(jù)的維度、類型、屬性、分布情況、相關(guān)性等。

6.6數(shù)據(jù)預(yù)處理：主要包括數(shù)據(jù)的清洗、數(shù)據(jù)的變換。

6.7特征工程：主要包括特征提取、特征選擇。

6.8模型訓(xùn)練：主要包括機(jī)器學(xué)習(xí)模型、深度學(xué)習(xí)模型、統(tǒng)計(jì)學(xué)模型訓(xùn)練。

6.9模型效果評(píng)價(jià)：借助or值、P值、AUC、SPE、SEN等指標(biāo)評(píng)估模型的性能。

6.10模型的驗(yàn)證與更新：通過對(duì)模型的驗(yàn)證，實(shí)現(xiàn)模型的更新。

7過程

7.1目標(biāo)定義

目標(biāo)定義應(yīng)該保持和業(yè)務(wù)規(guī)劃、信息技術(shù)規(guī)劃一致，并明確目標(biāo),并指定實(shí)施的策略：

——調(diào)研目前疾病預(yù)防的業(yè)務(wù)現(xiàn)狀和后續(xù)改進(jìn)方向。

——將疾病預(yù)防問題轉(zhuǎn)化成臨床預(yù)測(cè)問題，明確臨床預(yù)測(cè)模型的類型，對(duì)于診斷類問題，其預(yù)測(cè)

因子與結(jié)局均在同一時(shí)點(diǎn)或很短的時(shí)間內(nèi)，適合采用橫斷面研究數(shù)據(jù)構(gòu)建診斷模型；對(duì)于預(yù)后

類問題，其預(yù)測(cè)因子與結(jié)局有縱向的時(shí)間邏輯，適合采用隊(duì)列研究數(shù)據(jù)擬合預(yù)后模型。診斷模

型研究中，需要有“金標(biāo)準(zhǔn)”來單獨(dú)診斷疾病，且“金標(biāo)準(zhǔn)”的診斷應(yīng)該在“盲法”狀態(tài)下進(jìn)

行，即“金標(biāo)準(zhǔn)”的診斷不能借助預(yù)測(cè)模型中的預(yù)測(cè)因子信息，以避免診斷評(píng)估偏倚（diagnostic

reviewbias）。預(yù)后模型研究中，預(yù)測(cè)因子與結(jié)局的本質(zhì)就是縱向關(guān)系，且研究者通常希望

獲得在自然狀態(tài)下疾病的轉(zhuǎn)歸，因此前瞻性隊(duì)列研究是預(yù)后模型最常見，也是最佳的研究設(shè)計(jì)

類型。

——制定臨床預(yù)測(cè)模型各期任務(wù)目標(biāo)責(zé)任、實(shí)現(xiàn)內(nèi)容、實(shí)施方案等，設(shè)計(jì)實(shí)施中，若為新的研究，

應(yīng)從研究方案、研究者操作手冊(cè)、病例報(bào)告表、倫理批件等相關(guān)文件的準(zhǔn)備開始，并進(jìn)行數(shù)據(jù)

質(zhì)控與管理；若為基于既往數(shù)據(jù)的回顧性研究，也應(yīng)對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估；

DBXX/TXXX—XXXX

——制定技術(shù)方案，并明確各階段的任務(wù)、責(zé)任和完成時(shí)間。

7.2數(shù)據(jù)的采集

數(shù)據(jù)的采集應(yīng)對(duì)數(shù)據(jù)進(jìn)行治理，保證數(shù)據(jù)的完整性、唯一性、規(guī)范性、準(zhǔn)確性、一致性：

——應(yīng)對(duì)采集的數(shù)據(jù)進(jìn)行質(zhì)量控制、數(shù)據(jù)字典標(biāo)準(zhǔn)化工作。

——應(yīng)通過自然語言處理對(duì)文本數(shù)據(jù)進(jìn)行處理，將病歷文書內(nèi)容、影像學(xué)報(bào)告等非結(jié)構(gòu)化文本進(jìn)

行批量結(jié)構(gòu)化處理工作。

7.3構(gòu)建流程

構(gòu)建流程主要包括數(shù)據(jù)理解、數(shù)據(jù)預(yù)處理、特征工程、模型選擇、模型訓(xùn)練、模型部署，其中主

要為：

——要求對(duì)數(shù)據(jù)缺失情況、數(shù)據(jù)量、數(shù)據(jù)類型、數(shù)據(jù)屬性、數(shù)據(jù)分布、數(shù)據(jù)類別的平衡性、數(shù)據(jù)

之間的相關(guān)性進(jìn)行初步了解，并在分析結(jié)束后生成數(shù)據(jù)分析文檔。

——主要進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)變換，數(shù)據(jù)清洗要求處理數(shù)據(jù)中的錯(cuò)誤點(diǎn)、冗余點(diǎn)、噪聲，缺失值，

并盡可能的符合原始數(shù)據(jù)的分布，數(shù)據(jù)變換要求根據(jù)實(shí)際業(yè)務(wù)情況，對(duì)數(shù)據(jù)進(jìn)行規(guī)范化、離散

化、特征編碼等操作，確保能消除量綱和取值范圍差異的影響，反應(yīng)真實(shí)數(shù)據(jù)關(guān)系，增強(qiáng)模型

的穩(wěn)定性，降低過擬合風(fēng)險(xiǎn)。

——主要對(duì)特征進(jìn)行提取和特征選擇，數(shù)據(jù)特征提取和特征選擇均要求降低模型訓(xùn)練的時(shí)間復(fù)雜

度、以較少的特征進(jìn)行解釋模型解釋，不同的是，特征提取要求用新的特征去解釋原有的理論，

比較適合于醫(yī)學(xué)圖像特征提取。而特征選擇而是要求用原有的部分特征去解釋原有的理論，適

用于各種源數(shù)據(jù)的篩選。對(duì)于特征選擇，要有工具可以自動(dòng)篩選出合適的候選特征，供科研人

員參考。

——模型選擇用于從多個(gè)備選模型中選擇預(yù)測(cè)準(zhǔn)確且表現(xiàn)穩(wěn)定的模型。對(duì)于模型選擇，所使用的

建模工具需要包含豐富的深度學(xué)習(xí)模型、機(jī)器學(xué)習(xí)模型、統(tǒng)計(jì)學(xué)模型，同時(shí)要能根據(jù)所選擇的

模型自動(dòng)生成建模過程文檔，讓科研人員能夠能夠直觀的判斷模型是否符合醫(yī)學(xué)認(rèn)知。

——模型訓(xùn)練適合用于各種模型，包括深度學(xué)習(xí)模型、機(jī)器學(xué)習(xí)模型、統(tǒng)計(jì)學(xué)模型。其中深度學(xué)

習(xí)和機(jī)器學(xué)習(xí)要求對(duì)超參數(shù)進(jìn)行優(yōu)化，直到訓(xùn)練成一個(gè)效果較好的模型；統(tǒng)計(jì)學(xué)模型要求參數(shù)

估計(jì),深度學(xué)習(xí)模型使用的算法包括但不限于CNN、RNN、GAN；機(jī)器學(xué)習(xí)模型使用的算法包括

但不限于：SVM、RF、XGBoost；統(tǒng)計(jì)學(xué)模型使用的算法包括但不限于Logistic模型、Cox模

型。對(duì)于超參數(shù)優(yōu)化，需要有豐富的超參數(shù)調(diào)優(yōu)工具來輔助科研人員。

——模型部署后，才能真正讓人工智能模型應(yīng)用于臨床實(shí)踐中。由于并非所有醫(yī)院都能夠提供非

常強(qiáng)大的硬件資源，被部署模型要能提供相應(yīng)的功能適應(yīng)硬件配置較低的服務(wù)器。需要提供針

對(duì)較低配置服務(wù)器的訓(xùn)練和部署方案，通過適當(dāng)犧牲一定的模型效果，完成模型訓(xùn)練和部署工

作。

7.4模型效果評(píng)價(jià)

不同的模型要求的評(píng)價(jià)指標(biāo)不一致，其中：

——如果為機(jī)器學(xué)習(xí)、深度學(xué)習(xí)分類問題，常用的模型評(píng)價(jià)指標(biāo)為準(zhǔn)確率、AUC、SPE、SEN、F1-score

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 工程機(jī)械

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

江西省醫(yī)療大數(shù)據(jù)平臺(tái)技術(shù)規(guī)范第八部分人工智能臨床預(yù)測(cè)模型構(gòu)建規(guī)范

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

江西省醫(yī)療大數(shù)據(jù)平臺(tái)技術(shù)規(guī)范 第八部分人工智能臨床預(yù)測(cè)模型構(gòu)建規(guī)范

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

江西省醫(yī)療大數(shù)據(jù)平臺(tái)技術(shù)規(guī)范第八部分人工智能臨床預(yù)測(cè)模型構(gòu)建規(guī)范