《醫(yī)療科研大數(shù)據(jù)平臺技術(shù)指南 第4部分:臨床科研系統(tǒng)功能》_第1頁
《醫(yī)療科研大數(shù)據(jù)平臺技術(shù)指南 第4部分:臨床科研系統(tǒng)功能》_第2頁
《醫(yī)療科研大數(shù)據(jù)平臺技術(shù)指南 第4部分:臨床科研系統(tǒng)功能》_第3頁
《醫(yī)療科研大數(shù)據(jù)平臺技術(shù)指南 第4部分:臨床科研系統(tǒng)功能》_第4頁
《醫(yī)療科研大數(shù)據(jù)平臺技術(shù)指南 第4部分:臨床科研系統(tǒng)功能》_第5頁
已閱讀5頁,還剩22頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1醫(yī)療大數(shù)據(jù)平臺技術(shù)指南第4部分:臨床科研系統(tǒng)功能本文件規(guī)定了臨床科研系統(tǒng)的總體功能規(guī)范,包括臨床科研數(shù)據(jù)管理要求、科研項目管理要求、臨床科研數(shù)據(jù)分析要求等方面內(nèi)容。本文件適用于各醫(yī)療單位、企業(yè)構(gòu)建臨床科研系統(tǒng)解決方案的研發(fā)、選擇和評價,不適用于各醫(yī)療單位、企業(yè)硬件要求,也不包括醫(yī)院整體臨床數(shù)據(jù)中心的要求。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T14396疾病分類與代碼GB/T18391.1信息技術(shù)元數(shù)據(jù)注冊系統(tǒng)(MDR)第1部分:框架GB/T34960.5信息技術(shù)服務治理第5部分:數(shù)據(jù)治理規(guī)范GB/T35295信息技術(shù)大數(shù)據(jù)術(shù)語GB/T37721信息技術(shù)臨床科研系統(tǒng)功能要求WS/T303衛(wèi)生信息數(shù)據(jù)元標準化規(guī)則WS/T304衛(wèi)生信息數(shù)據(jù)模式描述指南WS/T500(所有部分)電子病歷共享文檔規(guī)范3術(shù)語和定義下列術(shù)語和定義適用于本文件。3.1隨機對照試驗randomizedcontrolledtrial隨機對照試驗是一種對醫(yī)療衛(wèi)生服務中的某種療法或藥物的效果進行檢測的手段,特別常用于醫(yī)學、藥學、護理學研究中,在司法、教育、社會科學等其他領(lǐng)域也有所應用。3.2數(shù)據(jù)戰(zhàn)略datastrategy組織開展數(shù)據(jù)工作的愿景和高階指引。[GB/T34960.5,定義3.4]3.32臨床預測模型clinicalpredictionmodel臨床預測模型,又稱臨床預測規(guī)則或者風險評分,是指利用多因素模型估算患者有某種疾病的概率3.4數(shù)據(jù)預處理datapreprocessing數(shù)據(jù)預處理,由于真實世界的臨床數(shù)據(jù)大體上都是不完整,不一致的臟數(shù)據(jù),無法直接進行數(shù)據(jù)挖掘,或挖掘結(jié)果差強人意。為了提高數(shù)據(jù)挖掘的質(zhì)量產(chǎn)生了數(shù)據(jù)預處理技術(shù)。數(shù)據(jù)預處理有多種方法:數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換,數(shù)據(jù)歸約等。這些數(shù)據(jù)處理技術(shù)在數(shù)據(jù)挖掘之前使用,大大提高了數(shù)據(jù)挖掘模式的質(zhì)量,降低實際挖掘所需要的時間。3.5特征工程featuresengineering特征工程,是指用一系列工程化的方式從原始數(shù)據(jù)中篩選出更好的數(shù)據(jù)特征,以提升模型的訓練效果。在臨床研究中常見的特征工程包括變量篩選:如逐步回歸、嶺回歸、LASSO回歸、基于機器學習算法的重要度排序等,除了變量篩選外還常用到的主成分分析與因子分析進行特征工程。3.6模型評價modelevaluation確定納入模型的因子和結(jié)局變量后,選擇不同的模型類型,例如傳統(tǒng)的Logistic回歸、線性回歸、COX比例風險模型等,也可以使用機器學習算法(SVM、Xgboost等通過對測試集上預測效果進行模型的評價,常用的模型評價指標有ROC-AUC、F1-score、召回率、區(qū)分度、校準度等模型性能評價指標。4縮略語下列縮略語適用于本文件:API:應用程序編程接口(ApplicationProgrammingInterface);ETL:抽取、轉(zhuǎn)換、加載(Extract-Transform-Load);CRF:病例報告表(CaseReportForm);PI:主要研究者(principleinvestigator);CI:合作研究者(co-investigator);SI:助理研究者(sub-investigator);CSV:逗號分隔值(Comma-SeparatedValues);EMRs:電子病歷系統(tǒng)(ElectronicMedicalRecordSystem);JSON:對象簡譜(JavaScriptObjectNotation);XML:可擴展標記語言(eXtensibleMarkupLanguage);XSL:可擴展樣式語言(eXtensibleStylesheetLanguage);ML:機器學習(MachineLearning);RCT:隨機對照試驗(RandomizedControlledTrial);GCP:藥物臨床試驗管理規(guī)范(GoodClinicalPractice);COX:比例風險回歸模型(proportionalhazardsmodel);3ROC:接受者操作特性曲線(receiveroperatingcharacteristiccurve);PSM:傾向性評分匹配(PropensityScoreMatching);One-Hot:獨熱編碼(One-HotEncoding);OLAP:聯(lián)機事務處理(OnlineTransactionProcessing)。5臨床科研系統(tǒng)設計總則5.1概述建設基于人工智能的全院級科研一體化平臺,可以對醫(yī)院臨床病歷數(shù)據(jù)進行結(jié)構(gòu)化、標準化的整合治理,面向醫(yī)院重點專科提供臨床科研數(shù)據(jù)采集和分析服務,滿足不同臨床醫(yī)生不同的科研訴求,從而促進醫(yī)療機構(gòu)的科研產(chǎn)出。臨床科研系統(tǒng)的目標是利用信息技術(shù)手段,有效地聚合、分析、管理、利用醫(yī)療大數(shù)據(jù)資源,打造高質(zhì)量的臨床科研數(shù)據(jù)中心,提供科研的統(tǒng)計分析工具,嵌套醫(yī)學常用統(tǒng)計方法,以滿足臨床科研對高質(zhì)量研究與管理的要求。6總體技術(shù)要求6.1概述主要從系統(tǒng)架構(gòu)、系統(tǒng)性能、數(shù)據(jù)標準化、數(shù)據(jù)與信息安全4個方面規(guī)范了臨床科研系統(tǒng)的基本技術(shù)要求。6.2系統(tǒng)架構(gòu)技術(shù)要求——系統(tǒng)宜支持多種數(shù)據(jù)格式,具有高效的數(shù)據(jù)采集和存儲能力,能夠采集和存儲來自不同來源的大量臨床數(shù)據(jù),包括病歷、影像、生物標本、基因測序等?!到y(tǒng)宜支持數(shù)據(jù)集成和分析,能夠?qū)⒉煌瑏碓吹臄?shù)據(jù)集成到一起,并對數(shù)據(jù)進行分析和挖掘。支持高效的數(shù)據(jù)處理和分析能力,包括機器學習、數(shù)據(jù)挖掘、自然語言處理等?!到y(tǒng)宜具有高效可靠的數(shù)據(jù)庫,能夠支持海量數(shù)據(jù)的存儲和高并發(fā)的數(shù)據(jù)讀寫操作。——系統(tǒng)宜具有高可用性和容錯性,以確保系統(tǒng)的穩(wěn)定性和可靠性。高可用性和容錯性技術(shù)可以使用負載均衡、故障轉(zhuǎn)移、多活部署等?!到y(tǒng)宜具有可擴展性和高可用性,能夠支持大規(guī)模的用戶和數(shù)據(jù),同時具有高可用性和容錯性,以確保系統(tǒng)的穩(wěn)定性和可靠性——系統(tǒng)宜具備嚴格的安全性和隱私保護措施,以保護患者的隱私和數(shù)據(jù)的安全。安全性和隱私保護技術(shù)可以使用加密、認證、授權(quán)等。6.3臨床科研系統(tǒng)數(shù)據(jù)與信息安全——臨床科研系統(tǒng)宜支持單中心\多中心科研數(shù)據(jù)使用審批流程,明確數(shù)據(jù)出口以及數(shù)據(jù)使用權(quán)——與醫(yī)院信息系統(tǒng)對接時宜遵循醫(yī)院數(shù)據(jù)管理的要求,對醫(yī)院生產(chǎn)系統(tǒng)進行只讀訪問,不對醫(yī)院生產(chǎn)系統(tǒng)進行數(shù)據(jù)寫入。4——所有用戶的密碼在數(shù)據(jù)庫中,采用摘要算法加密后再保存。——支持用戶的權(quán)限的設置:支持醫(yī)院管理人員方便的管理各種角色、用戶的功能權(quán)限、數(shù)據(jù)訪問和使用權(quán)限的定義?!С植僮魅罩镜挠涗洠簩λ杏脩舨僮饔涗浫罩荆涗浽L問IP地址、時間、用戶名、操作涉及的模塊等信息?!С只颊呷ル[私管理:對于患者隱私,在應用或系統(tǒng)設計時充分考慮相關(guān)數(shù)據(jù)的隱私保護政7總體功能要求本標準的功能要求主要從樣本收集、科研項目管理、數(shù)據(jù)選取、數(shù)據(jù)挖掘以及系統(tǒng)管理5個方面對臨床科研系統(tǒng)的基本功能做出要求,各模塊間的相互關(guān)系,如圖1所示。圖1臨床科研系統(tǒng)框架8樣本收集模塊功能要求8.1概述樣本收集是臨床研究的第一步,對于內(nèi)部樣本即存儲于醫(yī)療大數(shù)據(jù)平臺內(nèi)的樣本,宜支持多種形式、復雜條件的查詢進行收集,外部樣本主要針對前瞻性研究,宜支持手工錄入、電子交換或是數(shù)據(jù)導入的收集方法。8.2外部樣本采集外部樣本采集功能要求如下:——宜支持手工錄入樣本信息;——宜支持上傳相關(guān)圖片信息;——宜支持以接口的方式與外部系統(tǒng)進行交互導入數(shù)據(jù)集,數(shù)據(jù)提供方宜按照接口標準處理需要導入的數(shù)據(jù),如JSON、WebService等方式;——宜支持以ETL(數(shù)據(jù)倉庫技術(shù))的方式從外部系統(tǒng)抽取數(shù)據(jù),數(shù)據(jù)提供方宜按照ETL技術(shù)標準對數(shù)據(jù)進行抽取、清洗、校對等。58.3內(nèi)部樣本檢索內(nèi)部樣本檢索功能要求如下:——宜提供可視化的工具進行各類數(shù)據(jù)查詢統(tǒng)計,同時支持查詢結(jié)果數(shù)據(jù)的圖形、報表展示——宜支持復雜條件的檢索方式,自由構(gòu)造查詢條件以及組合篩選條件,查詢條件包括但不限于:大于、小于、等于、大于等于、小于等于、不等于,包含,不包含等;組合條件包括但不限于:且、或等;——宜支持多維度的檢索,包括但不限于:診斷、檢驗、體征、時間、就診信息等;——宜支持病例全文的精確以及模糊檢索;——宜支持對疾病名進行歸一化搜索,如搜索慢性阻塞性肺疾病或慢阻肺或英文簡寫,搜索到的宜是同一種疾病的相關(guān)內(nèi)容;——宜支持管理人員設置系統(tǒng)使用人的數(shù)據(jù)可查詢范圍。9科研項目模塊功能要求9.1概述臨床科研項目主要包括前瞻性研究以及回顧性研究,系統(tǒng)功能宜滿足兩類研究的使用需求,參考附錄A。9.2前瞻性研究項目前瞻性研究功能要求如下:——宜提供科研項目管理功能,包括但不限于項目管理、團隊管理、成員管理、多中心管理等;——宜支持受試者(患者)管理功能,包括但不限于篩選、添加、更新、刪除受試者(患者)信息等;——宜提供入組樣本的隨機分組功能,以滿足隨機對照試驗的要求;——宜提供CRF表單制作功能,宜允許用戶或管理人員創(chuàng)建編輯CRF表單;——宜提供多終端的表單填寫功能,包括但不限于網(wǎng)頁填寫、收集APP填寫、微信小程序填寫等;——宜提供可視化的隨訪管理功能,允許項目成員查看隨訪對象的隨訪進度;——宜提供項目的質(zhì)控。9.3回顧性研究項目回顧性研究功能要求如下:——宜提供隊列管理功能,包括但不限于刪除隊列、查詢隊列、手工增加隊列樣本等;——宜提供隊列的二次篩選功能,包括但不限于隊列的并集、交集、對某一指標進行篩選。10數(shù)據(jù)選取功能要求10.1概述科研數(shù)據(jù)選取宜提供基線選擇、變量選取所需的可視化工具,宜提供數(shù)據(jù)選取的患者信息展示,并支持最終選取數(shù)據(jù)的導出。10.2定義基線支持可視化定義研究基線,包括但不限于診斷、檢驗、就診信息、用藥、手術(shù)等。610.3變量選擇——支持設置數(shù)據(jù)選取所需的患者信息相關(guān)變量,包括但不限于診斷、檢驗、就診信息、用藥、手術(shù)等?!С诌x取基于自然語言處理的患者信息?!С肿远x變量的配置、編輯、刪除。——支持配置所選變量選取的時間點或時間段?!С直4孀兞窟x擇模板應用于其他項目。10.4數(shù)據(jù)導出——宜提供患者視圖,宜提供展示納入數(shù)據(jù)選取的患者信息,宜提供單個患者整個數(shù)據(jù)生命周期的全部數(shù)據(jù)?!颂峁?shù)據(jù)導出功能,數(shù)據(jù)使用者或管理者可從將選取的數(shù)據(jù)以所需的格式導出,格式包括但不限于CSV、XLS、SAS、Excel、SPSS等多種格式。11數(shù)據(jù)挖掘功能要求11.1概述數(shù)據(jù)挖掘功能宜滿足不同臨床研究設計(如:RCT)或臨床試驗標準(如:GCP)中需要的分析算法,該模塊功能要求主要包括:提供對原始數(shù)據(jù)以及處理后數(shù)據(jù)進行數(shù)據(jù)預處理、數(shù)據(jù)分析、數(shù)據(jù)建模以及數(shù)據(jù)圖表的分析工具庫,同時能夠輸出分析結(jié)果、知識或者決策,參考附錄B。。11.2數(shù)據(jù)清洗數(shù)據(jù)清洗宜模塊功能要求如下:——宜提供數(shù)據(jù)編輯功能,包括但不限于小數(shù)點位數(shù)修改,變量屬性修改(定量數(shù)據(jù)、定類數(shù)據(jù)等),變量名修改,變量刪除,變量轉(zhuǎn)化等;——宜提供數(shù)據(jù)批量清洗功能,包括但不限于缺失值填補、剔除文本、記錄替換等;——提供重編碼功能,包括但不限于分組重編碼、One-hot編碼等;——宜提供數(shù)據(jù)標準化功能,包括但不限于歸一化、正則化等;——宜提供數(shù)據(jù)篩選功能,使用目標數(shù)據(jù)集自由構(gòu)造查詢條件以及組合篩選條件,查詢條件包括但不限于:大于、小于、等于、大于等于、小于等于、不等于,包含,不包含等;組合條件包括但不限于:且、或等。11.3數(shù)據(jù)分析——提供研究樣本的描述功能:包括但不限于最大值、最小值統(tǒng)計、正態(tài)檢驗、交叉表等?!峁┳兞筷P(guān)聯(lián)分析功能,包括但不限于共線性、相關(guān)性分析等?!峁┙M間\組內(nèi)差異分析功能,包括但不限于非參數(shù)檢驗、T檢驗、單因素方差分析等?!峁┡R床常用回歸\生存分析功能,包括但不限于Logistic回歸、COX回歸、生存分析、RCS樣條、主成分分析等?!峁┚C合統(tǒng)計分析功能,包括但不限于單因素\多因素分析、多模型回歸分析、趨勢分析、分層分析等;支持分析結(jié)果的可視化與導出?!С纸y(tǒng)計任務復用與修改要求。11.4數(shù)據(jù)建模7——宜提供臨床科研中常用的基于機器學習的分類算法,包括但不限于XGboost分類、RF分類、KNN分類、SVM分類、logistics分類、樸素貝葉斯分類、ADboost分類、lightGB分類等。——宜提供臨床科研中常用的基于機器學習的回歸算法,包括但不限于XGboost回歸、RF回歸、KNN回歸、SVM回歸、線性回歸等?!颂峁┡R床科研中常用的基于機器學習的聚類算法,包括但不限于K-mean聚類、Birch聚類、高斯混合模型聚類等?!颂峁┡R床科研中常用的降維算法,如PCA、LDA等。——可支持多種神經(jīng)網(wǎng)絡算法,包括但不限于MLP、DNN、CNN、LSTM等?!芍С职凑毡壤齽澐謹?shù)據(jù)集的訓練集、測試集,提供手動設置劃分比例的界面?!芍С謱x定模型的手動調(diào)整、自動調(diào)整模型參數(shù),提供手工調(diào)整參數(shù)的界面?!芍С侄鄠€預測模型間預測效能進行比較,提供測試集以及訓練集中預測效能的比較。——可支持機器學習流程的其它其它組件,包括特征提取、特征選擇、重要度排序、交叉驗證等?!商峁┗诿總€建模分析方法產(chǎn)生分析結(jié)果的說明和解釋。12科研系統(tǒng)管理功能要求12.1概述系統(tǒng)管理提供用戶管理、角色與權(quán)限、數(shù)據(jù)策略、院外訪問設置和日志審計功能。12.2用戶管理——宜支持展示系統(tǒng)用戶信息?!酥С痔砑印⒕庉?、刪除用戶信息。12.3角色與權(quán)限——宜支持不同角色配置不同功能權(quán)限。——宜支持展示不同角色的權(quán)限,并支持新增、刪除、編輯角色的權(quán)限。12.4科研項目權(quán)限管理——宜支持管理人員設置對項目的增刪改查權(quán)限;——系統(tǒng)宜提供研究項目背景、數(shù)據(jù)來源、入排標準、研究設計等文檔的錄入界面——支持系統(tǒng)管理者對全部的研究項目進行增刪改查?!С謭F隊成員權(quán)限管理,根據(jù)不同權(quán)限配置用戶角色的功能權(quán)限及數(shù)據(jù)權(quán)限,權(quán)限包括但不限于PI、CI、SI等角色的功能權(quán)限。12.5科研數(shù)據(jù)安全管理——支持數(shù)據(jù)權(quán)限策略與配置,包括根據(jù)用戶職稱、職位(也可以定制化)配置全院、所在科室數(shù)據(jù)權(quán)限策略。——支持對于某一類患者信息(姓名、家庭地址、身份證)進行加密,避免患者隱私泄露。支持系統(tǒng)用戶登錄/登出/變更、智能搜索、數(shù)據(jù)導出等操作的日志審計。8(資料性)醫(yī)療大數(shù)據(jù)科研平臺的實踐案例A.1案例背景隨著醫(yī)療機構(gòu)信息化的不斷完善,醫(yī)療機構(gòu)擁有的數(shù)據(jù)量越來越龐大。在大數(shù)據(jù)時代,對于研究型醫(yī)療機構(gòu),如何釋放大數(shù)據(jù)的價值成為很多醫(yī)療機構(gòu)關(guān)注的問題??蒲惺轻t(yī)療機構(gòu)高質(zhì)量發(fā)展的重要基石,也是發(fā)揮大數(shù)據(jù)價值的主要領(lǐng)域。一方面,借助大數(shù)據(jù)平臺完成數(shù)據(jù)治理,提升醫(yī)療機構(gòu)數(shù)據(jù)質(zhì)量,提高科研產(chǎn)出效率。另一方面,借助大數(shù)據(jù)促進醫(yī)療機構(gòu)智慧管理、臨床智能應用,加速智慧醫(yī)療機構(gòu)建設。A.2痛點和難點A.2.1痛點A.2.1.1科研無法直接使用非結(jié)構(gòu)化數(shù)據(jù)醫(yī)療機構(gòu)雖然積累了海量數(shù)據(jù),但由于80%左右的數(shù)據(jù)是非結(jié)構(gòu)化的數(shù)據(jù),在科研中是無法有效利用的。醫(yī)療機構(gòu)急需非結(jié)構(gòu)化電子記錄的結(jié)構(gòu)化處理能力,采用醫(yī)療人工智能技術(shù)將醫(yī)學語境下基于自然語言描述的醫(yī)療記錄自動轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),滿足臨床科研需求。A.2.1.2缺乏統(tǒng)一的數(shù)據(jù)標準在沒有統(tǒng)一數(shù)據(jù)標準的階段,醫(yī)療機構(gòu)雖然擁有海量的、種類豐富的臨床數(shù)據(jù),在數(shù)據(jù)統(tǒng)計等應用的過程中,發(fā)現(xiàn)了很多統(tǒng)計不準確、篩選范圍覆蓋不完整等問題。例如,搜索“慢性阻塞性肺疾病”的相關(guān)病例,有很大比例的病例應該被搜索出來,但是卻沒有搜索出來,因為部分患者的臨床描述采用的是慢阻肺、英文簡稱或者其他的描述方式。A.2.1.3缺乏工具,病例數(shù)據(jù)采集、統(tǒng)計分析難——傳統(tǒng)的病例數(shù)據(jù)采集是采用的是Excle和人工收集數(shù)據(jù)的模式,收集數(shù)據(jù)這種低價值、重復性勞動占用了臨床科研工作大量的寶貴時間。——有了數(shù)據(jù)后,由于缺乏科研工具,在隊列管理、樣本納入、數(shù)據(jù)分析方面均采用人工處理方式或借助多種第三方工具,一方面是存在速度慢、效率低的問題,另一方面第三方軟件還存在數(shù)據(jù)泄露的安全隱患。A.2.1.4信息安全無保障——醫(yī)療機構(gòu)數(shù)據(jù)服務缺少數(shù)據(jù)隱私和脫敏配置功能,無法在對應的服務中進行脫敏處理?!獋鬏斶^程宜當缺少加密配置功能,無法服務的傳輸過程中對交互數(shù)據(jù)進行加密處理?!獢?shù)據(jù)訪問缺少訪問控制與監(jiān)管的功能,無法做到對每個接入數(shù)據(jù)服務的系統(tǒng)和數(shù)據(jù)使用方都進行登記與注冊,以及記錄每次訪問的情況。A.2.2難點A.2.2.1面向未來3~5年的統(tǒng)籌規(guī)劃及落地方案9——評估醫(yī)療機構(gòu)內(nèi),業(yè)務系統(tǒng)和人員能力等現(xiàn)狀,分析醫(yī)療機構(gòu)科研發(fā)展方向及重點,為醫(yī)療機構(gòu)數(shù)據(jù)治理制定可行性方案?!贫ㄡt(yī)療機構(gòu)、科研平臺服務商、其他系統(tǒng)服務商之間的規(guī)劃、治理范圍和任務的界定,以及實施策略、流程的設計?!谱鞅O(jiān)督執(zhí)行過程的策略和方式,保證實施進度和質(zhì)量。A.2.2.2高質(zhì)量、可持續(xù)的數(shù)據(jù)治理體系設計——醫(yī)療機構(gòu)數(shù)據(jù)中心要建立一套可評價的體系,從數(shù)據(jù)的及時性、完整性、準確性、一致性、關(guān)聯(lián)性、溯源性等6個維度對數(shù)據(jù)治理過程進行評價。——及時性:業(yè)務數(shù)據(jù)產(chǎn)生的時間(以數(shù)據(jù)記錄時間或業(yè)務時間為準)與數(shù)據(jù)收集的時間間隔,宜滿足一定的時間要求。該評價主要是針對數(shù)據(jù)治理中數(shù)據(jù)收集的過程?!暾裕横t(yī)療機構(gòu)數(shù)據(jù)中心宜制定數(shù)據(jù)完整性相關(guān)質(zhì)量指標,通過業(yè)務標準來識別業(yè)務關(guān)鍵數(shù)據(jù)的完整性,并根據(jù)評價情況,對數(shù)據(jù)質(zhì)量過程進行持續(xù)優(yōu)化和調(diào)整?!暾裕横t(yī)療機構(gòu)數(shù)據(jù)中心宜制定數(shù)據(jù)準確性相關(guān)質(zhì)量指標,結(jié)合業(yè)務規(guī)則和數(shù)據(jù)標準來識別數(shù)據(jù)的準確程度,并根據(jù)評價情況,對數(shù)據(jù)治理過程進行持續(xù)優(yōu)化和調(diào)整。——一致性:醫(yī)療機構(gòu)數(shù)據(jù)中心宜制定數(shù)據(jù)一致性相關(guān)質(zhì)量指標,結(jié)合業(yè)務規(guī)則和數(shù)據(jù)標準來識別數(shù)據(jù)的一致性程度,并根據(jù)評價情況,對數(shù)據(jù)治理過程進行持續(xù)優(yōu)化和調(diào)整?!P(guān)聯(lián)性:醫(yī)療機構(gòu)數(shù)據(jù)中心宜制定數(shù)據(jù)關(guān)聯(lián)性相關(guān)質(zhì)量指標,結(jié)合數(shù)據(jù)庫管理范式要求識別數(shù)據(jù)的關(guān)聯(lián)性水平,并根據(jù)評價情況,對數(shù)據(jù)治理過程進行持續(xù)優(yōu)化和調(diào)整。A.3平臺架構(gòu)平臺架構(gòu)分為四個層級:——數(shù)據(jù)集成:科研平臺首先采集院內(nèi)的臨床數(shù)據(jù)和院外產(chǎn)生的隨訪、CRF表單等數(shù)據(jù)?!獢?shù)據(jù)治理:集成的數(shù)據(jù)與術(shù)語標準體系進行映射或進行標準化轉(zhuǎn)化,支持進行數(shù)據(jù)合理性校驗,實現(xiàn)將多元性、異源性數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一標準的高質(zhì)量科研數(shù)據(jù)?!獢?shù)據(jù)中心:將經(jīng)過治理的數(shù)據(jù)存放在科研數(shù)據(jù)中心。——科研應用:科研人員使用應用系統(tǒng)來建立課題、隊列、篩選病歷,做回顧性、前瞻性研究。圖A.1臨床科研系統(tǒng)架構(gòu)A.4功能介紹A.4.1構(gòu)建ETL平臺實現(xiàn)歷史與實時數(shù)據(jù)匯聚,保障數(shù)據(jù)完整性與整合性?!?guī)劃大數(shù)據(jù)平臺數(shù)據(jù)池,將所有臨床原始數(shù)據(jù)匯聚進數(shù)據(jù)池;——通過ETL相關(guān)工具實現(xiàn)構(gòu)建基礎(chǔ)數(shù)據(jù)采集平臺;——設置DICOM前置服務器,接入醫(yī)療影像、心電等原始數(shù)據(jù);——設置基因數(shù)據(jù)服務器,通過與測序儀直連方式接收基因測序數(shù)據(jù)。A.4.2建立數(shù)據(jù)脫敏規(guī)范,開啟平臺軟硬件結(jié)合安全防護,保障數(shù)據(jù)安全性?!獏⒄誋IPAA定義的18項內(nèi)容進行脫敏、加密存儲;——平臺在院內(nèi)網(wǎng)部署,接口機納入堡壘機管理;平臺開啟Kerberos安全認證以及嚴格的權(quán)限控制。A.4.3建立數(shù)據(jù)質(zhì)量核查、監(jiān)控流程,提高基礎(chǔ)數(shù)據(jù)質(zhì)量?!獨v史數(shù)據(jù):生成數(shù)據(jù)質(zhì)量核查報告,作為后續(xù)數(shù)據(jù)清洗依據(jù);——新增數(shù)據(jù):選取不同檢查方法實時監(jiān)控數(shù)據(jù)質(zhì)量及預警。A.4.4建立數(shù)據(jù)標準化規(guī)范。提取非結(jié)構(gòu)化數(shù)據(jù)信息,提高數(shù)據(jù)可用性對電子病歷、MRI\CT報告中文本數(shù)據(jù)進行自然語言處理,產(chǎn)生了結(jié)構(gòu)化數(shù)據(jù),包括門診病歷數(shù)據(jù)和住院病歷數(shù)據(jù)。A.4.5采用分層、分域模型構(gòu)建醫(yī)療大數(shù)據(jù)模型,采用主題化、層次化方式管理數(shù)據(jù),提高數(shù)據(jù)使用效率。——通過構(gòu)建數(shù)據(jù)倉庫,對全量醫(yī)療數(shù)據(jù)進行集中治理;——采用分層、分域架構(gòu)建立數(shù)據(jù)倉庫,形成了接口層、主題層、匯總層、應用層;——在應用層基礎(chǔ)上,通過構(gòu)建指標集、標簽集、應用寬表組成數(shù)據(jù)集市,為醫(yī)療機構(gòu)運營、機器學習算法、臨床業(yè)務提供高效數(shù)據(jù)支撐。A.4.6建設科研系統(tǒng),加強科研數(shù)據(jù)采集與檢索,提升提高科研數(shù)據(jù)的統(tǒng)計分析能力:——支持多維度科研變量來檢索臨床歷史數(shù)據(jù)進行回顧性研究,滿足自定義eCRF系統(tǒng)自動采集臨床科研數(shù)據(jù),實現(xiàn)前瞻性科研的需要。科研數(shù)據(jù)能直接導出支持SAS/SPSS等第三方統(tǒng)計軟件使用;——嵌套醫(yī)學統(tǒng)計中絕大多數(shù)的統(tǒng)計方法,能夠依據(jù)數(shù)據(jù)類型自動選擇最合適的統(tǒng)計方法,并且自動生成統(tǒng)計報告。其中統(tǒng)計報告包含標準三線表、統(tǒng)計結(jié)果描述、統(tǒng)計圖形等。A.5應用效果A.5.1利用大數(shù)據(jù)平臺,減少科研時間A.5.1.1回顧性研究方面,改變了傳統(tǒng)Excle和人工收集數(shù)據(jù)的模式,實現(xiàn)了智能檢索、變量選擇和智能統(tǒng)計分析。針對前瞻性研究,大數(shù)據(jù)幫助實現(xiàn)了患者入組、方案設計和隨訪采集等。A.5.1.2以智能搜索為例,科研人員檢索一位腦出血患者,很快就能發(fā)現(xiàn)系統(tǒng)里腦出血患者的人次、年齡分布等信息,同時支持二次篩選,剔除腦干出血和創(chuàng)傷性出血的患者。A.5.1.3數(shù)據(jù)分析方面,由于科研系統(tǒng)中嵌入了相關(guān)的統(tǒng)計工具,例如描述性分析和差異性分析。通過這些統(tǒng)計模型,可以讓科研人員很快分析出結(jié)果,從而大大節(jié)約工作效率。此外,也讓很多沉睡的數(shù)據(jù)能夠得到很好的利用。A.5.1.4從效率上看,過去醫(yī)療機構(gòu)要做一個回顧性研究,耗時在數(shù)周到數(shù)月都有可能。醫(yī)療機構(gòu)在使用了科研大數(shù)據(jù)平臺后,在十分鐘之內(nèi)就可以建立一個科研隊列。前瞻性研究同樣如此,借助CRF自動回填、智能隨訪等功能,可以減少60%左右的科研耗時。(資料性)醫(yī)療大數(shù)據(jù)科研統(tǒng)計分析平臺的實踐案例B.1案例背景B.1.1一站式臨床研究建模平臺是集數(shù)據(jù)治理、醫(yī)學統(tǒng)計學、機器學習建模于一體的全流程臨床研究專業(yè)分析平臺。平臺以科研項目為導向,集多種功能于一身,能實現(xiàn)從數(shù)據(jù)上傳到分析結(jié)果一鍵式、一站式輸出的智能平臺,在降低使用門檻的同時能夠大大提升數(shù)據(jù)分析及建模效率,為臨床醫(yī)護人員提供便捷。B.1.2平臺的愿景是讓臨床研究變得沒有門檻,提升臨床研究工作者的研究效率,普及機器學習及人工智能技術(shù)在醫(yī)療領(lǐng)域的應用,最終推動國內(nèi)臨床研究水平向世界看齊。B.2痛點和難點B.2.1痛點B.2.1.1傳統(tǒng)的臨床科研數(shù)據(jù)分析系統(tǒng)例如SPSS、SAS、stats、graphpad等需要前期長時間的培訓學習,耗時長、費用高、效果差;大部分臨醫(yī)生無法完全掌握,分析工具軟件種類繁多,沒有能夠?qū)崿F(xiàn)功能整合的分析工具。B.2.1.2基于機器學習的臨床預測模型的研究目前沒有數(shù)據(jù)分析系統(tǒng)能夠有效支持,而R\PYTHON等數(shù)據(jù)分析編程語言的學習門檻較高且不容易掌握,需要研究人員有一定的編程基礎(chǔ)。B.2.2難點整合臨床研究中常用的數(shù)據(jù)預處理、數(shù)據(jù)分析方法;多種機器學習算法的集成,可以在線進行基于機器學習臨床預測模型的構(gòu)建;解決海量、多線程的數(shù)據(jù)分析問題。B.3基本情況目前平臺已完成包括數(shù)據(jù)治理、基線分析、高級統(tǒng)計分析、智能AI分析、圖表制作、分析日志6大功能模塊,40個子模塊,100余種分析方法建設,能夠滿足臨床研究的分析及教學工作。B.4平臺架構(gòu)平臺后端算法采用Python和R語言混編實現(xiàn),平臺后臺框架采用Django,同時為滿足高并發(fā)機器學習的需求,配置多臺服務器做Nginx負載均衡,關(guān)系型數(shù)據(jù)采用的Mysql5.6.49,非關(guān)系型數(shù)據(jù)庫采取的Redis6.0.9存取,前臺JinJa2模板渲染和Vue、js實現(xiàn),如圖B.1所示。圖B.1某臨床科研數(shù)據(jù)分析平臺系統(tǒng)架構(gòu)B.5功能介紹B.5.1項目管理分析平臺以項目為導向,用戶可根據(jù)研究方向新增研究項目,項目可上傳數(shù)據(jù)、存儲研究標題、研究方案和研究設計等,如圖B.2所示。圖B.2項目管理界面B.5.2數(shù)據(jù)治理針對臨床研究研究設計的數(shù)據(jù)清洗模塊,提供缺失數(shù)據(jù)剔除、相

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論