醫(yī)療數(shù)據(jù)治理-構建高質量醫(yī)療大數(shù)據(jù)智能分析數(shù)據(jù)基礎_第1頁
醫(yī)療數(shù)據(jù)治理-構建高質量醫(yī)療大數(shù)據(jù)智能分析數(shù)據(jù)基礎_第2頁
醫(yī)療數(shù)據(jù)治理-構建高質量醫(yī)療大數(shù)據(jù)智能分析數(shù)據(jù)基礎_第3頁
醫(yī)療數(shù)據(jù)治理-構建高質量醫(yī)療大數(shù)據(jù)智能分析數(shù)據(jù)基礎_第4頁
醫(yī)療數(shù)據(jù)治理-構建高質量醫(yī)療大數(shù)據(jù)智能分析數(shù)據(jù)基礎_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

摘要:以專病真實世界研究為背景,分析了醫(yī)療數(shù)據(jù)治理和數(shù)據(jù)可用性存在的各種問題。

從醫(yī)院數(shù)據(jù)治理出發(fā),延伸到區(qū)域數(shù)據(jù)治理、??坡?lián)盟數(shù)據(jù)治理以及醫(yī)療標注數(shù)據(jù)與知識型

數(shù)據(jù)的治理,總結了不同層次、不同層面數(shù)據(jù)治理的共性方法與個性方法。在此基礎上,進

一步探討了數(shù)據(jù)治理中的主數(shù)據(jù)管理、元數(shù)據(jù)管理、數(shù)據(jù)質量控制等關鍵技術和關鍵環(huán)節(jié)。

最后,給出了醫(yī)療大數(shù)據(jù)標準的基本框架,并基于現(xiàn)有的數(shù)據(jù)治理評估標準,對醫(yī)療大數(shù)據(jù)

治理的現(xiàn)狀進行了評估。

關鍵詞:醫(yī)療數(shù)據(jù)治理;數(shù)據(jù)可用性;元數(shù)據(jù);主數(shù)據(jù)

1引言

醫(yī)療健康大數(shù)據(jù)與人工智能呈蓬勃發(fā)展的態(tài)勢。一方面,醫(yī)院互聯(lián)互通、國家與省市大數(shù)據(jù)

中心的建設,為醫(yī)療健康大數(shù)據(jù)奠定了良好的基礎;另一方面,個性化診斷、疾病預測與輔

助決策支持系統(tǒng)等各類醫(yī)療人工智能應用也在不斷涌現(xiàn)。

國家對發(fā)展醫(yī)療大數(shù)據(jù)和人工智能非常重視,近幾年頒布了一系列指導意見和措施。國辦發(fā)

(2016)47號《國務院辦公廳關于促進和規(guī)范健康醫(yī)療大數(shù)據(jù)應用發(fā)展的指導意見》提出

建設全民健康保障信息化工程一期項目。作為該項目的前期工程,2015年國家衛(wèi)生和計劃

生育委員會統(tǒng)計信息中心啟動了十省互聯(lián)互通項目,開展相關技術的驗證工作。截至2016

年,該項目已經(jīng)接入上海、湖南、湖北、江蘇、浙江、福建、重慶、內蒙古、遼寧、北京10

個省級健康醫(yī)療大數(shù)據(jù)平臺,目前已完成所有省級健康醫(yī)療大數(shù)據(jù)平臺的接入。為深入貫徹

落實國辦發(fā)(2016)47號文件精神,加快國家健康醫(yī)療大數(shù)據(jù)中心及產(chǎn)業(yè)園建設試點項目

對接工作,2016年10月,福建、江蘇以及福州、廈門、南京、常州被確定為健康醫(yī)療大數(shù)

據(jù)中心與產(chǎn)業(yè)園建設國家試點工程第一批試點省市。2017年12月,健康醫(yī)療大數(shù)據(jù)中心

第二批國家試點啟動。根據(jù)部署,健康醫(yī)療大數(shù)據(jù)中心第二批國家試點已在山東、安徽、貴

州3個省開展,并與第一批試點的江蘇、福建一起作為東、南、西、北、中5個健康醫(yī)療大

數(shù)據(jù)區(qū)域中心建設及互聯(lián)互通試點省。目前,醫(yī)療領域已經(jīng)積累了大規(guī)模臨床數(shù)據(jù),并有了

國家級別的數(shù)據(jù)采集和匯聚方案,保障了持續(xù)的數(shù)據(jù)增加和更新,并且為人工智能應用提供

了基礎。

然而,在利用前期基于醫(yī)院或國家衛(wèi)生健康委員會的區(qū)域平臺數(shù)據(jù)進行臨床科研和人工智能

應用開發(fā)的過程中,即使在病人數(shù)量足夠的情況下,數(shù)據(jù)的可用性依然存在問題。這里既有

數(shù)據(jù)本身的問題,也有數(shù)據(jù)流程管理問題和數(shù)據(jù)使用權限問題。例如,若研究特定治療方案

對心衰與大腸癌的影響,需要從電子病歷中分別構建心衰隊列和大腸癌隊列。對于心衰隊列,

入組條件是電子健康檔案中患有心衰疾病的病人,控制變量是是否吃了與心衰治療相關的中

藥,終點事件是180天再入院率。對于大腸癌隊列,入組條件是電子健康檔案中患有大腸癌

的病人,控制變量是是否手術,終點事件是復發(fā)或3~5年生存期。在構建隊列的過程中存

在以下問題。

數(shù)據(jù)完整性不夠。例如,診斷心衰需要心臟彩超數(shù)據(jù),診斷大腸癌需要病理和死亡數(shù)據(jù)。對

于醫(yī)院來說,心臟彩超數(shù)據(jù)和病理數(shù)據(jù)是有的,但這些數(shù)據(jù)被分散在不同的檢查系統(tǒng)中,需

要將這些數(shù)據(jù)集成在臨床專病庫中。此外,與終點事件相關的死亡信息和再入院率數(shù)據(jù)存在

缺失的情況。如果病人不是在醫(yī)院死亡的,系統(tǒng)就無法知道病人的生存狀態(tài),因此死亡信息

無法被獲取。病人也有可能到其他醫(yī)院就診,這樣就無法統(tǒng)計再入院率這個數(shù)據(jù)了。如果是

區(qū)域平臺,各省只有檢驗數(shù)據(jù),沒有檢查數(shù)據(jù)。

數(shù)據(jù)精準度不夠。例如,心衰與心功能分級有關,而腫瘤需要分期,在電子健康檔案數(shù)據(jù)里

面,很多病人的心功能分級數(shù)據(jù)或腫瘤分期數(shù)據(jù)是沒有的。

數(shù)據(jù)一致性不夠。以患者基本信息和時間信息為例,由于填錯或者其他原因,患者的基本信

息在不同系統(tǒng)中可能是不一樣的,而不同系統(tǒng)的時間格式也可能是不一致的。

數(shù)據(jù)準確性不夠。病人的很多ICD編碼不在國家衛(wèi)生健康委員會編碼規(guī)范里,此外,很多

疾病名稱與ICD編碼系統(tǒng)中的疾病名稱不一致。

綜上所述,隨著醫(yī)療大數(shù)據(jù)與人工智能技術的深入發(fā)展,數(shù)據(jù)可用性已經(jīng)成為制約醫(yī)療健康

大數(shù)據(jù)智能分析應用發(fā)展的瓶頸。數(shù)據(jù)存在各種各樣的問題,具體如下。

原始數(shù)據(jù)在錄入過程中有數(shù)據(jù)錯漏、數(shù)據(jù)不完整等問題。

由于缺乏統(tǒng)一的元數(shù)據(jù)標準,數(shù)據(jù)融合困難。

由于缺乏統(tǒng)一的主數(shù)據(jù)管理,病人、醫(yī)生等醫(yī)療應用中的核心數(shù)據(jù)實體難以被唯一標識并實

時更新。

數(shù)據(jù)清洗缺乏統(tǒng)一的策略,導致數(shù)據(jù)被多次清洗,使用代價高。

由于缺乏元數(shù)據(jù)和主數(shù)據(jù)標準,即使數(shù)據(jù)被勉強放在一起,數(shù)據(jù)可達性也很差,無法知曉每

個字段的確切含義和具體取值范圍,難以基于簡單的查詢找到需要的數(shù)據(jù)。

大量醫(yī)療數(shù)據(jù)以文本、影像、圖像等非結構化的方式存儲,增加了管理和整合的難度。

另外,無論是在規(guī)劃層面還是在操作層面,數(shù)據(jù)隱私管理、數(shù)據(jù)使用的權限與流程都跳乏指

導性的技術標準和規(guī)范,由此導致雖然采集、存儲了很多數(shù)據(jù),但不知道誰可以用、應采用

什么樣的方法用。

總體來說,要讓醫(yī)療大數(shù)據(jù)應用生根發(fā)芽,讓數(shù)據(jù)驅動的醫(yī)療人工智能技術與應用落地,就

必須從源頭解決數(shù)據(jù)質量問題,解決在什么樣的情況下可以用什么樣的數(shù)據(jù)的問題,解決數(shù)

據(jù)錄入、采集、融合與使用過程中多個環(huán)節(jié)的數(shù)據(jù)監(jiān)督與控制問題,這些問題都屬于醫(yī)療數(shù)

據(jù)治理問題。

2醫(yī)療數(shù)據(jù)治理的概念、分類與階段

2.1醫(yī)療數(shù)據(jù)治理的內涵與外延

維基百科將數(shù)據(jù)治理定義為組織機構遵循的一個既定的流程,以確保整個生命周期中的數(shù)據(jù)

質量。國際數(shù)據(jù)管理協(xié)會(GlobalDataManagementCommunity,DAMA)在《DAMA數(shù)據(jù)

管理知識體系指南》中將數(shù)據(jù)治理定義為數(shù)據(jù)資產(chǎn)管理的權威性和控制性活動,是對數(shù)據(jù)管

理的高層計劃與控制,包括在數(shù)據(jù)管理和使用層面進行規(guī)劃、監(jiān)督和強制執(zhí)行。我國電子

工業(yè)標準化技術協(xié)會信息技術服務分會(InformationTechnologyServiceStandards,ITSS)

基礎標準工作組認為,數(shù)據(jù)治理包括:對信息利益相關者的需要評估;確保有效助力業(yè)務的

決策機制和方向;確保對合規(guī)和績效的監(jiān)督。

根據(jù)上述定義可知,數(shù)據(jù)治理需要一個權威的組織機構,這個組織機構需要對數(shù)據(jù)資產(chǎn)制定

權威性的計劃,并控制活動。對于企業(yè)內部的數(shù)據(jù)治理,企業(yè)可以建立自己的數(shù)據(jù)治理機構,

對數(shù)據(jù)行使治理的權力。但是,醫(yī)療數(shù)據(jù)相對復雜和分散。一方面,醫(yī)院、國家衛(wèi)生健康

委員會、體檢機構、醫(yī)療科研、保險機構、互聯(lián)網(wǎng)健康機構以及病人都存有數(shù)據(jù);另一方面,

醫(yī)療數(shù)據(jù)所有權難以明確,數(shù)據(jù)治理的權威機構缺乏規(guī)定。

為此,國家衛(wèi)生健康委員會在2018年9月研究制定了《國家健康醫(yī)療大數(shù)據(jù)標準、安全和

服務管理辦法(試行)》(以下簡稱《管理辦法》)。在《管理辦法》的第二條中規(guī)定:我國公

民在中華人民共和國境內所產(chǎn)生的健康和醫(yī)療數(shù)據(jù),國家在保障公民知情權、使用權和個人

隱私的基礎上,根據(jù)國家戰(zhàn)略安全和人民群眾生命安全需要,加以規(guī)范管理和開發(fā)利用。《管

理辦法》明確了國家和政府機構對數(shù)據(jù)的使用權力,指明了數(shù)據(jù)治理的權威機構是國家衛(wèi)生

健康委員會,國家衛(wèi)生健康委員會和相關部門負責統(tǒng)籌規(guī)劃、指導、評估、監(jiān)督全國健康醫(yī)

療大數(shù)據(jù)的標準管理、安全管理和服務管理工作??h級以上衛(wèi)生健康行政部門和相關部門負

責本行政區(qū)域內健康醫(yī)療大數(shù)據(jù)的管理工作,是本行政區(qū)域內健康醫(yī)療大數(shù)據(jù)安全和應用管

理的監(jiān)管單位。各級各類醫(yī)療衛(wèi)生機構和相關企事業(yè)單位是健康醫(yī)療大數(shù)據(jù)安全和應用管理

的責任單位。

2.2醫(yī)療數(shù)據(jù)治理的分類

本文的數(shù)據(jù)治理主要圍繞醫(yī)院和區(qū)域衛(wèi)生管理機構擁有的數(shù)據(jù)展開。將醫(yī)

療數(shù)據(jù)治理按管理機構分為3類:一是醫(yī)院數(shù)據(jù)治理;二是區(qū)域數(shù)據(jù)治理;

三是??坡?lián)盟/專科醫(yī)聯(lián)體/專病中心的數(shù)據(jù)治理。此外,還有醫(yī)療標注數(shù)據(jù)

與知識型數(shù)據(jù)治理。

2.2.1醫(yī)院數(shù)據(jù)治理

醫(yī)院數(shù)據(jù)治理被定義為:醫(yī)院對其數(shù)據(jù)資產(chǎn)的管理和控制,支撐并保障數(shù)據(jù)被安全、高效地

交換與使用。圖1展示了醫(yī)院數(shù)據(jù)治理體系。

澄理U標典里!應用人數(shù)據(jù)人工科施應川支探技術

麗:嫡麗

臨床數(shù)據(jù)中心科研數(shù)據(jù)中心廿(◎(?)

應用示范|中醫(yī)至病麗麗一I11I:

|牟稀喝海科研||輔助診斷昨服智伽答知3MH盟?配然*處理

兒科數(shù)據(jù)治理

效據(jù)故it管控除私與安全管理

|出港數(shù)據(jù)脫救|

I數(shù)據(jù)質出監(jiān)控|[畋據(jù)質at詳儕|

;數(shù)樨H動修正|.一還函市1

痔F混侖云的數(shù)據(jù)存儲系統(tǒng)

公有云,4私有云

0B0BSB^0BBB0|網(wǎng)步at控|

關健技術

基卜知識圖謂的無數(shù)據(jù)管理數(shù)據(jù)融合數(shù)據(jù)?致性檢ill幕廣語文的數(shù)據(jù)質敏控制

|11|I本體時齊II實體鏈接I;船浦此念(I,<■"!1(.41'I||??R動員量修正|

[附加應相]

I沖突*決II英泰推誠I數(shù)據(jù)一致性消洗1|甯義完整性檢測|

A4

海徵管理規(guī)范數(shù)據(jù)■視他

p8m采集演睚||收據(jù)和令題他[數(shù)褥使用流程|I元數(shù)據(jù)標準IIE數(shù)據(jù)標準|1故據(jù)順滑評估方用|安乍存林規(guī)范]

圖1醫(yī)院數(shù)據(jù)治理體系

(1)組織與人員機構管理

醫(yī)院需要成立專門的數(shù)據(jù)管理部門,完成流程和規(guī)范制訂、數(shù)據(jù)質量保證和質量控制、流程

審批等工作,并對數(shù)據(jù)使用方和n"設施建設方進行管理。目前,諸多醫(yī)院已經(jīng)專門成立了

大數(shù)據(jù)部門承擔這項工作,也有醫(yī)院將這項工作放在信息科或病案管理室。

(2)規(guī)范管理

規(guī)范管理包括流程管理與支撐規(guī)范、信息規(guī)范與數(shù)據(jù)規(guī)范。流程管理規(guī)范規(guī)定了何人在何種

應用場景下,通過何人的審批可以操作何種類型的數(shù)據(jù)。首先,流程管理規(guī)范規(guī)定了人員或

是角色的配置與管理,確定數(shù)據(jù)標準、更新維護、數(shù)據(jù)質量跟蹤等內容由誰完成。其次,規(guī)

定了各種審批流程。

相比數(shù)據(jù)采集、加工與存儲的流程,數(shù)據(jù)使用流程的制度管理更為重要。部分醫(yī)院依據(jù)確定

的審批流程管理數(shù)據(jù)的使用,臨床科室可以作為數(shù)據(jù)使用方提交數(shù)據(jù)使用要求,大數(shù)據(jù)管理

部門以及其他數(shù)據(jù)管理方進行審批。但是,目前審批過程缺乏詳細的附加規(guī)范,比如何種職

責的科室和醫(yī)生在什么情形下可以導出數(shù)據(jù)、數(shù)據(jù)能否離院、應由哪一級來審批決定,這些

都需要具體規(guī)定。除管理規(guī)范外,不同角色的人員如何協(xié)作互動完成既定的工作,也可通過

制定流程支撐規(guī)范實現(xiàn)。比如,科研流程不是簡單的數(shù)據(jù)導出和使用過程,通??赡苄枰?/p>

次的數(shù)據(jù)字段確認和細化、數(shù)據(jù)清洗和融合,因此,需要面向特定任務建立流程支撐規(guī)范,

確保信息科、數(shù)據(jù)管理部門以及臨床醫(yī)生的有效協(xié)同。

信息規(guī)范包含隱私、數(shù)據(jù)權限管控規(guī)范和質量評估規(guī)范等。數(shù)據(jù)規(guī)范包括不同業(yè)務系統(tǒng),如

電子病歷數(shù)據(jù)規(guī)范、醫(yī)院信息系統(tǒng)數(shù)據(jù)規(guī)范。對于數(shù)據(jù)整合過程和整合后的系統(tǒng)來說,需要

主數(shù)據(jù)和元數(shù)據(jù)規(guī)范以及相關的數(shù)據(jù)質量規(guī)范。

以上規(guī)范的制定有助于完成以下目標:數(shù)據(jù)有明確和準確的定義;數(shù)據(jù)有明確的責任方;數(shù)

據(jù)有清晰的存儲方式與合理的時間期限;數(shù)據(jù)加工方法明晰;數(shù)據(jù)訪問方式與控制明確;數(shù)

據(jù)內容符合標準要求與質量要求。

(3)平臺、工具與關鍵技術

數(shù)據(jù)治理需要有相應的平臺與工具支持,數(shù)據(jù)清洗過程需要抽取一轉換一加載(extract-

transform-load,ETL)工具、文本結構化工具等。大數(shù)據(jù)管理需要支持多種存儲機制,管理

平臺需要包含元數(shù)據(jù)管理、主數(shù)據(jù)管理、數(shù)據(jù)權限管理、審批流程管理、數(shù)據(jù)質量評估、數(shù)

據(jù)質量監(jiān)控等工具。此外,數(shù)據(jù)的使用需要各種統(tǒng)計模型和人工智能算法。

(4)數(shù)據(jù)智能化分析應用

整個數(shù)據(jù)治理應該是應用驅動的。治理可以圍繞臨床科研、醫(yī)院管理、輔助診療以及各種人

工智能應用展開。

2.2.2區(qū)域數(shù)據(jù)治理

區(qū)域數(shù)據(jù)治理與醫(yī)院數(shù)據(jù)管理內容相似,但實施起來難度更高,具體體現(xiàn)在以下幾點。

(1)主數(shù)據(jù)管理和元數(shù)據(jù)管理的復雜度高

病人基礎數(shù)據(jù)是臨床醫(yī)療信息的主數(shù)據(jù)。區(qū)域數(shù)據(jù)來源于多家醫(yī)院,每家醫(yī)院病人用的身份

標識不一樣,病人基礎信息也會有差異。需要通過統(tǒng)一標識來統(tǒng)一病人的主數(shù)據(jù),并關聯(lián)病

人在不同醫(yī)院的就診記錄。另外,每家醫(yī)院的健康檔案的數(shù)據(jù)結構、疾病、檢驗、癥狀的名

稱也有差異。如果希望做統(tǒng)一元數(shù)據(jù)管理,不僅涉及醫(yī)療信息系統(tǒng)設計問題,也涉及醫(yī)學語

言的表達能力以及??浦g的差異問題,目前還沒有哪個區(qū)域能比較好地解決這個問題。

(2)數(shù)據(jù)安全性管理更嚴格,審批和流程管理更復雜

由于區(qū)域數(shù)據(jù)量比較大,病人的就診數(shù)據(jù)在時序上更完整,因此數(shù)據(jù)泄露帶來的嚴重性更大,

區(qū)域對數(shù)據(jù)安全管理的要求更嚴格。另外,區(qū)域衛(wèi)生管理機構只是行使數(shù)據(jù)管理權,數(shù)據(jù)使

用者很多是醫(yī)療機構,在管理機構對醫(yī)療機構的數(shù)據(jù)使用申請進行約束和審批的過程中,由

于無法了解醫(yī)療機構的真實意圖,因此需要通過更嚴格的審批和管理流程,保障數(shù)據(jù)的合理

與安全使用。

2.2.3專科聯(lián)盟/??漆t(yī)聯(lián)體/專病中心的數(shù)據(jù)治理

??坡?lián)盟/??漆t(yī)聯(lián)體/專病中心的數(shù)據(jù)治理問題更復雜。??坡?lián)盟一般由權威醫(yī)療機構牽頭,

但是其牽頭單位并沒有行政權力,聯(lián)盟單位之間的協(xié)作共享完全是一種自愿的行為。因此,

專科聯(lián)盟形式的醫(yī)聯(lián)體除了要解決區(qū)域醫(yī)聯(lián)體中碰到的技術問題外,還要解決數(shù)據(jù)共享后的

利益分享問題,確保醫(yī)聯(lián)體每個成員能在數(shù)據(jù)共享活動中受益。這項工作有部分醫(yī)療信息廠

商正在做探索性的研究,主要通過區(qū)塊鏈確立數(shù)據(jù)來源,并通過智能合約實現(xiàn)臨床科研上利

益的共享。專病中心可以看作??漆t(yī)聯(lián)體建立的數(shù)據(jù)中心,數(shù)據(jù)中心需要解決醫(yī)聯(lián)體成員對

專病信息匯聚的技術問題。為了形成高質量的數(shù)據(jù)中心,部分專病中心嘗試采用了制定復雜

的數(shù)據(jù)入庫規(guī)則、定時數(shù)據(jù)獲取制度、規(guī)范化科研病例報告表單定義等措施。

2.2.4醫(yī)療標注數(shù)據(jù)與知識型數(shù)據(jù)治理

除了上述3類管理機構的數(shù)據(jù)治理問題之外,還有醫(yī)療標注數(shù)據(jù)與知識型數(shù)據(jù)的治理問題。

數(shù)據(jù)治理主要面向的對象是病人數(shù)據(jù),但在醫(yī)院協(xié)作共享過程中,知識型數(shù)據(jù)也必不可少。

在面向人工智能的應用時,需要大量的標注數(shù)據(jù),這些數(shù)據(jù)的管理和利用也應該屬于數(shù)據(jù)治

理的范疇。

標注數(shù)據(jù)主要是針對電子病歷文本、影像等非結構化數(shù)據(jù)進行實體、屬性、關系等標注得到

的數(shù)據(jù),標注數(shù)據(jù)的質量對訓練深度學習或神經(jīng)網(wǎng)絡模型起著決定性作用。為了實現(xiàn)對標注

數(shù)據(jù)的治理,應該針對不同粒度的實體建立一套完整的標注規(guī)范,對標注過程的各要素進行

規(guī)范化管理,并對標注結果進行交叉驗證等。

由于不同機構對知識型數(shù)據(jù)的表示各不相同,且知識之間存在復雜的關系,因此需要對知識

型數(shù)據(jù)進行統(tǒng)一的表示,明確知識型數(shù)據(jù)之間的關系。止匕外,知識還會不斷地增長,需要建

立知識管理機制,確保知識型數(shù)據(jù)能夠動態(tài)地擴充。

3醫(yī)療數(shù)據(jù)治理工具平臺與關鍵技術

建立臨床數(shù)據(jù)治理需要平臺和工具,也要攻克一系列的關鍵技術。醫(yī)療數(shù)據(jù)治理工具平臺應

包含數(shù)據(jù)存儲子系統(tǒng)、元數(shù)據(jù)管理子系統(tǒng)、主數(shù)據(jù)管理子系統(tǒng)、數(shù)據(jù)質量管控子系統(tǒng)以及患

者數(shù)據(jù)脫敏工具等。為了構建這樣的工具平臺,需探討知識圖譜、數(shù)據(jù)融合算法、數(shù)據(jù)自動

一致性檢測等多種技術。本文主要探討與醫(yī)療數(shù)據(jù)關系最密切的3項技術:元數(shù)據(jù)管理、主

數(shù)據(jù)管理以及數(shù)據(jù)質量監(jiān)控與管理。

3.1元數(shù)據(jù)管理

目前醫(yī)院信息系統(tǒng)中存在數(shù)據(jù)模式描述文檔不全、系統(tǒng)之間數(shù)據(jù)關聯(lián)不清晰、系統(tǒng)值域標準

不統(tǒng)一等問題,這對數(shù)據(jù)的集成造成了極大的困擾。在區(qū)域層面,這些問題更嚴重。因此,

需要通過元數(shù)據(jù)管理獲取業(yè)務系統(tǒng)中數(shù)據(jù)的含義,輔助數(shù)據(jù)理解,增加分析的敏捷性。元數(shù)

據(jù)管理可以提高數(shù)據(jù)的可訪問性、一致性及可用性,為多種來源數(shù)據(jù)的整合搭建了橋梁。

相比利用傳統(tǒng)字典表以及數(shù)據(jù)字段名稱的元數(shù)據(jù)初級表示方法,完整的元數(shù)據(jù)管理有完整的

字段定義、與數(shù)據(jù)源的對應關系以及不同數(shù)據(jù)來源元數(shù)據(jù)之間的映射關系。

具體而言,元數(shù)據(jù)管理子系統(tǒng)主要由采集層、標準層、分析層和應用接口層組成。采集層從

各種醫(yī)療信息系統(tǒng)內獲取元數(shù)據(jù),查看元數(shù)據(jù)的變化和更新。標準層保存了元數(shù)據(jù)的標識信

息、內容信息與模式信息等。由于醫(yī)院信息系統(tǒng)各異,標準層實現(xiàn)了將元數(shù)據(jù)映射到標準集

合以及將不同的元數(shù)據(jù)進行互操作的功能。分析層主要提供了對元數(shù)據(jù)的管理、分析與查詢。

元數(shù)據(jù)庫與數(shù)據(jù)源存在對應關系,當用戶通過統(tǒng)一入口提交查詢服務時,可以根據(jù)元數(shù)據(jù)庫

提供的特征找到對應的信息資源,重組之后呈現(xiàn)給用戶。因此,應用接口層除了提供元數(shù)據(jù)

訪問的限制和保護外,同時還服務于各個應用程序。

與其他領域相比,醫(yī)療領域的元數(shù)據(jù)規(guī)范相對比較成熟,如原衛(wèi)生部頒布的《國家衛(wèi)生計生

委辦公廳關于印發(fā)住院病案首頁數(shù)據(jù)填寫質量規(guī)范(暫行)和住院病案首頁數(shù)據(jù)質量管理與

控制指標(2016版)的通知》(國衛(wèi)辦醫(yī)發(fā)(2016)24號)、《病歷書寫規(guī)范》(衛(wèi)醫(yī)政發(fā)

(2010)11號)、《電子病歷基本規(guī)范》(衛(wèi)醫(yī)政發(fā)(2010)24號)、《衛(wèi)生信息基本數(shù)據(jù)集

編制規(guī)范》(WS370-2012)、《衛(wèi)生管理基本數(shù)據(jù)集》(WS374-2012)與《電子病歷基本架

構與數(shù)據(jù)標準》(衛(wèi)辦發(fā)(2009)130號)等。在數(shù)據(jù)值編碼標準方面,國際上有疾病分類

編碼ICD-10,手術操作編碼ICD-9以及SNOMED術語庫,國內有國家標準《衛(wèi)生機構(組

織)分類與代碼表》(WS2182002),《社會保險藥品分類與代碼》(LD/T90-2012)和《中醫(yī)

病證分類與代碼》(GB/T15657-1995)。

然而,在使用過程中,這些標準會根據(jù)應用進行不同程度的刪減和擴充,甚至出現(xiàn)錯誤的使

用。因此,基于標準建立一個元數(shù)據(jù)管理機制,可方便地在標準上擴充,并可以關聯(lián)不同的

應用。從技術角度來說,這個管理機制可以基于知識圖譜技術建立。圖譜可以方便地給出元

數(shù)據(jù)的定義,包括概念、概念層次、屬性、屬性值類型、關系、關系定義域概念集以及關系

值域概念集,并且可以通過添加規(guī)則或公理來表示模式層更復雜的約束關系。借助知識圖譜

圖結構的表達能力,可以表達關聯(lián)關系、同義關系、上下位關系與實例關系等,從而建立

更加靈活的數(shù)據(jù)約束條件,從而方便地表達和擴充元數(shù)據(jù)。借助于圖譜已有的模式對齊、實

體匹配與沖突檢測算法,可以在語義層次對圖譜進行維護,在此基礎上實現(xiàn)自動的數(shù)據(jù)融合

算法。圖2給出了疾病“心力衰竭”的部分知識圖譜,包括該疾病名稱的同義詞:心功能不全、

心衰、心臟衰竭、心力衰竭等,所屬部位是“心臟結構”。

圖2疾病“心力衰竭”的部分知識圖譜

利用該圖譜還能較好地實現(xiàn)電子病歷的標準化。如圖3所示,將電子病歷中不規(guī)范的文本進

行標準化,例如將疾病名稱“心衰”標準化為“心功能不全”或‘心力衰竭”,將“腦梗死”標準化為

“腦梗塞”,將藥物“異舒吉”映射到標準藥物名“硝酸異山梨酯”等。

發(fā)現(xiàn)那位

心功能發(fā)現(xiàn)部位

不仝

1食枇修.卜功卜?力

圖3利用知識圖譜實現(xiàn)電子病歷的標準化

3.2主數(shù)據(jù)管理

醫(yī)療數(shù)據(jù)的主數(shù)據(jù)主要有病人信息和醫(yī)生信息兩類。本文以病人信息為例,說明主數(shù)據(jù)管理

的問題和難點。目前,在醫(yī)院層面,各業(yè)務系統(tǒng)對病人的信息分別進行存儲,但大型醫(yī)院都

建立了臨床數(shù)據(jù)中心(clinicaldatarepos讓ory,CDR),為了唯一標識一個病人,需要通過構

建病人主索引號(enterprisemasterpatientindex,EMPI)將存儲于不同系統(tǒng)的病人關聯(lián)在

一起。這里有兩個問題需要解決。第一,如何構建EMPL識別不同系統(tǒng)中同一個病人不同

ID之間的映射關系十分困難,特別是在區(qū)域平臺上每個系統(tǒng)都有獨立的ID,導致這個問題

更復雜了。雖然這個問題可以通過匹配醫(yī)??ㄌ柌糠纸鉀Q,但由于有些病人沒有醫(yī)???,有

醫(yī)??ǖ囊膊皇敲看味加冕t(yī)保卡,因此,要求病人通過身份證和手機號進行實名認證是必要

的。第二,一個病人的基礎信息(如年齡、性別等)可能同時存在于醫(yī)院信息系統(tǒng)(hospital

informationsystem,HIS)>實驗室信息管理系統(tǒng)(laboratoryinformationmanagement

system,LIS)和影像存儲與傳輸系統(tǒng)(picturearchivingandcommunicationsystem,PACS)

等系統(tǒng)中。而各系統(tǒng)的側重點不同,難免會造成數(shù)據(jù)填寫質量不一致或數(shù)據(jù)未及時更新等問

題。

為此,需要在定義系統(tǒng)主數(shù)據(jù)的情況下,構建主數(shù)據(jù)管理中央庫,解決主數(shù)據(jù)碎片問題???/p>

以從各業(yè)務系統(tǒng)抽取數(shù)據(jù),并進行數(shù)據(jù)融合,形成完備的主數(shù)據(jù)信息,然后再將主數(shù)據(jù)信息

分發(fā)給各業(yè)務系統(tǒng),保證各業(yè)務系統(tǒng)中這些信息的準確性和完整性。這樣就形成了公共的重

要屬性由主數(shù)據(jù)管理系統(tǒng)管理、各業(yè)務系統(tǒng)的特色屬性由各系統(tǒng)獨立管理的模式。

在構建主數(shù)據(jù)管理庫時,首先需要從多個異構的業(yè)務子系統(tǒng)中以ETL的方式抽取關鍵數(shù)據(jù),

然后,利用元數(shù)據(jù)庫對其中的編碼、描述進行標準化。接著,由于多個業(yè)務系統(tǒng)的數(shù)據(jù)可

能不一致,還需要通過匹配算法完成對數(shù)據(jù)的錯誤消除和信息融合。對于匹配不到的孤立信

息,要加以監(jiān)控跟蹤,進行人工處理。同時,以增量學習的方式不斷改進匹配算法。最后,

將歸整好的主數(shù)據(jù)信息存入主數(shù)據(jù)庫。

以病人信息為例,病人的出生年月、性別等信息在各系統(tǒng)中都有,但由于HIS是從身份證讀

取的信息,因而相比其他系統(tǒng)采用人工錄入的方式來說更準確。然而,病人的血型信息通常

在LIS中是更準確的,甚至可能在門診/急診工作站中也沒有這些信息。通過主數(shù)據(jù)管理系

統(tǒng),可以從各系統(tǒng)中分別獲取信息,根據(jù)可靠性、一致率等進行信息校驗融合,最后形成該

病人的完備信息,然后再將完備信息下發(fā)到各業(yè)務系統(tǒng)。

在這些主數(shù)據(jù)管理的基礎服務之上,還可以提供諸如患者畫像等高級功能。目前患者就診時,

醫(yī)生僅能夠通過患者自述的方式快速了解慢性病史、過敏史等信息。盡管可以查閱歷史檔案,

但對于醫(yī)生來說很不方便。而通過對診斷等數(shù)據(jù)的分析,可以形成患者慢性病、過敏史的標

注信息,將這些信息合并到病人的主數(shù)據(jù)中形成患者畫像?;颊呔驮\時醫(yī)生可以直接從醫(yī)生

工作站上讀取到這些標注信息,從而準確、快速地獲取這些必要信息。此外,在多家醫(yī)院之

間實現(xiàn)主數(shù)據(jù)共同管理之后,還可以打通醫(yī)院之間的信息壁壘。若患者在A醫(yī)院診斷出患

有某慢性病,當他下次去B醫(yī)院就診時,醫(yī)生也能快速得知該患者的這個信息,從而使就診

更高效、更準確。

3.3數(shù)據(jù)質量管控子系統(tǒng)

從數(shù)據(jù)產(chǎn)生過程來看,醫(yī)療數(shù)據(jù)質量問題主要來源于3個方面。

一是原始信息采集有誤差。在醫(yī)療系統(tǒng)內數(shù)據(jù)采集主要通過手工方式錄入,在醫(yī)生或護士輸

入信息的過程中,可能會有意或無意地將數(shù)據(jù)錯誤引入系統(tǒng)。

二是數(shù)據(jù)融合過程發(fā)生問題。在對不同來源的數(shù)據(jù)進行融合時,數(shù)據(jù)格式和語義可能會有誤

差或不一致,導致融合結果有錯。

三是與數(shù)據(jù)的應用場景不匹配。例如,如果要進行病例統(tǒng)計,現(xiàn)有臨床電子病歷數(shù)據(jù)就能滿

足統(tǒng)計場景的需求。但如果要做大腸癌療效分析,現(xiàn)有臨床電子病歷數(shù)據(jù)就難以滿足分析場

景的要求,還需補充病理數(shù)據(jù)。

因此,在醫(yī)療數(shù)據(jù)治理流程中,需要了解最終的使用場景,也需要從業(yè)務系統(tǒng)的數(shù)據(jù)源頭控

制質量,并保證每個融合和加工過程的正確性。另外,當發(fā)現(xiàn)錯誤的時候,可以實現(xiàn)自動或

半自動的修正。因此,質量管控平臺包括了數(shù)據(jù)質量實時監(jiān)控、數(shù)據(jù)質量后評估以及數(shù)據(jù)的

自動修正。數(shù)據(jù)質量實時監(jiān)控主要針對從業(yè)務系統(tǒng)抽取的或是從外部傳送的接口數(shù)據(jù),通常

從及時性、有效性和完整性等幾個指標監(jiān)測接口內容本身的數(shù)據(jù)質量問題,還需要對采集程

序進行監(jiān)控,如接口采集程序是否正常啟動、是否正常結束等。數(shù)據(jù)質量后評估是指對融合

后的數(shù)據(jù)進行質量評估。首先從確定評價對象和范圍著手,然后選取數(shù)據(jù)質量維度及評價標

準,確定質量測度及評價方法,之后按照配置的評估指標執(zhí)行評估,產(chǎn)生權重化的評估結果,

最后生成質量結果和報告。數(shù)據(jù)的自動修正是指對于有錯誤或不一致的數(shù)據(jù),部分數(shù)據(jù)可以

進行自動化的探測和更正。例如,時間的表達可以是DD/MM/YY,也可以是YY/MM/DD,

可以通過智能算法探測原始系統(tǒng)的表達方式,制定映射規(guī)則,實現(xiàn)日期格式的一致性。

除了上述內容之外,大數(shù)據(jù)存儲的便利性與查詢速度、醫(yī)療數(shù)據(jù)脫敏、流程管理工具、數(shù)據(jù)

訪問權限管理、數(shù)據(jù)的防復制等也是非常重要的問題,此處不再詳述。

4醫(yī)療大數(shù)據(jù)治理標準與醫(yī)療數(shù)據(jù)治理能力評估

在單獨的業(yè)務系統(tǒng)以及數(shù)據(jù)互聯(lián)互通方面,國家衛(wèi)生健康委員會已建立了相應的標準。但是,

在醫(yī)療大數(shù)據(jù)方面,還缺乏專門的標準?!秶医】滇t(yī)療大數(shù)據(jù)標準、安全和服務管理辦法

(試行)》指定,國家衛(wèi)生健康委員將負責全國健康醫(yī)療大數(shù)據(jù)標準的制定工作,省級衛(wèi)生

健康行政部門將負責大數(shù)據(jù)標準的落地工作。從整體規(guī)范體系來看,需要制定的標準眾多,

應該包含圖1中的流程標準、數(shù)據(jù)標準以及信息標準。需要特別指出的是,數(shù)據(jù)標準包含病

人、醫(yī)生、醫(yī)院等主數(shù)據(jù)標準,也包含檢查、疾病、用藥等數(shù)據(jù)值標準。數(shù)據(jù)標準還需要對

不同的醫(yī)療行為(如就診、診斷、治療等)進行標準化的描述。為了便于人工智能應用,對

于文本數(shù)據(jù)和影像數(shù)據(jù),也應有相應的標注規(guī)范。由于不同??菩枰臄?shù)據(jù)字段有差別,有

可能會進一步制定??埔?guī)范??偠灾瑯藴鼠w系包含了相互關聯(lián)的多個標準,覆蓋面廣,

種類眾多,標準的建設不是一蹴而就的。

除了醫(yī)療大數(shù)據(jù)治理標準外,值得一提的是醫(yī)療數(shù)據(jù)治理能力評估規(guī)范。數(shù)據(jù)治理能力評估

規(guī)范可以考察企業(yè)對數(shù)據(jù)的管理能力,通過對企業(yè)的評估,可以逐步提高企業(yè)的數(shù)據(jù)治理能

力。該評估標準經(jīng)過修改后也可以用在醫(yī)療領域。

2010年,IBM公司發(fā)布的《IBM數(shù)據(jù)治理統(tǒng)一流程》描述了企業(yè)數(shù)據(jù)能力成熟度評價模型,

將數(shù)據(jù)能力分為5個等級和11個功能域。2014年,能力成熟度模型整合(capabilitymaturity

modelintegration,CMMI)協(xié)會發(fā)布了企業(yè)數(shù)據(jù)管理成熟度(datamanagement

maturity,DMM)模型,該模型規(guī)定了6個職能域和25個過程域。

國內最早啟動相關研究的機構是全國信息技術標準化技術委員會,該機構于2014年開始開

展相關的研究,并在20

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論