基于術語圖譜的臨床大數(shù)據(jù)清洗_第1頁
基于術語圖譜的臨床大數(shù)據(jù)清洗_第2頁
基于術語圖譜的臨床大數(shù)據(jù)清洗_第3頁
基于術語圖譜的臨床大數(shù)據(jù)清洗_第4頁
基于術語圖譜的臨床大數(shù)據(jù)清洗_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、基于術語圖譜的臨床大數(shù)據(jù)清洗技術創(chuàng)新,變革未來目錄 / CONTENTS大數(shù)據(jù)價值鏈與臨床大數(shù)據(jù)挖掘流程數(shù)據(jù)清洗流程與術語圖譜的作用人機協(xié)同的、基于規(guī)范的、包含常用術語的、基 于本體的術語圖譜的構建工具與算法支撐大數(shù)據(jù)價值鏈1.數(shù)據(jù)獲取2.數(shù)據(jù)清洗3. 數(shù)據(jù)篩選和可達5. 應用設計與開發(fā)4. 方法與算法02030405010. 業(yè)務系統(tǒng) 數(shù)據(jù)(錄入)00. 測試臨床大數(shù)據(jù)挖掘具體工作數(shù)據(jù)獲取醫(yī)院CDR ( 各類影像和檢查報告) / 分院??漆t(yī)聯(lián)體/ 多中心 ( 基于區(qū)塊鏈)區(qū)域醫(yī)聯(lián)體 ( 政府)隨訪。數(shù)據(jù)清洗與轉 換內容抽取 ( X S LT )自然語言結構化正則表示數(shù)據(jù)映射數(shù)據(jù)歸一化數(shù)據(jù)篩選

2、和查 看病人篩選( 基于疾病/ 檢查/ 手術)搜索/ 語義搜索/ 抽屜式搜索病人詳細篩選隊列構建方法與算法P S M , C o x , L i n e a r Re g r e s s i o n深度學習、決策樹、影像識別應用科研人工智能: 輔助影像診斷/ 決策支持輔助工作數(shù)據(jù)模型高效數(shù)據(jù)存儲臨床真實世界研究1.0手動作業(yè)進階2.0醫(yī)院或區(qū)域健康平臺中采集數(shù)據(jù)并 自動清洗臨床科研中心(Research data repository )科研數(shù)據(jù)治理 (流程管理!人員管理!規(guī)范管理?。?shù)據(jù)整體診斷數(shù)據(jù) 檢驗/檢查數(shù)據(jù) 治療數(shù)據(jù) 療效數(shù)據(jù)數(shù)據(jù)質量(可用性)評估數(shù)據(jù)完整性/一致性代碼和名稱一致性數(shù)

3、據(jù)精確性大數(shù)據(jù)分析與挖掘算法基于深度學習的診斷、 用藥預測與生存預測疾病自動分類、致 病相關因素挖掘等大數(shù)據(jù)平臺數(shù)據(jù)質量問題反饋數(shù)據(jù)質量問題反饋知識庫知識服務語義搜索、智能問答醫(yī)療健康知識圖譜臨床病歷庫療效分析/風險預測模型庫專病庫抽取(二次建庫)專病病例確定字段確定與提取文本結構化名稱編碼隊列構建入隊列條件控制變量終點事件基于PSM的對照組采樣基于傾向性分析的療效對比基于邏輯回歸的顯著性分析基于COX的生存分析基于KM的生存分析進階3.0A從電子病歷源頭開始臨床醫(yī)生??齐娮硬v基于CRF表單設計界面前結構化與中結構化 文本結構化 自動編碼知識庫醫(yī)療健康知識圖譜醫(yī)療術語診療路徑數(shù)據(jù)質量控制數(shù)據(jù)

4、完整性/一致性代碼和名稱一致性數(shù)據(jù)精確性隨訪數(shù)據(jù)質量反饋 專科病例庫搜索語義問答統(tǒng)計與分析隊列構建入隊列條件控制變量終點事件基于傾向性分析的療效對比基于PSM的對照組采樣基于邏輯回歸的顯著性分析基于COX的生存分析基于KM的生存分析對于病人來說,??剖欠窈侠恚坎煌瑢?拼鎯Φ腎T問題基于深度學習的診斷、用藥預測與生存預測疾病自動分類、致病相關因素挖掘等基于傾向性分析的療效對比基于機器學習的智能分診通過病人信息輔助醫(yī)生進行診斷大數(shù)據(jù)分析與挖掘算法進階3.0B基于區(qū)塊鏈的確權與利益共享醫(yī)院 1醫(yī)院 n大數(shù)據(jù)分析與挖掘算法基于深度學習的診斷、用藥預測與生存預測疾病自動分類、致病相關因素挖掘等基于傾向性

5、分析的療效對比基于機器學習的智能分診通過病人信息輔助醫(yī)生進行診斷醫(yī)院 2多中心專科病例庫(虛擬/真實)數(shù)據(jù)上鏈利益分享鏈數(shù)據(jù)上鏈數(shù)據(jù)上鏈基于數(shù)據(jù)來源的 貢獻計算機制清洗和查詢中的難點:常用術語的表達多樣化癥狀同義詞與上下位關系 (頭疼,頭有點疼)疾病的同義詞與上下位關系 (心衰,慢性心力衰竭,PCI手術后慢性心理衰竭)藥品機理與成分 (ACEI 類降壓藥)一致的記錄數(shù)編碼不在ICD10名稱不在ICD10編碼和名稱不對應70928551343563某醫(yī)院某科室10年數(shù)據(jù) 診斷代碼和名稱一致性檢測在心衰病人信息表中,總記錄數(shù)為16241,而疾病編碼和疾病 名稱相對應的記錄數(shù)為709條。數(shù)據(jù)分布:一

6、致的記錄數(shù)編碼不在ICD10 名稱不在ICD10 不對應目錄 / CONTENTS大數(shù)據(jù)價值鏈與臨床大數(shù)據(jù)挖掘流程數(shù)據(jù)清洗/篩選/利用要點與術語圖譜的作用人機協(xié)同的、基于規(guī)范的、包含常用術語的、基 于本體的術語圖譜的構建工具與算法支撐界面用于輸入疾病名稱和ICD 編碼,為了解決術語不統(tǒng)一問 題,結合術語庫中的同義詞在 院內CDR中進行抽取病例。例如 “2型糖尿病”,在術語 庫中會得到“糖尿病2型”和“型糖尿病”等相關同義詞。 基于這些所有同義詞抽取符合條件的病人相關信息。病例篩選類CRF表單界面, 定義專病庫所需要 的內容,包括人群 特征、檢驗檢查結 果等。專病模型定義數(shù)據(jù)清洗引擎數(shù)據(jù)清洗引擎

7、進行專病數(shù)據(jù)清洗。 可對主訴、五史、檢查等自然語 言內容進行結構化。清洗方式,通過多鐘不同方式, 不同清洗規(guī)則進行組合對不同數(shù) 據(jù)進行清洗??杀O(jiān)控清洗過程。數(shù)據(jù)清洗引擎對于自然語言處理引擎,該系統(tǒng) 可對癥狀體征、疾病、手術、化 學檢驗、儀器檢查、藥品使用等 醫(yī)療事件進行細粒度的識別。病例篩選抽屜式搜索,如通過年齡、性別 等基本信息、科室、診斷、檢驗、 檢查、用藥和手術等進行病例的 篩選,以達到復雜條件下的病例 庫篩選數(shù)據(jù)篩選與轉換-隊列構建在全院級別、???、專病級別快 速構造隊列選擇起點事件和終點 事件以及事件距離,以此構建患 者的分析隊列,進行隊列分析。數(shù)據(jù)應用-圖表分析基于病例庫的構建結果

8、,可對病 例庫進行橫斷面分析。系統(tǒng)提供 人群分布、并發(fā)癥分布等預設圖 表。為了靈活的進行橫斷面分析,系 統(tǒng)提供了包括餅圖、柱狀圖、線 形圖、地域分布圖和熱力圖的自 定義圖表設置功能。數(shù)據(jù)應用科研挖掘如圖是COX生存分析結果,可展示算法 系數(shù)及每個分析因素的系數(shù)圖術語庫應用1.病例篩選2.數(shù)據(jù)歸一化3.自然語言處理4.文本質量評估5.語義搜索術語應用數(shù)據(jù)歸一化文本結構化時,使用術語庫實現(xiàn)自動標注術語應用文本結構化個人史【出生情況】G2P1(第2次懷孕,生產孩子1個, 人工流產1次),足月順產,否認窒息史,否認搶 救史,出生體重3150g,身長不詳?!疚桂B(yǎng)史】出生后混合喂養(yǎng),7月添加輔食。否 認喂

9、養(yǎng)困難史。【窒息史】否認窒息史缺 失個人史(總0.1)SubClassOf出生情況喂養(yǎng)史SubClassOfSubClassOfSubClassOfSubClassOfSubClassOfSubClassOfSubClassOfSubClassOfSubClassOfP(0.01)xsd:string:1G(0.01)xsd:string:2喂養(yǎng)方式(0.02)xsd:string: hhwy出生體重(0.01)xsd:string: 3150g足月生產(0.02)xsd:string:1出生體長(0.01)xsd:string: null添加輔食時間(0.01)xsd:string: 7th

10、 month窒息史(0.01)xsd:string:0研究結果以某兒科醫(yī)院的糖尿病個人史為例假定在本實例中其他部分都是完整的,而個人史部分 所占總權重為0.1。則本例的完整率為:臨床規(guī)定糖尿病個人史中應包含以下實體數(shù)據(jù)質量評估方法語義完整性評估方法目錄 / CONTENTS大數(shù)據(jù)價值鏈與臨床大數(shù)據(jù)挖掘流程數(shù)據(jù)清洗/篩選/利用要點與術語圖譜的作用人機協(xié)同的、基于規(guī)范的、包含常用術語的、基 于本體的術語圖譜的構建工具與算法支撐遵循與關聯(lián)國際主流標準疾病 ICD-11,ICD10癥狀 ? SNOMED CT (Clinical Finding)檢查 ?LOINC藥品 RXNORM?ATC遵循國家標準

11、選擇簡單結合實際業(yè)務目前和未來數(shù)據(jù)情況不給臨床醫(yī)生造成任何不便最大程度減少信息科和醫(yī)務處工作利用大數(shù)據(jù)與人工智能自動構建 加上 人工校驗形成常用語體系(補充 常用術語+術語關系+使用場景+工具參考實現(xiàn))結合常用語的術語圖譜方構建方法論研發(fā)術語關系集研發(fā)核心術語集研發(fā)同義詞集合檢驗學專家臨床術語團隊預處理信息團隊去重標準化術語化去低質量數(shù)據(jù)(如檢 驗指標是人名)分組整理匯總整理2009條指標+標本 數(shù)據(jù)2030條指標+標本 數(shù)據(jù)21024條指標+標本 數(shù)據(jù)專家校驗檢驗術語構建流程2030標本+檢驗指標1632檢驗指標12324檢驗指標同義詞檢驗術語集構建術語庫: 區(qū)域診斷數(shù)據(jù) 鏈接到 ICD10

12、添加層次分 類:ICD10第一層鏈接 到ICD11術語校驗疾病術語構建流程ICD10ICD1120756區(qū)域診斷數(shù)據(jù)(下位詞)158924168區(qū)域診斷數(shù)據(jù)(同義詞)1291疾病術語集遇到問題:醫(yī)生校驗時希望擴充ICD10的疾病計劃解決方案:多輪迭代校驗,先將所有申康診斷數(shù)據(jù)鏈入ICD10,然 后再對并列的診斷數(shù)據(jù)進一步劃分層次局灶性節(jié)段性 腎小球硬化癥局灶性節(jié)段性 腎小球硬化局灶性節(jié)段性 腎小球硬化癥局灶性節(jié)段性 腎小球硬化新增疾病疾病庫建設難點術語融合:ATC + CFDA構建藥品術語分類體系:ATC 構建藥品術語集:CFDA藥品術語構建流程191621藥品通用名藥品產品名11290731

13、2248藥品分類術語內科用藥分類:(共6715條)祛瘀劑(藥品)【ATC】解表劑(藥品)【ATC】祛暑劑(藥品)【ATC】瀉下劑(藥品)【ATC】清熱劑(藥品)【ATC】安神劑(藥品)【ATC】溫里劑(藥品)【ATC】化痰、止咳、平喘劑(藥品)【ATC】開竅劑(藥品)【ATC】固澀劑(藥品)【ATC】扶正劑(藥品)【ATC】止血劑(藥品)【ATC】理氣劑(藥品)【ATC】化濁降脂劑(藥品)【ATC】消導劑(藥品)【ATC】治風劑(藥品)【ATC】祛濕劑(藥品)【ATC】條數(shù)(579條)(378條)(117條)(72條)(1132條)(318條)(145條)(696條)(78條)(58條)(15

14、73條)(73條)(309條)(142條)(206條)(277條)(559條)藥品術語集遇到的問題1、ATC分類編碼無法區(qū)分中成藥和西藥解決方案:在原有的ATC編碼首位加上相應標識符(西藥為X,中成藥為Z)2、不同的產品名稱,相同的通用名,不同劑型(如注射液和滴眼液)解決方案:根據(jù)藥物的主要成分進行ATC分類藥品術語流程目錄 / CONTENTS大數(shù)據(jù)價值鏈與臨床大數(shù)據(jù)挖掘流程數(shù)據(jù)清洗/篩選/利用要點與術語圖譜的作用人機協(xié)同的、基于規(guī)范的、包含常用術語的、基 于本體的術語圖譜的構建工具與算法支撐標準指標實測指標(1)實體名稱標準化算法醫(yī)療數(shù)據(jù)質量普遍存在“一致性” 問題,具體體現(xiàn)在醫(yī)療信息系統(tǒng)

15、異 構性、數(shù)據(jù)錄入不規(guī)范等問題。醫(yī)學檢查指標舉例:以醫(yī)學檢查 指標為例,同一個指標,在不同醫(yī) 療機構、甚至同一個機構內部都有 多種名稱。實體名稱標準化算法(I)(2)不一致的常見情況格式問題格式問題13-碳呼氣試驗13-碳 呼氣試驗別名問題B型鈉尿肽腦尿鈉肽相關問題血葡萄糖1小時血葡萄糖實體名稱標準化算法(II)問題定義所有就診記錄,抽取其中的指標名稱、縮寫、參考 值、單位等字段。輸入輸出在指標名稱后添加一個“標準化名稱” 字段。指標名稱縮寫參考值單位腦利鈉肽BNP0-100Pg/ml指標名稱標準化名稱縮寫參考值單位腦利鈉肽B型鈉尿肽BNP0-100Pg/ml實體名稱標準化算法(III)工作流

16、程實體名稱標準化算法(IV)具體例子實體名稱標準化算法(V)臨床實體間上下位關系的4種類別1、下位詞對上位詞增加了修飾2、下位詞的組成部分是上位詞組成部分 的下位詞3、下位詞對上位詞增加了修飾,其組成 部分又是上位詞組成部分的下位詞4、判斷上下位關系時需要用到同義詞推 理同義詞和上下位識別算法(I)難點現(xiàn)有基于上下文路徑的識別方法依賴于詞共現(xiàn)語料,然而現(xiàn)實中的臨床實 體對缺乏足夠的詞共現(xiàn)語料NP0,如NP1、NP2 NP0是NP1和NP2的上位詞現(xiàn)有基于分布式表示的識別方法依賴于實體所在的上下文,然而現(xiàn)實中的臨床實體缺乏足夠的上下文上位詞比下位詞擁有更廣泛的上下文解決思路充分挖掘臨床實體的內部構成信息,通過對比兩實體的內部構成元素來進 行上下位關系判斷同義詞和上下位識別算法(II)思路一(知識驅動)知識圖譜構建上下位關系同義關系構成元素的細粒度識別構成元素的標

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論