版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
16/16從真實世界數(shù)據(jù)到臨床研究數(shù)據(jù)的標準轉(zhuǎn)化研究摘
要/Abstract
臨床研究中電子病例報告表(eCRF)的數(shù)據(jù)收集,傳統(tǒng)上由臨床研究協(xié)調(diào)員(CRC)閱讀電子病歷(EMR)數(shù)據(jù)將相關內(nèi)容手動錄入至電子數(shù)據(jù)采集(EDC)系統(tǒng)。為了減輕CRC的負擔,目前已有研究在探索將EMR源數(shù)據(jù)經(jīng)過數(shù)據(jù)標準化轉(zhuǎn)換直接變?yōu)檠芯繑?shù)據(jù)集的方法。EMR中大量的非結構化文本數(shù)據(jù)導致了數(shù)據(jù)提取困難,無法直接用于臨床研究。本文首先探討了國內(nèi)對于真實世界數(shù)據(jù)應用于臨床研究數(shù)據(jù)標準化的需求及困難,開發(fā)了一種數(shù)據(jù)標準化方法。本方法可以基于EMR源數(shù)據(jù),通過數(shù)據(jù)標準化的方式自動填充臨床數(shù)據(jù)交換標準協(xié)會(CDISC)標準的eCRF,并滿足監(jiān)管部門的數(shù)據(jù)遞交要求。本方法采用了我國常見的數(shù)據(jù)標準、人工智能領域的自然語言處理技術,以及提升數(shù)據(jù)質(zhì)量的創(chuàng)新型數(shù)據(jù)采集模式。其數(shù)據(jù)轉(zhuǎn)化過程的核心是根據(jù)最簡化的數(shù)據(jù)模型制定文本數(shù)據(jù)標簽指南,提高了使用自然語言處理算法的效率,優(yōu)化了其與臨床數(shù)據(jù)模型的互操作性,以及輔助提取研究中所需要的標準術語庫。
Forthedatacollectionofelectroniccasereportform(eCRF)inclinicalresearch,theclinicalresearchcoordinator(CRC)traditionallyreadstheelectronicmedicalrecord(EMR)andmanuallyentersitsrelevantcontentsintotheelectronicdatacollectionsystem(EDC).InordertoreducetheburdenofCRC,methodshasbeenexploredtodirectlytransformEMRsourcedataintoaresearchdatasetthroughdatastandardizationandtransformation.ThelargeamountofunstructuredtextdatainEMRleadstodifficultyindataextraction,whichpreventsdatafrombeingdirectlyusedinclinicalresearch.Thisstudydiscussesthedomesticneedsanddifficultiesofreal-worlddatastandardization,anddevelopsadatastandardizationframeworktosolvethedifficulties.ThedatastandardizationframeworkdevelopedcanbeusedtoautomaticallyfilltheeCRFsbasedontheCDISCstandardusingEMRsourcedatawhilesatisfyingregulatoryrequirementsfordatasubmissionauthorities.TheframeworkconsidersChina'scommondatastandards,naturallanguageprocessingtechnologyinthefieldofartificialintelligence,andinnovativedataacquisitionmodetoimprovedataquality.Thecoreaspectsofthedatatransformationprocessinthestandardizationframeworkincludetheformulationoftextdatalabelguidelinesaccordingtothesimpledatamodels,improvementoftheefficiencyofnaturallanguageprocessingalgorithms,optimizationofinteroperabilitywithclinicaldatamodelsandcaptureofstandardterminologiesusedinclinicalresearch.
關鍵詞/Keywords
真實世界數(shù)據(jù);臨床研究源數(shù)據(jù)采集;數(shù)據(jù)標準化;電子源數(shù)據(jù);符合監(jiān)管提交標準
real-worlddata;collectionofclinicalresearchsourcedata;datastandardization;electronicsourcedata;compliacewithregulatorysubmissionstandard
01、研究背景
真實世界數(shù)據(jù)(real-worlddata,RWD)是指來源于日常收集的各種與患者健康狀況和(或)診療及保健有關的數(shù)據(jù)[1-5]。目前,在我國與真實世界數(shù)據(jù)源[如電子病歷(electronicmedicalrecords,EMR)數(shù)據(jù)]相關的數(shù)據(jù)標準已逐漸從臨床文檔的基本指南演變?yōu)楦鼮橥ㄓ玫呐R床數(shù)據(jù)模型。如果不從根本上改進閱讀EMR的功能、提高臨床診療的質(zhì)量,對EMR進行數(shù)據(jù)標準化將毫無意義。因此,實施真實世界數(shù)據(jù)標準,通常是使用更標準化的數(shù)據(jù)收集方法的綜合討論結果。該方法首先要在滿足常規(guī)臨床診療數(shù)據(jù)收集要求的基礎上,通過提高數(shù)據(jù)收集的質(zhì)量,更好地利用真實世界數(shù)據(jù),例如將其用于臨床研究和臨床決策支持。
2009年12月,原衛(wèi)生部、國家中醫(yī)藥管理局發(fā)布《電子病歷基本架構與數(shù)據(jù)標準(試行)》[6],考慮到中西醫(yī)結合的病歷書寫基本規(guī)范和現(xiàn)有EMR的信息主要來源,采用目前衛(wèi)生領域已有的國際、國內(nèi)普遍應用的成熟標準,構建適用于滿足醫(yī)療衛(wèi)生機構間臨床診療信息共享的數(shù)據(jù)集以及共享文檔標準,推廣及評價數(shù)據(jù)標準的實際應用。2018年,國家衛(wèi)生健康委辦公廳發(fā)布《電子病歷系統(tǒng)應用水平分級評價標準(試行)》[7]并實施評價醫(yī)院系統(tǒng)的分級,促使各醫(yī)院均加強了醫(yī)院系統(tǒng)功能。政策發(fā)布的目的是為使2020年所有3級醫(yī)院達到分級評價4級以上(全院信息共享、初級醫(yī)療決策支持);2級醫(yī)院達到分級評價3級以上(部門間數(shù)據(jù)交換)。目前,多數(shù)醫(yī)院信息系統(tǒng)已擁有基礎的全院信息共享能力。2020年8月,國家衛(wèi)生健康委統(tǒng)計信息中心發(fā)布了《國家醫(yī)療健康信息醫(yī)院信息互聯(lián)互通標準化成熟度測評方案(2020年版)》[8],更詳細地評價了醫(yī)院平臺互聯(lián)互通標準化成熟度?;ヂ?lián)互通的評價標準,以提到的EMR數(shù)據(jù)集標準轉(zhuǎn)化成HL7臨床文檔結構(CDA)標準的電子病例共享文檔標準為主,而HL7CDA是以HL7RIM作為主要支撐的數(shù)據(jù)模型[9-10]。
如果EMR數(shù)據(jù)變得標準化且更容易獲取,臨床研究的未來將受益匪淺。然而,由于完全通過使用標準化數(shù)據(jù)元素收集數(shù)據(jù)存在一定局限性,為了充分利用EMR,需要考慮結構化和非結構化數(shù)據(jù)。標準化數(shù)據(jù)元素的使用應限于特定的用例,例如只是匯總住院患者主頁的患者病例報告,而不是擴展到所有數(shù)據(jù)元素。且標準化數(shù)據(jù)元素不適合醫(yī)生在臨床診療期間描述其完整的思維過程,通常缺乏醫(yī)生文本匯錄所需要的細節(jié)顆粒度以及臨床判斷中的推理過程。一般來說,通過使用越來越具體的數(shù)據(jù)元素或特定的詞匯進行標準化,將減少用于描述醫(yī)療活動的思維范圍,并增加選擇正確選項所需的人力成本。因此,標準化數(shù)據(jù)的工作最好由能夠更快地適應新數(shù)據(jù)模型和標準詞匯表的算法來處理,而不是對生成源數(shù)據(jù)的人員進行過多培訓。
如何提高從文本記錄中提取臨床研究數(shù)據(jù)的能力,將可能是未來數(shù)據(jù)標準化的潛在研究熱點。①與基于系統(tǒng)改變整個數(shù)據(jù)結構的更改相比,改進文本輸入的建議更容易實施。②將數(shù)據(jù)模型約束從源數(shù)據(jù)結構中分離出來可能會激發(fā)更簡單的數(shù)據(jù)建模方法,而不必采用通用數(shù)據(jù)模型,如觀察健康數(shù)據(jù)科學和信息學OMOP通用數(shù)據(jù)模型(OMOPCDM)。構建包含所有類型研究模型所付出的努力,將可能因無法實施和審核這些模型情況而失敗,或?qū)е率褂盟惴ㄌ崛∷钄?shù)據(jù)的效率低下。因此,模型就像術語一樣,需要具備關注并適應不同研究項目的能力。③可以更有效地捕獲新的思維過程或常用的醫(yī)學術語,并用于快速改進現(xiàn)有的數(shù)據(jù)模型和術語庫。④自然語言處理(naturelanguageprocessing,NLP)算法正在迅速發(fā)展,與人工相比,其可以更快地提取數(shù)據(jù)和數(shù)據(jù)上下文關系。本文旨在探索臨床研究中非結構化文本數(shù)據(jù)的電子來源(eSource)模式,并將開發(fā)一個從真實世界數(shù)據(jù)到臨床研究數(shù)據(jù)的標準化方法,用于根據(jù)臨床數(shù)據(jù)交換標準協(xié)會(CDISC)標準填寫病例報告表,并滿足數(shù)據(jù)收集中的監(jiān)管和可追溯性要求??蚣苤袘昧宋覈R姷臄?shù)據(jù)標準、人工智能領域的自然語言處理技術,以及提升數(shù)據(jù)質(zhì)量的創(chuàng)新型數(shù)據(jù)采集模式。
02、從真實世界數(shù)據(jù)到臨床研究數(shù)據(jù)標準轉(zhuǎn)化過程的概述
將真實世界數(shù)據(jù)用于臨床研究,理想的方案是能直接從醫(yī)療機構中的EMR捕獲源數(shù)據(jù)并將其傳輸?shù)脚R床研究電子病例報告表(electroniccasereportform,eCRF)的過程,真正實現(xiàn)電子數(shù)據(jù)采集(electronicdatacapture,EDC)系統(tǒng)。即需要研發(fā)一種能根據(jù)臨床研究方案中有關研究數(shù)據(jù)采集要求,在真實醫(yī)療環(huán)境中完成電子源數(shù)據(jù)記錄(eSourcerecord,ESR)的工具。其功能涵蓋臨床研究全流程,主要包括了源數(shù)據(jù)采集、數(shù)據(jù)提取和治理以及EDC和EMR對接。臨床醫(yī)師根據(jù)研究方案制定符合臨床習慣的病歷書寫規(guī)則,通過語音輸入和病史問診的病歷預填充等功能可以更高效地完成病歷記錄,利用微信公眾號等院外隨訪功能可以方便地收集院外數(shù)據(jù)。ESR可以實時自動從完成的病歷中抓取數(shù)據(jù)填充到eCRF中,同時也支持對源數(shù)據(jù)進行溯源查看。ESR充分考慮了源數(shù)據(jù)來源的多樣性、數(shù)據(jù)互操作性和數(shù)據(jù)標準化的挑戰(zhàn)。通過創(chuàng)新性地優(yōu)化臨床研究的源數(shù)據(jù)采集過程,并遵循電子源數(shù)據(jù)要求理念和藥物臨床試驗質(zhì)量管理規(guī)范(GCP)原則設計,ESR系統(tǒng)還應滿足臨床研究數(shù)據(jù)質(zhì)量標準(ALCOA+CCEA原則),同時提高臨床醫(yī)師撰寫EMR的工作效率。通過對接EMR和EDC,ESR可以靈活應對當前醫(yī)療信息水平現(xiàn)狀,實施更簡單且易于落地推廣,具有更高的規(guī)范性和可持續(xù)性。為了更好地將真實世界數(shù)據(jù)應用于臨床研究,ESR系統(tǒng)必須與EMR和EDC系統(tǒng)具有互操作性,并滿足有關數(shù)據(jù)可追溯性的法規(guī)要求[11]。
為加強系統(tǒng)之間的互操作性,在ESR系統(tǒng)內(nèi)部設置了面向不同臨床研究角色的工作界面。醫(yī)生可以選擇使用各自醫(yī)院的EMR系統(tǒng),或直接使用ESR系統(tǒng)內(nèi)的電子病歷記錄模板,即ESR和EMR。此時,若醫(yī)生希望將數(shù)據(jù)導出至各自的EMR系統(tǒng),ESR系統(tǒng)也可實現(xiàn)回傳標準化后的EMR文件。
此外,ESR系統(tǒng)還考慮了臨床研究開展過程中臨床研究協(xié)調(diào)員(clinicalresearchcoordinator,CRC)記錄CRF的工作。ESR系統(tǒng)能夠從EDC系統(tǒng)中檢索CDISC操作數(shù)據(jù)模型(CDISCODM)表單并直接展示源數(shù)據(jù)。在數(shù)據(jù)標準化的過程完成后,CRC能夠?qū)徍藛蝹€表格的預填數(shù)據(jù)是否正確,并在簽署確認后將CRF發(fā)至EDC系統(tǒng)。這樣,數(shù)據(jù)的可追溯性即可通過ESR系統(tǒng)得到保證,因為其記錄了整個數(shù)據(jù)標準化過程的軌跡,并能輔助CRC對每個CRF字段在原始文本里的記錄進行溯源。從真實世界數(shù)據(jù)到臨床研究數(shù)據(jù)的標準化流程如圖1所示,通過對原始文本進行分割和標準化,最終生成臨床研究數(shù)據(jù)集。
03、從真實世界數(shù)據(jù)到臨床研究數(shù)據(jù)標準轉(zhuǎn)化過程的實施
3.1EDC和EMR分別發(fā)送CRF和患者臨床表單至ESR系統(tǒng)
eSource流程主要涉及3個系統(tǒng):EMR、ESR和EDC系統(tǒng)。EDC系統(tǒng)以CDISCODM文件的形式傳送研究數(shù)據(jù)集和數(shù)據(jù)格式的要求,EMR系統(tǒng)則提供所需的患者電子病歷。ESR系統(tǒng)的EMR方將負責電子病歷的注釋,而ESR系統(tǒng)的EDC方將負責填寫CRF并生成可追溯的源數(shù)據(jù)以便CRC審核。
申辦方首先通過EDC系統(tǒng)將CRF以文件形式發(fā)送至ESR系統(tǒng),該文件可在ESR系統(tǒng)中呈現(xiàn)。一旦有患者入組,EMR系統(tǒng)可將受試者在研究開始后的所有電子病歷發(fā)送至ESR系統(tǒng)。
3.2研究數(shù)據(jù)集的建模及標簽生成
建模前須充分了解研究數(shù)據(jù)集的變量類型及其特征,之后才能同時對研究數(shù)據(jù)集中每個變量的域及屬性進行建模。通常,多個CDISC域可以在更高水平進行合并,且這些域往往包含相同的屬性。
建模的第1步是使用類似于比OMOPCDM的定義更為廣泛的標準,包括醫(yī)療狀況發(fā)生(conditionoccurrence)、操作發(fā)生(procedureoccurrence)、藥物暴露(exposureoccurrence)等,相當于對分類更為詳細的CDISC域進行了整合[12]。目的是提高標簽的提取效率。
第2步是將屬性與域分開建模,屬性的建模不受域的限制,以避免出現(xiàn)重復使用同一屬性描述不同域的現(xiàn)象,減少標簽數(shù)量。本研究屬性是在臨床數(shù)據(jù)獲取標準(CDASH)數(shù)據(jù)元素的類型指導下進行建模。例如手術用藥(AG)和伴隨用藥(CM)中的劑量和頻率(DOSFRQ)在CDASH中建模為AG.DOSFRQ和CM.DOSFRQ,屬性DOSFRQ是公共屬性,將成為通用數(shù)據(jù)元素(commondataelements,CDE)的屬性標簽。
第3步是標記并提取章節(jié)標題,以明確文本的基本結構。目前,我國的EMR還未能普及HL7CDA類標準文檔,最主要的原因是EMR很多都是由非結構化的沒有明確文本分段的文本數(shù)據(jù)組成。如果不對章節(jié)進行結構化,數(shù)據(jù)可能會丟失重要的背景信息,最終導致標簽錯誤、數(shù)據(jù)質(zhì)量下降。
3.3模型訓練和實體及實體間關系的提取
醫(yī)學專家和研究人員根據(jù)建模中使用的標簽編寫了標簽指南。標簽也可以稱為實體。標簽注釋工作人員由2名接受過專業(yè)訓練的研究人員組成,使用編寫好的標簽指南對EMR進行注釋,包括每個域名標簽(如藥物名稱)、屬性標簽(如劑量和頻率),以及域名稱與屬性之間的實體關系。域名稱與屬性之間的實體關系僅限制單向關系,如從域名至屬性或是從域名到其他域名稱,實體之間不能使用雙向鏈接。使用標簽、標簽位置和標簽之間的關系訓練NLP模型??焖贅擞浄椒ㄊ峭ㄟ^反復進行以下操作:①標記總樣本量的10%;②用樣本訓練NLP模型;③預先標注下一個10%的數(shù)據(jù)并進行人工修改。當NLP模型被認為足夠精準時迭代過程停止,可以將模型應用在剩余的數(shù)據(jù)提取中。
在實體抽取方面,采用雙向變形編碼器(BERT)+雙向長短期記憶神經(jīng)網(wǎng)絡(BILSTM)+條件隨機場(CRF)的命名實體識別(namedentityrecognitionmodel)[13]。實體關系抽取方面,采用生物醫(yī)學文本挖掘的雙向變形編碼器(BIO-BERT)的關系抽取模型,監(jiān)督式學習(supervisedlearning),并使用標注的實體關系進行模型優(yōu)化[14]。
3.4生成研究專用術語庫
研究專用術語庫是指標簽中實際提取得到的術語和標準術語之間的映射庫。建立專病領域研究專用術語庫,能夠同時滿足相關領域內(nèi)其他研究的術語標準化需求。建立研究專用術語庫需要有提取到的標簽、CDISCODM特定術語表(codelist)以及國際標準術語[如《國際疾病分類》(第10版)(ICD-10)]。
首先將標簽中的提取術語和CDISC代碼值整合并進行匹配。術語匹配是通過將通用標準術語庫(如ICD-10)使用OpakiBM25的推薦算法算出每個術語中單詞的分數(shù)、然后使用提取術語作為搜索術語、找到分數(shù)最高的標準術語[15]。匹配完成后,每個標準術語將作為一個組,每個單獨的組將由醫(yī)學專家在術語編輯工具內(nèi)審核,對于標準術語匹配錯誤的標簽提取術語,需要人工手動重新分配標準術語[16]。研究專用術語庫最終將生成一個詞匯表,包括了標簽、標準提取術語、標準術語代碼、標準術語代碼系統(tǒng)、原始術語、原始術語代碼和原始術語代碼系統(tǒng),允許存儲可用于填寫CRF的預先指定CDISC代碼和值。對于標簽不是文本類型的數(shù)據(jù),例如日期或數(shù)值標簽,將會制定單獨的表格用于記錄每個標簽所需的標準數(shù)據(jù)格式,這些格式由CDISCODM文件預先指定或根據(jù)數(shù)據(jù)類型自動分配。
3.5實體提取后,在填充CRF之前的規(guī)范化規(guī)則
NLP模型的輸出主要有2個表,即所有提取出的標簽值列表(實體表)和實體之間的關系列表(實體關系表)。
第1項任務是使用特定研究術語庫,將每個實體標簽標記標準值和標準標簽類型。實體表的數(shù)據(jù)元素,包括實體ID、實體值、實體值存在文本段的位置,實體標簽類型、實體標準代碼、實體標準值、標準標簽類型和跟蹤數(shù)據(jù)。跟蹤數(shù)據(jù)包括患者ID、醫(yī)療報告ID、文本段ID和記錄日期。
第2項任務是將實體關系表轉(zhuǎn)換為基于域的單條記錄。先將關系表轉(zhuǎn)換為各自的數(shù)據(jù)籃,每個數(shù)據(jù)籃都須指定數(shù)據(jù)籃ID和主實體ID。數(shù)據(jù)籃僅限于實體間的一階關系,這意味著如果存在實體A→實體B→實體C的關系,數(shù)據(jù)籃將只包括實體A→實體B,以防止數(shù)據(jù)籃中存在復雜的嵌套關系??赡軙嬖谝环N包含多個主實體的數(shù)據(jù)籃的情況,原因是其中1個主實體是另1個主實體的適應癥,例如1個疾病名稱是藥物名稱實體的適應癥(圖2)。相應的方法是將對所有主實體預先做網(wǎng)絡分析(networkanalysis)、將對于存在關系的主實體,標注相應的主實體鏈接ID,并將這種關系添加到實體關系表中。
第3項任務是合并相同的數(shù)據(jù)籃,使得患者的每個主實體有且只有1條記錄。EMR可能會重復提及同一個主實體的不同細節(jié),例如可能會2次提及相似的暴露名稱,且第2次提及的內(nèi)容可能包含更多有關劑量和頻率的細節(jié)。不同數(shù)據(jù)籃合并不能僅依靠主實體標準代碼和醫(yī)療報告ID的匹配,例如左眼眼壓檢查和右眼眼壓檢查的數(shù)據(jù)籃無法合并。因此,需要為每個主要的數(shù)據(jù)域(域標簽)分別編寫規(guī)則。只有檢查名稱(主實體)和位置實體(屬性實體)以及醫(yī)療報告ID都匹配才能合并數(shù)據(jù)籃。數(shù)據(jù)籃的合并可能出現(xiàn)以下4種情況:①信息不足:是指數(shù)據(jù)籃無法體現(xiàn)其唯一性。②不同身份信息:是指在有支持不同數(shù)據(jù)籃合并的屬性實體。③沖突信息:是指可以對數(shù)據(jù)籃進行合并但有些數(shù)據(jù)互相沖突。④可確認信息:是指可合并的數(shù)據(jù)籃間的數(shù)據(jù)存在不同但不屬于沖突。以上4種情況中,只有可確認信息和不同身份信息下的數(shù)據(jù)籃能夠合并,并生成最終的事實表。事實表由事實ID、主要實體ID、主要實體標準標簽類型、實體ID、實體標簽類型、實體標準值和跟蹤數(shù)據(jù)(醫(yī)療報告ID和章節(jié)文本位置)的元素組成。最后,事實表中根據(jù)主要實體標準標簽類型和實體標簽類型映射到適當?shù)腃DISCCDASH數(shù)據(jù)元素中,用于CRF表的預填充。
04、討
論
4.1互操作性方面的注意事項
改進系統(tǒng)間的互操作性是實現(xiàn)RWD標準化的關鍵。從既往研究的經(jīng)驗來看,確保各系統(tǒng)間傳達數(shù)據(jù)的意義一致的同時簡化審核過程,就可以實現(xiàn)互操作性。
在本研究中,EMR和EDC系統(tǒng)通過元數(shù)據(jù)標準(如HL7CDA和CDISCODM)傳遞數(shù)據(jù)。現(xiàn)階段最大的障礙是醫(yī)院病歷系統(tǒng)供應商早在制定行業(yè)標準之前就建立了自己的系統(tǒng),導致缺乏可用于數(shù)據(jù)交換的標準。在我國,雖然監(jiān)管機構一直致力于推進醫(yī)院數(shù)據(jù)互聯(lián)互通,通過對醫(yī)院數(shù)據(jù)共享能力進行評級等方式,以期提高其運用標準[17]。但由于醫(yī)院間數(shù)據(jù)共享活動并不活躍,HL7CDA標準尚未得到廣泛應用。另一方面,CDISCODM在EDC系統(tǒng)中作為表示CRF的方式得到了很好的實現(xiàn),但由于缺乏要求,可能會偏離CDASH標準命名方法對其數(shù)據(jù)字段的嚴格使用。ESR平臺已考慮到這些限制,特別是對于EMR數(shù)據(jù),通過標記和提取每個報告中的章節(jié)完成基本文檔的結構化,建立EMR文檔所需要的標準HL7形式的元數(shù)據(jù)。在本研究中,不需要對CDISCODM文件進一步標準化,但未來希望可以通過NLP使用CDASH標準對未標準化的CRF進行注釋。
為了確認數(shù)據(jù)意義是否準確、是否能被研究團隊理解,本研究關注了使CRC能夠方便審核每個CRF表格、提供可視化的溯源界面、能簡單在電子文件上簽字并發(fā)送回EDC系統(tǒng)。因為系統(tǒng)記錄了整個數(shù)據(jù)標準化過程,可追溯性可以通過ESR平臺得到保證,并允許CRC為每個CRF字段顯示是從臨床文檔中何處提取的。目前,本課題組正在致力于通過將臨床研究助理(CRA)和數(shù)據(jù)管理者(DM)的質(zhì)疑傳回ESR系統(tǒng),以使研究團隊能夠?qū)υ磾?shù)據(jù)或填充的數(shù)據(jù)提出疑問,從而更好地簡化數(shù)據(jù)審核流程。
4.2臨床研究數(shù)據(jù)建模注意事項
在研究標簽的開發(fā)過程中,通過對主要實體(域名)進行分類以及重復利用屬性實體來減少標簽數(shù)量。采用這種簡單模型能使NLP在提取臨床文檔實體時更加高效。主要實體(域名)使用定義更廣泛的分類不僅增加了標簽的通用性,也可通過研究專用術語庫保留原始提取術語值的特異性,以確保不會丟失原始重要信息。未來還可以從觀測指標標識符邏輯命名與編碼系統(tǒng)(LOINC)和臨床醫(yī)學系統(tǒng)術語(SNOMED-CT)等術語系統(tǒng)中學習更多關于不同領域數(shù)據(jù)辨認實體獨特屬性的方法。由于ICD-11等標準術語的較新版本通過選擇多個屬性來識別獨特的領域概
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024家裝裝修合同模板
- 誠信苗木購銷協(xié)議
- 浙江省七年級上學期語文期中測試仿真模擬試卷5套【附答案】
- 2024工廠承包合同協(xié)議書
- 簡易買賣合同模板2024年
- 廣東省房產(chǎn)交易合同中介版
- 600字標準委托加工協(xié)議書
- 雙邊工程合作合同范本
- 建筑工程拆除協(xié)議
- 跨國合資銷售代理協(xié)議
- 小學英語就業(yè)能力展示
- 心肌病和心肌炎課件
- 《艾滋病毒》課件
- 平陽港區(qū)西灣作業(yè)區(qū)防浪導流堤工程海域使用論證報告書
- 管道保溫計算公式
- 錄音行業(yè)的就業(yè)生涯發(fā)展報告
- 報廢汽車拆解工藝流程
- 生化報告解讀
- 胃癌科普講座課件
- 熔煉車間工安全培訓
- 《多彩的職業(yè)》參考課件
評論
0/150
提交評論