臨床醫(yī)學(xué)數(shù)據(jù)的分析方法與利用_第1頁(yè)
臨床醫(yī)學(xué)數(shù)據(jù)的分析方法與利用_第2頁(yè)
臨床醫(yī)學(xué)數(shù)據(jù)的分析方法與利用_第3頁(yè)
臨床醫(yī)學(xué)數(shù)據(jù)的分析方法與利用_第4頁(yè)
臨床醫(yī)學(xué)數(shù)據(jù)的分析方法與利用_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、臨床醫(yī)學(xué)數(shù)據(jù)的分析方法與利用摘要本文使用循證醫(yī)學(xué)方法,對(duì)“臨床醫(yī)學(xué)數(shù)據(jù)的分析方法與利用”主題進(jìn)行取詞檢索,檢索中國(guó)生物醫(yī)學(xué)中國(guó)知網(wǎng)四大主流中文數(shù)據(jù)庫(kù),納入相關(guān)文獻(xiàn)進(jìn)行分析。從臨床數(shù)據(jù)的分析流程、臨床數(shù)據(jù)的分析 方法、數(shù)據(jù)在醫(yī)療領(lǐng)域的利用以及面臨的挑戰(zhàn)等幾個(gè)方面展 開討論并加以歸納,為醫(yī)療大數(shù)據(jù)時(shí)代的臨床數(shù)據(jù)管理提供 參考。關(guān)鍵詞臨床數(shù)據(jù);數(shù)據(jù)分析;數(shù)據(jù)利用中圖分類號(hào) R19 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào)1673-7210(2017)12(b)-0163-05Abstract Based on the theory of theevidence-based medicine,the relevant

2、 information of thetopic“analysis and utilization of clinical data”was searched. Sinomed,Wanfang Data,VIP and ChineseNational Knowledge Infrastructure databases weresearched to comprehensively collect relatedarticles.The paper elaborates the following aspects processing,thestatistical analysis and u

3、tilization of the clinical data inthe medical field as well asthe datathe confronting problems,in order to provide somereferences about clinical data management in theforthcoming years for big medical data.utilization隨著醫(yī)療技術(shù)的飛速發(fā)展以及醫(yī)療大數(shù)據(jù)時(shí)代的到來,面對(duì)激增的海量臨床數(shù)據(jù), 臨床數(shù)據(jù)管理的重要性日益凸 顯。2000年美國(guó)公布了臨床研究數(shù)據(jù)管理規(guī)范 ,并進(jìn)行 了多次后

4、續(xù)修訂,該規(guī)范對(duì)所有臨床研究的數(shù)據(jù)收集流程、 不良事件報(bào)告、數(shù)據(jù)質(zhì)量控制、文件的分類歸檔以及數(shù)據(jù)管理培訓(xùn)等進(jìn)行了明確的規(guī)定1。1999年我國(guó)頒布藥品臨 床試驗(yàn)管理規(guī)范 (good clinical practice臨床試驗(yàn)數(shù)據(jù)應(yīng)正確無誤并及時(shí)地錄入分析,確保臨床數(shù)據(jù)質(zhì)量以及數(shù)據(jù)的可溯源性2。2003年我國(guó)GCP參照國(guó)際公驟均需記錄在案, 以便對(duì)數(shù)據(jù)質(zhì)量及試驗(yàn)實(shí)施進(jìn)行檢查 據(jù)管理應(yīng)用適當(dāng)?shù)某绦虮WC數(shù)據(jù)庫(kù)的保密性, 具有計(jì)算機(jī)數(shù) 據(jù)庫(kù)的維護(hù)和支持程序” ,可更加強(qiáng)調(diào)臨床數(shù)據(jù)的可溯源性3。2016年,國(guó)家頒布國(guó)務(wù)院辦公廳關(guān)于促進(jìn)和規(guī)范健 康醫(yī)療大數(shù)據(jù)應(yīng)用發(fā)展的指導(dǎo)意見 ,提出健康醫(yī)療大數(shù)據(jù) 作為國(guó)家

5、重要的基礎(chǔ)性戰(zhàn)略資源,規(guī)范并推動(dòng)其融合共享, 開放應(yīng)用勢(shì)在必行4。Key words Clinical data;Data analysis;Data,GCP,規(guī)定認(rèn)原則進(jìn)行了重新修訂, 指出“所有涉及數(shù)據(jù)管理的各種步” “數(shù)現(xiàn)今對(duì)“醫(yī)療大數(shù)據(jù)”的分析方法日新月異,常用的臨床數(shù)據(jù)分析技術(shù)涉及到很多學(xué)科,包括醫(yī)學(xué)統(tǒng)計(jì)學(xué)、職業(yè)流行病學(xué)等,因此如何提取不同類型的臨床資料對(duì)有用的信息1臨床數(shù)據(jù)分析流程集方式往往使用病例報(bào)告表,包括紙質(zhì)病例報(bào)告表和電子病 例報(bào)告表,前者包含了大量的非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù) 據(jù),非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)或記錄格式未經(jīng)標(biāo)準(zhǔn)化的一種 數(shù)據(jù)形式,通常采用了自然語言錄入的方式; 半

6、結(jié)構(gòu)化數(shù)據(jù) 是部分結(jié)構(gòu)化了的數(shù)據(jù)形式, 相對(duì)于結(jié)構(gòu)化數(shù)據(jù),其構(gòu)成更 為復(fù)雜和不確定8。為了使這兩類數(shù)據(jù)更規(guī)范明了且有利于分析統(tǒng)計(jì),需要通過語義分析以及數(shù)據(jù)提取將非結(jié)構(gòu)化數(shù) 據(jù)或半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù)7。20世紀(jì)80年代開 始臨床數(shù)據(jù)的采集開始逐步使用電子數(shù)?采集系統(tǒng),方便研究者創(chuàng)建結(jié)構(gòu)化的電子病歷系統(tǒng),通過該系統(tǒng),患者個(gè)體的醫(yī)療信息更加一目了然,有利于臨床醫(yī)生對(duì)病史進(jìn)行追根溯臨床數(shù)據(jù)庫(kù)通過醫(yī)院信息系統(tǒng)、實(shí)驗(yàn)室信息系統(tǒng)、放射信息管理系統(tǒng)及醫(yī)學(xué)影像存檔與通訊系統(tǒng)等采集臨床數(shù)據(jù),囊括患者從入院到出院的所有診療信息。通過臨床數(shù)據(jù)庫(kù)可進(jìn)行分析和利用是臨床數(shù)據(jù)管理的重要命題5。臨床數(shù)據(jù)除具有 “大數(shù)

7、據(jù)” 的特征外,還具有不完整性、冗余性、非標(biāo)準(zhǔn)化、隱私性、價(jià)值高的特點(diǎn)6-7。數(shù)據(jù)采源,并能夠在此基礎(chǔ)上建立臨床數(shù)據(jù)庫(kù)1。以構(gòu)建臨床數(shù)據(jù)中心,醫(yī)務(wù)人員及臨床科研人員可以對(duì)臨床 數(shù)據(jù)進(jìn)行實(shí)時(shí)處理,并在數(shù)據(jù)交換平臺(tái)實(shí)現(xiàn)數(shù)據(jù)橫向或縱向 的共享或流動(dòng)。大規(guī)模的醫(yī)療數(shù)據(jù)集成臨床數(shù)據(jù)中心,利用 臨床數(shù)據(jù)采集分析軟件可以對(duì)海量的醫(yī)療大數(shù)據(jù)進(jìn)行統(tǒng)計(jì) 學(xué)分析、數(shù)據(jù)挖掘、醫(yī)學(xué)建模,完成臨床數(shù)據(jù)的分析報(bào)告和臨床研究報(bào)告,再通過知識(shí)挖掘構(gòu)建規(guī)則庫(kù)和知識(shí)庫(kù),有利 另外,現(xiàn)有醫(yī)院在不斷更新臨床數(shù)據(jù)中心的同時(shí)又加入“臨 床數(shù)據(jù)分析引擎”模塊和數(shù)據(jù)監(jiān)測(cè)環(huán)節(jié),當(dāng)然這也對(duì)醫(yī)院各 系統(tǒng)的兼容性提出了更高要求9。2數(shù)據(jù)分析 高質(zhì)量臨

8、床數(shù)據(jù)的獲得是臨床數(shù)據(jù)管理的基本要求,臨床數(shù)據(jù)必須是真實(shí)可信的,并且必須和研究目的相關(guān),還要 適合于統(tǒng)計(jì)分析10。臨床數(shù)據(jù)分析具體過程可分為采集、 導(dǎo)入、統(tǒng)計(jì)和分析、數(shù)據(jù)挖掘。數(shù)據(jù)挖掘技術(shù)包括醫(yī)療大數(shù) 據(jù)的預(yù)處理、算法(人工神經(jīng)網(wǎng)絡(luò)、決策樹分析、隨機(jī)森林 算法、聚類分析、貝葉斯算法等) 、醫(yī)學(xué)建模、大數(shù)據(jù)的快 速檢索與處理、數(shù)據(jù)安全等。2.1一般統(tǒng)計(jì)學(xué)分析 在臨床研究中應(yīng)用最廣泛的是隨機(jī)對(duì)照試驗(yàn),在數(shù)據(jù)分析時(shí),不同統(tǒng)計(jì)方法對(duì)結(jié)果的解釋也不同,因此通過不同的 資料類型選擇適當(dāng)?shù)慕y(tǒng)計(jì)學(xué)方法尤為重要。循證醫(yī)學(xué)對(duì)隨機(jī)于臨床知識(shí)的管理, 這樣又形成了知識(shí)管理的循環(huán)鏈圖1)。對(duì)照試驗(yàn)所獲得的數(shù)據(jù)進(jìn)行Met

9、a分析,將主題詞加自由詞組合,通過循證醫(yī)學(xué)方法在數(shù)據(jù)庫(kù)中大范圍檢索相關(guān)文獻(xiàn),將同質(zhì)性高的文獻(xiàn)數(shù)據(jù)進(jìn)行合并,計(jì)算合并效應(yīng)量。2.2數(shù)據(jù)挖掘數(shù)據(jù)挖掘在研究領(lǐng)域中被稱作“數(shù)據(jù)庫(kù)中知識(shí)的發(fā)現(xiàn)”11。醫(yī)學(xué)數(shù)據(jù)挖掘是從大量醫(yī)學(xué)數(shù)據(jù)中通過各種算法來尋 找疾病新規(guī)律的過程。數(shù)據(jù)挖掘技術(shù)包涵多種算法,不同樣 本類型通過不同算法對(duì)臨床數(shù)據(jù)進(jìn)行分類,建立醫(yī)學(xué)模型。大數(shù)據(jù)的分析需要與計(jì)算機(jī)技術(shù)結(jié)合,機(jī)器學(xué)習(xí)就是統(tǒng)計(jì) 學(xué)、算法理論與人工智能結(jié)合的一門交叉學(xué)科,并在當(dāng)今無 人駕駛技術(shù)、人類基因組技術(shù)中獲得大力發(fā)展。人工神經(jīng)網(wǎng)絡(luò)算法是模仿大腦神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)建立的信息處理方法,它的特征是“計(jì)算機(jī)代碼+數(shù)學(xué)函數(shù)”,它的學(xué)習(xí),獲

10、取特征信息和參數(shù)后建立人工神經(jīng)網(wǎng)絡(luò),新的數(shù)據(jù) 通過神經(jīng)網(wǎng)絡(luò)計(jì)算出對(duì)應(yīng)的輸出, 這就是“感知器學(xué)習(xí)規(guī)則”12。例如要評(píng)價(jià)A家不同醫(yī)院的醫(yī)療水平,可以先用B家醫(yī)院的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),醫(yī)護(hù)人員、床位、就診數(shù)量和死 亡率5個(gè)指標(biāo)作為輸入(X),B家醫(yī)院建立的知識(shí)庫(kù)作為突出權(quán)值(W,經(jīng)過處理得到輸出(丫),經(jīng)學(xué)習(xí)后網(wǎng)絡(luò)會(huì)自動(dòng) 處理A家醫(yī)院的數(shù)據(jù)(圖2)。決策樹算法和支持向量機(jī)與神經(jīng)網(wǎng)絡(luò)算法較相似,都是學(xué)習(xí)型的機(jī)制,是兩種常用的數(shù)據(jù)分類方法。決策樹算法通 過構(gòu)建決策樹分類器處理不同的數(shù)據(jù)類型,計(jì)算出各特征屬 性的信息增益后,選取本質(zhì)是“學(xué)習(xí)” ,將訓(xùn)練數(shù)據(jù)在一定的“學(xué)習(xí)規(guī)則中進(jìn)行信息增益最大的特征屬性作為

11、節(jié)點(diǎn), 生成“樹狀結(jié)構(gòu)” 圖13。當(dāng)數(shù)據(jù)量龐大到高通量多指標(biāo) (如 人類基因表達(dá)譜)時(shí),提取特征屬性越發(fā)不易,此時(shí)便由決 策樹算法引申出隨機(jī)森林法的概念,是基于決策樹算法的學(xué) 習(xí)方法,對(duì)樹的每個(gè)節(jié)點(diǎn)的特征空間做一次窮盡搜索,將生成的多棵決策樹組成隨機(jī)森林,分類結(jié)果按樹分類器的投票 多少?zèng)Q定14;支持向量機(jī)是使用核函數(shù)將非線性數(shù)據(jù)投射 到一個(gè)更高維的空間里即“升維” (從一維到二維,從二維 到三維,從n維到n+1維)進(jìn)行運(yùn)算,運(yùn)用泛函的方法可以 將極小的樣本量推演出全體的數(shù)據(jù)15,支持向量機(jī)堪稱最 有效的數(shù)據(jù)分類工具16。聚類分析屬于多元統(tǒng)計(jì)分析方法,常用于中醫(yī)證型的辨證分析,主要分為K均值聚類

12、法和系統(tǒng)聚類法,常用的統(tǒng)計(jì) 量是距離和相似系數(shù)。K均值聚類法是指定某些觀測(cè)點(diǎn)凝聚 為初始點(diǎn),計(jì)算初始分類的中心位置進(jìn)行聚類,再次計(jì)算中 心位置并反復(fù)循環(huán),直到中心位置很小為止;系統(tǒng)聚類是將 樣本間距離最小的合并為一類,計(jì)算與其他類的距離后再進(jìn) 行最小距離的合并, 每次減少一類, 直至合并為一大類17。貝葉斯算法是建立在概率學(xué)的基礎(chǔ)上的統(tǒng)計(jì)學(xué)方法,被稱為“統(tǒng)計(jì)學(xué)歷史上的飛躍” ,是解釋性建模和描述性建模的又一新工具,對(duì)疾病數(shù)據(jù)的研究很有幫助,可以用來表示疾病與相關(guān)癥狀之間關(guān)系的概率,形成的貝葉斯網(wǎng)絡(luò)是一種2.3醫(yī)學(xué)建模 醫(yī)學(xué)建模是臨床大數(shù)據(jù)通過數(shù)學(xué)模型的建立尋找疾病發(fā)生發(fā)展的規(guī)律,即對(duì)醫(yī)學(xué)數(shù)據(jù)進(jìn)

13、行模式識(shí)別,模式識(shí)別是 模式識(shí)別方法: 解釋性數(shù)據(jù)建模、 描述性建模、 預(yù)測(cè)性建模、 知識(shí)性建模、序列模式建模、依賴關(guān)系建模、異常與趨勢(shì)建 模。解釋性模型的本質(zhì)是模糊建模19,通俗地講就是對(duì)事物進(jìn)行歸因分析,找尋一個(gè)模糊集合中的共性得出一個(gè)普適 規(guī)律,最具有代表性的應(yīng)用是指紋和人像識(shí)別技術(shù),也應(yīng)用 于醫(yī)療決策支持20;描述性建模是從許多描述性數(shù)據(jù)(如 身高、體重)入手,從具體到抽象、從特殊到一般地對(duì)事物 進(jìn)行歸納和演繹(即身高與體重的關(guān)系); 預(yù)測(cè)性建模是通 過整合現(xiàn)有的大數(shù)據(jù)對(duì)未來事件進(jìn)行預(yù)測(cè),最著名的案例是 谷歌公司在2009年建立的流感預(yù)測(cè)平臺(tái)運(yùn)用人才思維模型 預(yù)測(cè)流感爆發(fā)21;知識(shí)性建

14、模是利用先驗(yàn)的知識(shí)經(jīng)驗(yàn)來進(jìn)行新規(guī)律的發(fā)現(xiàn),可用于我國(guó)中醫(yī)學(xué)中大量古方的數(shù)據(jù)篩選22;序列模式建模和依賴關(guān)系建模比較類似,是對(duì)多因素有向無環(huán)圖,兩個(gè)節(jié)點(diǎn)間以單箭頭連接,其中個(gè)節(jié)點(diǎn)是因”,而另一個(gè)節(jié)點(diǎn)是“果”圖3)。將具體事物歸到某一類別的過程18。 般醫(yī)學(xué)數(shù)據(jù)有7種中的兩組或幾組進(jìn)行分析,得出不同的因素之間是關(guān)聯(lián)、共 生還是依賴關(guān)系;異常與趨勢(shì)模型是利用數(shù)據(jù)的離散值來判 讀事件發(fā)生風(fēng)險(xiǎn)的模型。2.4數(shù)據(jù)分析軟件Stata、Sigmaplot、Graphpad Prism、Origin等,這些軟件不僅支持統(tǒng)計(jì)學(xué)分析,還帶有繪圖功能。循證醫(yī)學(xué)常用分析 軟件有Endnote文?1管理軟件、Review

15、 Manager分析軟件等。數(shù)據(jù)挖掘軟件中許多是建立在多種計(jì)算機(jī)語言上的,例 如R語言是一個(gè)用于統(tǒng)計(jì)計(jì)算的開源軟件,也是提取臨床數(shù)據(jù)的良好工具;建立在SQL語言檢索基礎(chǔ)上的軟件MicrosoftSQL server,為臨床數(shù)據(jù)模型建立提供科學(xué)依據(jù);感知器學(xué)更為實(shí)用。3數(shù)據(jù)利用 美國(guó)是世界上最早關(guān)注臨床數(shù)據(jù)利用的國(guó)家之一,20世臨床研究中般統(tǒng)計(jì)分析軟件有Excel、SPSS、SAS、習(xí)規(guī)則中常用到Python語言。SPSS SAS和Stata除了用于般統(tǒng)計(jì), 也可用于數(shù)據(jù)挖掘,另外還有Weka軟件、Matlab軟件等。對(duì)于臨床工作者而言SPSS、SAS、Matlab、Weka紀(jì)70年代美國(guó)啟用醫(yī)院信息系統(tǒng),較早開始了醫(yī)療信息化, 進(jìn)醫(yī)療數(shù)據(jù)的再利用,2013年美國(guó)醫(yī)學(xué)信息年報(bào)通過調(diào) 查研究歸納出臨床信息學(xué)的6類主題,其中包括了臨床數(shù)據(jù) 的再利用研究和數(shù)據(jù)管理23-25。目前,臨床數(shù)據(jù)的應(yīng)用方向是醫(yī)院臨床數(shù)據(jù)中心與“互聯(lián)網(wǎng)+”醫(yī)療大數(shù)據(jù)平臺(tái)的構(gòu)建。醫(yī)療大數(shù)據(jù)平臺(tái)的服務(wù)對(duì)象包括:醫(yī)務(wù)人員、患者、 管理者和研究人員。美國(guó)作為最早涉及這一領(lǐng)域的國(guó)家,建成了第一個(gè)也是最大的臨床研究和社區(qū)治療項(xiàng)目相結(jié)合的建設(shè)醫(yī)療大數(shù)據(jù)應(yīng)用平臺(tái)具體可以應(yīng)用于數(shù)據(jù)查詢分析、健 康

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論