醫(yī)學(xué)信息數(shù)據(jù)庫的建立與數(shù)據(jù)挖掘_第1頁
醫(yī)學(xué)信息數(shù)據(jù)庫的建立與數(shù)據(jù)挖掘_第2頁
醫(yī)學(xué)信息數(shù)據(jù)庫的建立與數(shù)據(jù)挖掘_第3頁
醫(yī)學(xué)信息數(shù)據(jù)庫的建立與數(shù)據(jù)挖掘_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、醫(yī)學(xué)信息數(shù)據(jù)庫的建立與數(shù)據(jù)挖掘【關(guān)鍵詞】 醫(yī)學(xué)信息關(guān)鍵詞: 醫(yī)學(xué)信息;數(shù)據(jù)倉庫;數(shù)據(jù)挖掘;數(shù)據(jù)組織0 引言計(jì)算機(jī)和信息技術(shù)在醫(yī)學(xué)領(lǐng)域中的應(yīng)用,形成了現(xiàn)代醫(yī)學(xué)中一個(gè)新的邊緣學(xué)科 醫(yī)學(xué)信息學(xué)或醫(yī)藥信息學(xué)(medical informatics),進(jìn)而成為生物醫(yī)學(xué)工程學(xué)的重要支柱.醫(yī)學(xué)信息涵蓋了醫(yī)學(xué)活動(dòng)中產(chǎn)生的文字、圖像、聲音以及電磁波、光波、壓力、溫度等多媒體物理數(shù)據(jù),這些數(shù)據(jù)在計(jì)算機(jī)和數(shù)據(jù)庫技術(shù)的支持下,已成為醫(yī)學(xué)技術(shù)領(lǐng)域?qū)嵤┛茖W(xué)管理和科學(xué)研究的重要資源.數(shù)據(jù)倉庫(data warehouse,DW)與數(shù)據(jù)挖掘(data mining,DM)技術(shù)的出現(xiàn)1 ,為醫(yī)務(wù)管理人員、科研工作者分析、利用這

2、些數(shù)據(jù)資源進(jìn)行科學(xué)管理、決策和開展大規(guī)模、高水平醫(yī)學(xué)研究提供了有力的技術(shù)工具.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)已在國外一些大型企業(yè)中得到了成功應(yīng)用,國內(nèi)一些企業(yè)也已開始著手這方面的投資,有的并得到了可喜的回報(bào).由于醫(yī)學(xué)技術(shù)具有很強(qiáng)的實(shí)踐性、實(shí)驗(yàn)性、統(tǒng)計(jì)性,是一門驗(yàn)證科學(xué),浩瀚的醫(yī)學(xué)資源要用現(xiàn)代技術(shù)去組織、去分析、去利用,因此,探索數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)信息方面的應(yīng)用就具有更重要的實(shí)用價(jià)值和廣闊的發(fā)展前景.1 問題的提出目前,醫(yī)學(xué)信息的處理大多停留在基于數(shù)據(jù)庫技術(shù)支持的操作型事務(wù)處理的水平上,如數(shù)據(jù)的查詢、修改等,是為特定的應(yīng)用服務(wù)的.而建立在數(shù)據(jù)庫技術(shù)之上的分析型信息處理最典型的應(yīng)用是一些醫(yī)學(xué)診斷

3、方面的專家系統(tǒng)(expert system,ES),其數(shù)據(jù)資源僅僅是某一方面的專家知識(shí),涉及的數(shù)據(jù)量很小,覆蓋面也很窄.那么,擺在我們面前這個(gè)巨大的醫(yī)學(xué)資源寶庫究竟能為我們做些什么呢?例如,醫(yī)院信息系統(tǒng)(hospital information system,HIS),它是醫(yī)學(xué)信息學(xué)的一個(gè)分支,分為管理信息系統(tǒng)(management informa-tion system,MIS)和臨床信息系統(tǒng)(clinical information sys-tem,CIS).前者主要處理醫(yī)院內(nèi)部管理方面的信息如人事、財(cái)務(wù)和設(shè)備管理等,而后者是以處理患者為中心的信息系統(tǒng),如患者入院、住院、治療、檢查、病歷、

4、出院等一系列與患者有關(guān)的信息.那么,這兩類系統(tǒng)能否滿足下列要求呢?如果醫(yī)院明年利潤目標(biāo)要增長5%,哪些前提條件變化才能達(dá)到這一目標(biāo)?此外還需采取哪些措施來實(shí)現(xiàn)這些變化?未來某段時(shí)間內(nèi)哪些藥品使用的頻度最高或最低?以及與治療疾病間的關(guān)系?未來某段時(shí)間內(nèi)哪些疾病是常發(fā)病或發(fā)病率最高?使用的藥物主要有哪些?如何組織急需藥品的供應(yīng)?環(huán)境、氣候、地理位置與流行病間的關(guān)系?利用現(xiàn)有信息系統(tǒng)要回答這些問題是困難的,有些甚至是不可能的.然而,利用數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)就可以輕而易舉地找到問題的答案.因此,建立數(shù)據(jù)倉庫與利用數(shù)據(jù)挖掘技術(shù)對(duì)于開展科學(xué)研究,提高醫(yī)學(xué)技術(shù)水平是很有必要的.2 數(shù)據(jù)倉庫的建立所謂數(shù)據(jù)倉

5、庫是支持管理決策過程的、面向主題的、集成的、與時(shí)間有關(guān)的、持久的數(shù)據(jù)集合,它以傳統(tǒng)的數(shù)據(jù)庫技術(shù)作為存儲(chǔ)數(shù)據(jù)和管理資源的基本手段,以統(tǒng)計(jì)分析技術(shù)作為分析數(shù)據(jù)和提取信息的有效方法,以人工智能技術(shù)作為挖掘知識(shí)和發(fā)現(xiàn)規(guī)律的科學(xué)途徑,是與網(wǎng)絡(luò)通信技術(shù)、面向?qū)ο蠹夹g(shù)、并行技術(shù)、多媒體技術(shù)、人工智能技術(shù)等相互浸透、互相結(jié)合與綜合應(yīng)用的技術(shù).創(chuàng)建基于HIS的數(shù)據(jù)倉庫,是從已有數(shù)據(jù)出發(fā)的數(shù)據(jù)倉庫的設(shè)計(jì)方法,稱之為“數(shù)據(jù)驅(qū)動(dòng)”的系統(tǒng)設(shè)計(jì)方法聯(lián)系重新考慮,組織數(shù)據(jù)倉庫中的主題,利用數(shù)據(jù)模型有效地識(shí)別數(shù)據(jù)和數(shù)據(jù)倉庫中的主題,它的基本思路是:利用以前建設(shè)的數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù),按照分析領(lǐng)域?qū)?shù)據(jù)及數(shù)據(jù)之間的的數(shù)據(jù)的“共同性

6、”(即建立主題間相互聯(lián)系的屬性).其創(chuàng)建的基本方法如Fig1所示2 .圖1 略從圖中看出,數(shù)據(jù)倉庫的設(shè)計(jì)是一個(gè)動(dòng)態(tài)的、循環(huán)的過程,在系統(tǒng)設(shè)計(jì)初級(jí)階段,人們對(duì)系統(tǒng)的分析需求不能預(yù)先作出規(guī)范說明,只能給出一個(gè)抽象的模糊的描述,數(shù)據(jù)倉庫的內(nèi)容、結(jié)構(gòu)、粒度、分割以及其他物理設(shè)計(jì)根據(jù)用戶反饋信息再不斷地調(diào)整和完善.2.1 主題抽取 數(shù)據(jù)倉庫中數(shù)據(jù)的組織是面向主題的3 .它是在較高層次上對(duì)分析對(duì)象的數(shù)據(jù)的一個(gè)完整的、一致的描述,能完整、統(tǒng)一地刻畫各個(gè)分析對(duì)象所涉及的各項(xiàng)數(shù)據(jù)以及數(shù)據(jù)之間的關(guān)系.可以說,主題定義的過程就是數(shù)據(jù)倉庫模型建立的過程.2.1.1 系統(tǒng)邊界確定 由于數(shù)據(jù)倉庫建立初期很難獲得明確而又詳

7、細(xì)的需求,系統(tǒng)設(shè)計(jì)人員只能得到一些基本的方向性的需求信息,如決策的類型、決策者感興趣的問題、解決這些問題需要哪些信息,這些信息需要包含原有數(shù)據(jù)庫系統(tǒng)的哪些部分的數(shù)據(jù)等等.這就是數(shù)據(jù)倉庫設(shè)計(jì)過程中的需求分析,稱之為系統(tǒng)邊界界定,以此作為確定主題的基本依據(jù).2.1.2 主題的確定 根據(jù)有關(guān)軍衛(wèi)1號(hào)工程設(shè)計(jì)思想和實(shí)施細(xì)則的報(bào)道,HIS幾乎涵蓋MIS和CIS的方方面面,涉及范圍廣泛,內(nèi)容豐富全面,可以從管理角度、從科學(xué)研究的角度,確定若干個(gè)主題如患者、藥品、門診、檢驗(yàn)等,作為管理決策和科研分析的數(shù)據(jù)來源.例如:患者:患者固有信息:患者標(biāo)識(shí)號(hào),住院號(hào),姓名,性別,出生年月,文化程度,身份證號(hào),住址,電話

8、患者住院信息:患者標(biāo)識(shí)號(hào),入院科室、職業(yè)、身份、費(fèi)別、在職標(biāo)志、醫(yī)保類別、醫(yī)療保險(xiǎn)號(hào)、工作單位、門診醫(yī)師藥品:藥品固有信息:藥品編碼,藥品名稱,規(guī)格、單位、劑型、毒理分類、標(biāo)準(zhǔn)劑量、材質(zhì)分類、用藥梯次、價(jià)格系數(shù)藥品采購信息:藥品編碼、藥品名稱、規(guī)格、單位、劑型、市場批發(fā)價(jià)、市場零售價(jià)、貨源足缺、包裝規(guī)格2.2 數(shù)據(jù)組織 數(shù)據(jù)倉庫中的數(shù)據(jù)分為早期細(xì)節(jié)級(jí)、當(dāng)前細(xì)節(jié)級(jí)、輕度綜合級(jí)和高度綜合級(jí)4個(gè)級(jí)別,各個(gè)級(jí)別的數(shù)據(jù)根據(jù)需要?jiǎng)澐譃椴煌牧6? .所謂粒度是對(duì)數(shù)據(jù)倉庫中數(shù)據(jù)的綜合能力的度量,它既影響倉庫中數(shù)據(jù)量的多少,也影響數(shù)據(jù)倉庫所能回答的問題多少,粒度越小,細(xì)節(jié)程度越高,綜合程度越低,回答查詢的種類

9、越多.各個(gè)級(jí)別的數(shù)據(jù)是隨著時(shí)間的變化而變化的,也就是以時(shí)間段來區(qū)分不同的細(xì)節(jié).當(dāng)數(shù)據(jù)按照時(shí)間段劃分完成后,無論是主題還是主題之間的聯(lián)系,都用關(guān)系來表示,也就是說數(shù)據(jù)倉庫的數(shù)據(jù)最終也表現(xiàn)為關(guān)系,其數(shù)據(jù)的組織通過關(guān)系數(shù)據(jù)庫實(shí)現(xiàn),因此,數(shù)據(jù)倉庫的邏輯模型就是關(guān)系模型,即用二維表表示一個(gè)主題或者說一個(gè)關(guān)系,表中的一行稱為一個(gè)元組,一列稱為屬性,每列的名字即為屬性名,某個(gè)可以唯一地標(biāo)識(shí)一個(gè)元組的屬性稱其為主碼或關(guān)鍵字.實(shí)際上,數(shù)據(jù)組織中的關(guān)鍵問題是數(shù)據(jù)倉庫的物理模型設(shè)計(jì),一是采用哪種數(shù)據(jù)庫管理系統(tǒng)以及存儲(chǔ)結(jié)構(gòu)和存取方法;二是如何在龐大的數(shù)據(jù)倉庫中建立索引以提高數(shù)據(jù)的存取效率;三是根據(jù)主題的重要程度、使用

10、頻率選擇不同的存儲(chǔ)媒體以提高系統(tǒng)響應(yīng)速度和降低系統(tǒng)硬件費(fèi)用.2.3 數(shù)據(jù)獲取與集成 在數(shù)據(jù)倉庫的邏輯模型和物理模型建立后,緊接著是建立數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫之間的接口,即將操作型環(huán)境下的數(shù)據(jù)裝載進(jìn)入數(shù)據(jù)倉庫環(huán)境,這是一個(gè)所需數(shù)據(jù)的抽取與不同環(huán)境或異構(gòu)數(shù)據(jù)庫的集成的過程5 ,它完成了由操作型環(huán)境生成完整數(shù)據(jù)、基于時(shí)間的數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)的凝聚、異構(gòu)數(shù)據(jù)庫的集成以及數(shù)據(jù)的時(shí)標(biāo)設(shè)定等任務(wù)6 .接口設(shè)計(jì)就是要選擇合適的軟件開發(fā)平臺(tái)如PB,VB,VC,Delphi等設(shè)計(jì)數(shù)據(jù)提取與集成的接口程序,完成數(shù)據(jù)的裝入以及異構(gòu)數(shù)據(jù)庫的訪問等任務(wù),達(dá)到數(shù)據(jù)獲取與集成的目的.2.4 建立應(yīng)用 數(shù)據(jù)裝入倉庫后,為進(jìn)一步開發(fā)決

11、策支持系統(tǒng)DSS以及其他聯(lián)機(jī)分析處理7 (online analytical process-ing,OLAP)準(zhǔn)備了充分的數(shù)據(jù)資源.在DSS和OLAP開發(fā) 中需要采用軟件工程中的原型法開展應(yīng)用系統(tǒng)研究,即在初步建立系統(tǒng)的基礎(chǔ)上,盡快地讓系統(tǒng)運(yùn)行起來,近早產(chǎn)生效益,在系統(tǒng)運(yùn)行中不斷地理解需求,改善、完善系統(tǒng)性能.3 數(shù)據(jù)挖掘隨著時(shí)間的推移,數(shù)據(jù)倉庫的數(shù)據(jù)量在急劇增長,這些日積月累的數(shù)據(jù)中是否存在著某種關(guān)系、模式或者趨勢,是很難一眼就看得出來的,或者知道有某種關(guān)系,但必須進(jìn)一步加以證明或修正,這時(shí),數(shù)據(jù)挖掘DM技術(shù)就有用武之地了.數(shù)據(jù)挖掘是基于人工智能(artificial intelligen

12、ce,AI)、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等技術(shù),高度自動(dòng)化地分析原有數(shù)據(jù),作出歸納性的推理,從中挖掘出潛在的模式或行為,以幫助決策者作出正確決策的過程.也就是說為了尋找未知的模式或趨勢而在細(xì)節(jié)數(shù)據(jù)中進(jìn)行搜索的過程,從而生成新的信息和知識(shí)8 .數(shù)據(jù)挖掘利用人工智能中的一些成熟的算法和技術(shù)作為發(fā)現(xiàn)知識(shí)的方法,如人工神經(jīng)網(wǎng)絡(luò)、遺傳算法、決策樹、鄰近搜索算法、規(guī)則推理等,利用關(guān)聯(lián)分析、序列模式分析、分類分析、聚類分析作為數(shù)據(jù)挖掘的分析方法.例如,采用關(guān)聯(lián)分析方法可以從業(yè)務(wù)系統(tǒng)如CIS的數(shù)據(jù)庫或?yàn)榇私⒌臄?shù)據(jù)倉庫、數(shù)據(jù)商店的細(xì)節(jié)或事務(wù)中尋找出重新出現(xiàn)概率很高的模式.具體的說,從CIS的數(shù)據(jù)庫中分析某種疾病治療過程

13、中誘發(fā)其他疾病的概率以及與時(shí)間的關(guān)系等.結(jié)束語 伴隨著數(shù)據(jù)庫技術(shù)的發(fā)展,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)作為一種解決方案,成為醫(yī)學(xué)信息技術(shù)領(lǐng)域重要的研究方法,必將為管理決策、科學(xué)研究帶來很大的方便和可觀的效益.參考文獻(xiàn):1關(guān) 俐,梁洪峻.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘J.微型電腦應(yīng)用,1999;15(9):17-20.2王 珊.數(shù)據(jù)倉庫技術(shù)與聯(lián)機(jī)分析處理M.北京:科學(xué)出版社,1999:1-2.3楊 森,王翰虎.面向主題的數(shù)據(jù)倉庫體系結(jié)構(gòu)J.計(jì)算機(jī)應(yīng)用,1999;19(10):104-105.4喬 穎,須 德.多重粒度數(shù)據(jù)倉庫的存儲(chǔ)新策略J.北方交通大學(xué)學(xué)報(bào),1997;21(6):684-689.5王 寧,陳 瀅,俞本權(quán).一個(gè)基于Corba的異構(gòu)數(shù)據(jù)庫集成系統(tǒng)設(shè)計(jì)J.軟件學(xué)報(bào),1998;9(5):378-382.6胡 華,高 濟(jì),何志均.基于主動(dòng)規(guī)則對(duì)象的分布式多數(shù)據(jù)庫系統(tǒng)集成J.小型微型計(jì)算機(jī)系統(tǒng),1999;20(7):526-530.7姚宇蓉,何厚存.數(shù)據(jù)倉庫中的信息存取分析技術(shù)的研究

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論