計(jì)算機(jī)輔助醫(yī)學(xué)診斷系統(tǒng)的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)研究_瞿愛珍課件_第1頁
計(jì)算機(jī)輔助醫(yī)學(xué)診斷系統(tǒng)的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)研究_瞿愛珍課件_第2頁
計(jì)算機(jī)輔助醫(yī)學(xué)診斷系統(tǒng)的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)研究_瞿愛珍課件_第3頁
計(jì)算機(jī)輔助醫(yī)學(xué)診斷系統(tǒng)的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)研究_瞿愛珍課件_第4頁
計(jì)算機(jī)輔助醫(yī)學(xué)診斷系統(tǒng)的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)研究_瞿愛珍課件_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、計(jì)算機(jī)輔助醫(yī)學(xué)診斷系統(tǒng)的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)研究瞿愛珍,莊天戈(上海交通大學(xué)生物醫(yī)學(xué)工程系,上海200030)和最終可理解的模式的非平凡過程;而知識發(fā)現(xiàn)(KDD)是指從數(shù)據(jù)發(fā)現(xiàn)有用知識的總過程。數(shù)據(jù)挖掘可被認(rèn)為是知識發(fā)現(xiàn)中的一步,它是KDD的核心,兩術(shù)語可交換使用。KDD是眾多學(xué)科如人工智能,機(jī)器學(xué)習(xí),模式識別,統(tǒng)計(jì)學(xué),數(shù)據(jù)庫和知識庫,數(shù)據(jù)可視化等相互交融所形成的一個有廣闊發(fā)展前景的新興領(lǐng)域。2計(jì)算機(jī)輔助醫(yī)學(xué)診斷系統(tǒng)中的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)方法計(jì)算機(jī)輔助醫(yī)學(xué)診斷系統(tǒng)的原始處理對象為醫(yī)學(xué)信息數(shù)據(jù)庫,此對象實(shí)際上是一個多媒體數(shù)據(jù)庫,它可能包含醫(yī)生診斷使用的病人醫(yī)學(xué)影像,有關(guān)病理參數(shù),化驗(yàn)結(jié)果,診斷結(jié)果

2、及相關(guān)的參考參數(shù)如年齡、性別、病史,出院/入院時間等,總之是既有文本、圖形/圖像,又有數(shù)字/數(shù)據(jù)信息等的多媒體數(shù)據(jù)庫。然而目前的數(shù)據(jù)挖掘技術(shù)主要應(yīng)用于以結(jié)構(gòu)化數(shù)據(jù)為主的關(guān)系數(shù)據(jù)庫、事務(wù)數(shù)據(jù)庫和數(shù)據(jù)倉庫,對復(fù)雜類型數(shù)據(jù)的挖掘尚處在起步階段,復(fù)雜數(shù)據(jù)包括復(fù)雜對象、空間數(shù)據(jù)、多媒體數(shù)據(jù)、時間序列數(shù)據(jù)、文本數(shù)據(jù)和W eb數(shù)據(jù)。因而要對醫(yī)學(xué)信息數(shù)據(jù)庫進(jìn)行數(shù)據(jù)挖掘和知識發(fā)現(xiàn),發(fā)現(xiàn)其中的醫(yī)學(xué)診斷規(guī)則和模式,從而輔助醫(yī)生進(jìn)行疾病診斷,是一件具有挑戰(zhàn)性和有發(fā)展前途的工作。目前的數(shù)據(jù)挖掘?qū)ο筢t(yī)學(xué)信息數(shù)據(jù)庫,可歸納為兩類:第一類為醫(yī)學(xué)影像+其它有關(guān)的醫(yī)學(xué)參數(shù)的數(shù)據(jù)庫;第二類為無醫(yī)學(xué)影像的純醫(yī)學(xué)參數(shù)的數(shù)據(jù)庫。大多數(shù)情

3、況下,對醫(yī)學(xué)數(shù)據(jù)庫進(jìn)行數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的目標(biāo)應(yīng)該是像醫(yī)生那樣,根據(jù)先前的經(jīng)驗(yàn)來診斷疾病或發(fā)現(xiàn)疾病分類的醫(yī)學(xué)診斷規(guī)則,如診斷乳腺腫瘤是良性還是惡性,根據(jù)腦部的MRI圖像數(shù)據(jù)區(qū)分病人是腦膜瘤還是星細(xì)胞瘤1,由病人心臟的SPECT圖像對其心肌灌注進(jìn)行分類2或診斷有冠狀動脈疾病還是無此疾病3,分類胸痛的12種疾病種類4等。另外還有序列的時間模式發(fā)現(xiàn)(如HIV疾病進(jìn)程中時間模式的發(fā)現(xiàn)5)和醫(yī)學(xué)參數(shù)的模式提取及各參數(shù)間因果關(guān)系模式發(fā)現(xiàn)(如對孩子的骨折數(shù)據(jù)庫和脊柱側(cè)凸病數(shù)據(jù)庫的模式提取和其醫(yī)學(xué)參數(shù)的因果關(guān)系發(fā)現(xiàn)6)。對醫(yī)學(xué)信息數(shù)據(jù)庫的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)遵循一般的知識發(fā)現(xiàn)的8步過程:理解應(yīng)用領(lǐng)域/識別KDD

4、過程的目標(biāo);產(chǎn)生目標(biāo)數(shù)據(jù)集;數(shù)據(jù)清除與預(yù)處理;數(shù)據(jù)減少與投影;將目標(biāo)與特殊數(shù)據(jù)挖掘方法匹配;數(shù)據(jù)挖掘;解釋和評估所挖掘到的模式;使用所發(fā)現(xiàn)的知識。KDD過程具體應(yīng)用到醫(yī)學(xué)診斷系統(tǒng)中每步可詳細(xì)解釋如下。2.1理解應(yīng)用領(lǐng)域/識別KDD過程的目標(biāo)理解醫(yī)學(xué)領(lǐng)域問題的范圍和KDD過程的目標(biāo)就是要明確數(shù)據(jù)挖掘的醫(yī)學(xué)對象和要得到的結(jié)果。一般醫(yī)學(xué)對象為上述的兩類醫(yī)學(xué)信息數(shù)據(jù)庫,利用以往的有確診病例的各種特定疾病醫(yī)學(xué)數(shù)據(jù)庫,通過KDD過程得到其疾病的若干診斷規(guī)則,最終幫助醫(yī)生進(jìn)行正確預(yù)測或診斷各種疾病。因?yàn)閷Σ∪俗骷膊≡\斷是一件生死攸關(guān)的事,而目前的計(jì)算機(jī)智能水平還達(dá)不到很高的程序,尤其是與專家(如各種??漆t(yī)生

5、)的診斷水平相比,因而我們在利用以往的經(jīng)驗(yàn)即醫(yī)學(xué)信息數(shù)據(jù)庫產(chǎn)生醫(yī)學(xué)智能診斷系統(tǒng)的過程中,自始至終都應(yīng)和醫(yī)生不斷交流和探討,最終結(jié)果還是要經(jīng)醫(yī)生的分析、驗(yàn)證而作出最后的一致性的診斷。例如Sacha JP2等研究開發(fā)的心臟SPECT診斷的自動化,目標(biāo)是提出能用于評估心臟SPECT圖像的診斷規(guī)則,數(shù)據(jù)挖掘?qū)ο蟮妮斎胱兞渴菑腟PECT圖像提取來的特征值和一些來自病人記錄的變量如年齡、體重、身高、吸煙者或不吸煙者等;解剖結(jié)構(gòu)的不同決定了采用不同的男性和女性模型,所選擇的數(shù)據(jù)挖掘方法應(yīng)能產(chǎn)生為用戶理解的產(chǎn)生式規(guī)則;在數(shù)據(jù)挖掘前,應(yīng)完成三個子目標(biāo):建一個數(shù)據(jù)倉庫以接受各種現(xiàn)有數(shù)據(jù)和以后的增加數(shù)據(jù)并可便于SQ

6、L查詢;產(chǎn)生一個標(biāo)準(zhǔn)化的LV模型;決定增加什么樣的病人信息到SPECT圖像提取的特征值中產(chǎn)生診斷規(guī)則。Kavalerchuk B7等研究的對乳腺癌進(jìn)行計(jì)算機(jī)輔助系統(tǒng)、專家規(guī)則和數(shù)據(jù)庫知識的一致性醫(yī)學(xué)診斷就是另一典型例子,這個項(xiàng)目的目標(biāo)集中于從專家和數(shù)據(jù)庫提取足夠、完整和可比較的兩套規(guī)則,然后識別它們之間的分歧,最終達(dá)成一致的醫(yī)學(xué)診斷。2.2產(chǎn)生目標(biāo)數(shù)據(jù)庫為了得到最終的結(jié)果,需要生成一個完整記錄病人醫(yī)學(xué)診斷信息的數(shù)據(jù)庫,各個診斷系統(tǒng)根據(jù)不同的目標(biāo)來組織其數(shù)據(jù)庫,其中應(yīng)包含充足的各類病例或一定比率的正病例和反病例作為數(shù)據(jù)挖掘的訓(xùn)練例和測試?yán)?以便最終能得到令人滿意和正確的結(jié)果。各種實(shí)際醫(yī)學(xué)診斷系統(tǒng)

7、使用的具體病例情況參見表1。大多數(shù)的情況下,我們可以用SQL結(jié)構(gòu)化查詢語言來準(zhǔn)備所需的數(shù)據(jù)庫(因主要的數(shù)據(jù)庫系統(tǒng)支持標(biāo)準(zhǔn)的SQL)。例如心臟SPECT診斷自動·98·國外醫(yī)學(xué)生物醫(yī)學(xué)工程分冊2002年第25卷第3期課題5所使用的醫(yī)學(xué)數(shù)據(jù)庫,其原始數(shù)據(jù)存于M icrosoftExcel文件中,每個記錄數(shù)據(jù)包含的病人個人信息有:年齡、性別、身高,有關(guān)處理步驟的信息,心臟病學(xué)家對SPECT圖像的解釋,心臟灌注分類等共有184個域, 4 275個記錄,還有6 817個SPECT圖像文件,相應(yīng)于約613個病例。其中只有僅一半的病例有完整的診斷,包括ROIS的灌注分類代碼和總的左心室灌

8、注分類。首先為了組織數(shù)據(jù)庫,將電子表格中包含的數(shù)據(jù)轉(zhuǎn)化到一個關(guān)系數(shù)據(jù)庫中,專用的SPECT圖像文件格式已處理成可允許最關(guān)鍵的信息被提取實(shí)際的3-D圖像和病人標(biāo)識信息被儲存在文件頭中,產(chǎn)生了根據(jù)病人標(biāo)識信息來自動檢索圖像的程序;SPECT圖像文件被存儲在數(shù)據(jù)庫外的預(yù)先定義好的目錄結(jié)構(gòu)中,已寫好的軟件可用幾種方式瀏覽具有圖像顯示的病人記錄,數(shù)據(jù)庫還可儲存進(jìn)行各種數(shù)據(jù)挖掘后產(chǎn)生的數(shù)據(jù),諸如從SPECT圖像所提取的特征值和左心室的標(biāo)準(zhǔn)化模型等。表1各種醫(yī)學(xué)數(shù)據(jù)庫的知識發(fā)現(xiàn)計(jì)算機(jī)輔助診斷系統(tǒng)特性一覽表診斷的原始數(shù)據(jù)類型計(jì)算機(jī)輔助醫(yī)學(xué)診斷系統(tǒng)目標(biāo)數(shù)據(jù)挖掘方法使用的病例數(shù)特征值個數(shù)分類精度(產(chǎn)生的規(guī)則數(shù)目)

9、比較的其它數(shù)據(jù)挖掘方法醫(yī)學(xué)影像+其它醫(yī)學(xué)參數(shù)1.心臟SPECT診斷的自動化課題2評估心臟SPECT圖像后對心臟灌注進(jìn)行分類基于決策樹的C4. 5分類器和簡單的統(tǒng)計(jì)樸素貝葉斯613 44錯誤率最低14. 6±3. 44(7 /9:僅CT數(shù)時/CT數(shù)和附加數(shù)據(jù)集)常數(shù)分類器, C4. 5樹/規(guī)則,樸素貝葉斯,離散樸素貝葉斯2.診斷心肌灌注的知識發(fā)現(xiàn)系統(tǒng)3根據(jù)心肌灌注情況診斷有或無冠狀動脈疾病CLIP3機(jī)器學(xué)習(xí)算法,它結(jié)合了決策樹概念和基于規(guī)則的算法185 ( 161個正常/24有病)12(6圖像特征值)最高精度為62. 7%(8 /6:正例為正常時/正例為有病時,或5 /4:僅對男性例學(xué)

10、習(xí)結(jié)果)3.乳腺癌診斷的一致性知識發(fā)現(xiàn)系統(tǒng)7區(qū)分乳腺腫瘤良性/惡性發(fā)現(xiàn)規(guī)則的機(jī)器學(xué)習(xí)方法MMDR1 /2 /3156(良性/惡性:77 /73)11MMDR2 /390% /96. 6% /( 44 /30 /18)線性判別分類,神經(jīng)網(wǎng)絡(luò),決策樹4.從MRI數(shù)據(jù)誘導(dǎo)邏輯編程發(fā)現(xiàn)知識1區(qū)分腦部的兩種腫瘤即腦膜瘤還是星細(xì)胞瘤ILP誘導(dǎo)邏輯編程(Pro-gol)28 (腦膜瘤/星細(xì)瘤: 18 /10)1 100% (1)無醫(yī)學(xué)影像的醫(yī)學(xué)參數(shù)值5.胸痛診斷的遺傳編程知識發(fā)現(xiàn)4分類胸痛的12種疾病遺傳編程GP138(訓(xùn)練/測試?yán)?90 /48)165 87. 5% (12)規(guī)則產(chǎn)生法C5. 0(其分類精

11、度79. 2% )6.使用進(jìn)化算法從醫(yī)學(xué)數(shù)據(jù)庫發(fā)現(xiàn)知識6對孩子骨折*和脊柱側(cè)凸病人*兩數(shù)據(jù)庫進(jìn)行模式提取和其有關(guān)醫(yī)學(xué)參數(shù)的因果關(guān)系發(fā)現(xiàn)進(jìn)化算法(基因編程GP,類基因編程GGP,最小總描述長度基因編程MDLGP,遺傳算法GAS)和貝葉斯網(wǎng)絡(luò)* 6500(訓(xùn)練/測試?yán)?隨機(jī))8 (17)* * 500(訓(xùn)練/測試?yán)?隨機(jī))20 (18)7.自動發(fā)現(xiàn)臨床數(shù)據(jù)庫中的正例和反例知識9進(jìn)行頭痛信息()、腦血管疾病()和腦膜炎()三個數(shù)據(jù)庫的診斷規(guī)則發(fā)現(xiàn)粗糙集模型的規(guī)則產(chǎn)生. 52119(訓(xùn)練/測試?yán)?隨機(jī))147 91. 3% (至少2個). 7620(如上)85589. 3% (5) (至少2個). 1

12、1211(如上)4192. 5% (6) (至少2個)僅有正例的知識發(fā)現(xiàn), C4. 5和醫(yī)學(xué)專家,三種數(shù)據(jù)庫醫(yī)學(xué)專家的分類精度()95. 0% /92. 9%/93. 2%8.在疾病進(jìn)程數(shù)據(jù)庫中發(fā)現(xiàn)其時間模式5發(fā)現(xiàn)人類免疫缺陷病毒(HIV )病人疾病過程的時間模式時間模式發(fā)現(xiàn)系統(tǒng)TEMPADIS,它使用了自己提出的事件集序列方法和對GSP算法的進(jìn)一步調(diào)整1100 (訓(xùn)練/測試?yán)?隨機(jī))20最小72% /平均80% (發(fā)現(xiàn)的事件序列模式包含6個事件組)GSP算法(中間的特征值提取使用了NevProp3神經(jīng)網(wǎng)絡(luò)軟件和決策樹產(chǎn)生學(xué)習(xí)機(jī)器方法)2.3清理與預(yù)處理數(shù)據(jù)此步的目的是從數(shù)據(jù)中去除噪聲,處理丟

13、失數(shù)據(jù)的策略及作必要的改變。清除數(shù)據(jù)是一耗時而繁重的任務(wù),可用手工和SQL語句來對數(shù)據(jù)庫操作,有時為了節(jié)省時間,可從原始數(shù)據(jù)庫中選擇一些重要的部分作原始目標(biāo)進(jìn)行處理。這一步是重要的,將·99·國外醫(yī)學(xué)生物醫(yī)學(xué)工程分冊2002年第25卷第3期響到數(shù)據(jù)挖掘的結(jié)果,因此我們應(yīng)采用對噪聲較少敏感的數(shù)據(jù)挖掘方法。例如,文獻(xiàn)5中的HIV病人數(shù)據(jù)庫由1 100個病人的醫(yī)學(xué)信息組成,研究人員隨機(jī)從1 100個病人中選400個病人來作為主要的數(shù)據(jù)庫,以便不損失原始目標(biāo),其中有許多類似于配藥數(shù)據(jù)的誤拼和藥物錯誤編碼的糾正等,用SQL語句和手工清理這400個病人的數(shù)據(jù)花了大約3個多月,注意到他們

14、成功地糾正明顯的錯誤是很重要的。還有文獻(xiàn)2中數(shù)據(jù)質(zhì)量檢查是用半手工和SQL查詢的方法將圖像集與數(shù)據(jù)庫記錄進(jìn)行匹配,發(fā)現(xiàn)一些圖像和病人的記錄不匹配,結(jié)果大多數(shù)是印刷錯誤,但仍有一些確實(shí)不匹配,就刪除它們。另外還要檢查圖像集的完整性和單個圖像的質(zhì)量(如應(yīng)有充足的對比度等)。2.4數(shù)據(jù)約簡和投影此步目的是發(fā)現(xiàn)依賴于目標(biāo)的有用特征值來代表數(shù)據(jù),包括使用維數(shù)降低或變換方法來減少考慮的有效變量數(shù)或發(fā)現(xiàn)數(shù)據(jù)的不變代表,也就是用最少數(shù)目的變量數(shù)更好地代表數(shù)據(jù)。對有醫(yī)學(xué)圖像的醫(yī)學(xué)數(shù)據(jù)庫進(jìn)行知識發(fā)現(xiàn),首先要對其圖像進(jìn)行特征提取,例如心臟SPECT診斷自動化課題2中,先將3D SPECT圖像轉(zhuǎn)換為2D SPECT圖

15、像,且對各個2D SPECT圖像進(jìn)行配準(zhǔn)后劃分成若干重點(diǎn)的區(qū)域ROI,再對各ROI進(jìn)行特征提取(CT數(shù)),最后共得到22個ROI和44個特征值,這些特征值用于數(shù)據(jù)挖掘;對SPECT圖像的ROI區(qū)域進(jìn)行特征值提取還可通過計(jì)算象素值與區(qū)域象素平均值偏差大于2. 5的象素所占的百分比得到。此外還有對病人肺部或肝部等的CT、HRCT圖像和超聲圖像8進(jìn)行各種紋理參數(shù)的提取及對乳腺病人CT圖像進(jìn)行其鈣化體積和數(shù)量、鈣化形狀和密度等特征參數(shù)提取。從醫(yī)學(xué)圖像提取特征可能是帶醫(yī)學(xué)圖像的醫(yī)學(xué)數(shù)據(jù)庫的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)過程中最復(fù)雜而且極重要的部分,它將直接影響到數(shù)據(jù)挖掘結(jié)果。在有些情況下,為了減少有效變量獲得等效信

16、息,還可利用數(shù)據(jù)挖掘算法來產(chǎn)生一些所需變量,例如,在Ram irez JCG5等開發(fā)的發(fā)現(xiàn)HIV病人疾病進(jìn)程的時間模式的知識系統(tǒng)中,就使用了決策樹產(chǎn)生的機(jī)器學(xué)習(xí)技術(shù)和NevProp3神經(jīng)網(wǎng)絡(luò)軟件得到兩個重要參數(shù):病人健康狀況值(HS)和病人恢復(fù)時間(WTR),它們被作為后面的數(shù)據(jù)挖掘的主要參數(shù)。2.5將目標(biāo)與特殊數(shù)據(jù)挖掘方法匹配此步目的決定什么數(shù)據(jù)模型可能適合搜索數(shù)據(jù)中的模式,使用什么數(shù)據(jù)挖掘方法與此KDD過程目標(biāo)相匹配。模型選擇通?;谝诰蚴裁搭愋偷臄?shù)據(jù),數(shù)據(jù)挖掘方法選擇根據(jù)需要什么樣的最終結(jié)果,通常是發(fā)現(xiàn)或預(yù)測。數(shù)據(jù)挖掘有以下幾個最重要的提取數(shù)據(jù)特性的模型:概括用少量特征/屬性來描述聚集

17、形式;聚類或分割發(fā)現(xiàn)高維數(shù)據(jù)和自然群;回歸模型;分類分類器可被認(rèn)為是回歸模型的特殊化;概念描述;相關(guān)性分析;序列分析。在醫(yī)學(xué)信息診斷中,大多數(shù)情況下是要我們對疾病進(jìn)行分類的診斷,因此,可使用分類的數(shù)據(jù)模型,也有少數(shù)相關(guān)性分析和序列分析,而選擇好了數(shù)據(jù)模型后,可使用的數(shù)據(jù)挖掘方法有:機(jī)器學(xué)習(xí)、決策樹、粗糙集、進(jìn)化算法和神經(jīng)網(wǎng)絡(luò)等。具體使用時,采用哪一種方法要根據(jù)實(shí)際的醫(yī)學(xué)信息數(shù)據(jù)庫類型和特點(diǎn)來決定,有時還要用幾種方法進(jìn)行探索比較。每一種數(shù)據(jù)挖掘方法有許多的具體實(shí)現(xiàn)方法,而同一實(shí)現(xiàn)方法也涉及到不同的參數(shù)選擇,因此應(yīng)對數(shù)據(jù)模型作調(diào)整和精確化,以適合具體的數(shù)據(jù)挖掘?qū)ο蠛彤a(chǎn)生較好的挖掘結(jié)果。例如,HIV

18、病人疾病過程的時間模式發(fā)現(xiàn)文獻(xiàn)5中,先采用一般序列模式算法(GSP)作為數(shù)據(jù)挖掘方法,后經(jīng)實(shí)驗(yàn)提出了自己的事件集序列方法和對GSP算法的進(jìn)一步調(diào)整即TEMPADIS時間模式發(fā)現(xiàn)系統(tǒng)。2.6數(shù)據(jù)挖掘?qū)︶t(yī)學(xué)信息數(shù)據(jù)庫進(jìn)行數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的主要目的是預(yù)測和分類疾病。分類和預(yù)測是兩種數(shù)據(jù)分析形式,可以用于提取描述重要數(shù)據(jù)類的模型或預(yù)測未來的數(shù)據(jù)趨勢。分類是預(yù)測分類號(或離散值),而預(yù)測是建立連續(xù)函數(shù)模型;數(shù)據(jù)分類的基本技術(shù)有決策樹歸納、貝葉斯分類和貝葉斯網(wǎng)絡(luò)及神經(jīng)網(wǎng)絡(luò)。其它的分類方法還有K-最臨近分類,基于案例的推理,遺傳算法,粗糙集和模糊邏輯技術(shù)。預(yù)測方法有線性、非線性和廣義線性回歸模型。具體情況

19、下,可對上述的這些技術(shù)進(jìn)行適當(dāng)?shù)男薷?、擴(kuò)充和優(yōu)化,從而能應(yīng)用到各種特殊的醫(yī)學(xué)數(shù)據(jù)庫中進(jìn)行疾病的分類和預(yù)測。例如,W angML5等對孩子骨折數(shù)據(jù)庫和脊柱側(cè)凸病人數(shù)據(jù)庫使用進(jìn)化算法(包括類基因編程GGP,遺傳編程GP,最小總描述長度基因編程MDLGP,遺傳算法GAS)和貝葉斯網(wǎng)絡(luò)來進(jìn)行模式提取和發(fā)現(xiàn)各變量因果關(guān)系的網(wǎng)絡(luò);而Tsumoto S9在頭痛信息、腦血管疾病和腦膜炎的診斷系統(tǒng)中,采用了基于粗糙集模型的規(guī)則產(chǎn)生法,由于更密切地代表了醫(yī)學(xué)專家的推理,使產(chǎn)生的規(guī)·100·國外醫(yī)學(xué)生物醫(yī)學(xué)工程分冊2002年第25卷第3期摘要:計(jì)算機(jī)輔助診斷系統(tǒng)中,使用醫(yī)學(xué)數(shù)據(jù)庫的數(shù)據(jù)挖掘和知識

20、發(fā)現(xiàn)技術(shù)具有重要意義和其發(fā)展的必然性。文章分析和綜合了此類系統(tǒng)研究開發(fā)的一般規(guī)律及其特殊性,并指出了其中一些需要解決的問題和今后的研究發(fā)展方向。關(guān)鍵詞:醫(yī)學(xué)數(shù)據(jù)庫;數(shù)據(jù)挖掘;知識發(fā)現(xiàn);醫(yī)學(xué)圖像中圖分類號: R318;TN911. 73文獻(xiàn)標(biāo)識碼: A文章編號: 1001-1110(2002)03-0097-07The research of datam ining and know ledge discovery incomputer aided medical diagnosing systemQU A i-zhen,ZHUANG Tian-ge(Dept ofBiomedicalEngin

21、eering,Shanghai Jiao Tong University,Shanghai 200030,China)Abstract: It is urgently needed in the development of computer aided medical diagnosing system using data m ining andknow ledge discovery technology onmedicaldatabases.This paper analyses and synthesizes this kind of system s and givestheir

22、general rules and particularity.The paper also points out a number of problem s to be solved and the direction of re-search and development in future.Key words:medical database; datam ining; know ledge discovery;medical image收稿日期: 2001-10-251引言隨著醫(yī)院的計(jì)算機(jī)化,尤其是許多醫(yī)院開始使用PACS系統(tǒng)(Picture Archiving and Commun

23、ica-tion System),它們已收集了大量病人的醫(yī)學(xué)影象(包括SPECT,X-CT,PET,MRI,HRCT等)和其它的有關(guān)醫(yī)學(xué)參數(shù),而如何充分利用以前的確診病例和醫(yī)生的診斷經(jīng)驗(yàn)加上當(dāng)前病人的信息,使計(jì)算機(jī)幫助醫(yī)生快速、有效地正確診斷疾病,正是計(jì)算機(jī)輔助醫(yī)學(xué)診斷系統(tǒng)的目標(biāo)。以往的許多醫(yī)學(xué)輔助診斷系統(tǒng)都是基于知識的專家系統(tǒng),它往往存在若干的缺陷:知識獲取的瓶頸;知識脆弱性;推理單調(diào)性。具體表現(xiàn)為:開發(fā)基于規(guī)則和知識的專家系統(tǒng)大約60%到70%的時間花費(fèi)在知識獲取上,采取的方法是由專家通過一系列的領(lǐng)域規(guī)則來表示它們的啟發(fā)式分類經(jīng)驗(yàn),由于絕大多數(shù)專家在顯示他們的領(lǐng)域知識方面存在困難,應(yīng)用效果

24、有時不甚理想,且專家在利用這類知識時,更多地是采用聯(lián)想等形象思維方法。簡言之,從專家那里獲取知識與表達(dá)困難,且?guī)в卸ㄐ院椭饔^的特點(diǎn),難于定量和客觀地表示。為克服上述缺點(diǎn),出現(xiàn)了類似于NNES(神經(jīng)網(wǎng)絡(luò)專家系統(tǒng))7等的智能診斷系統(tǒng),其優(yōu)點(diǎn)為:具有學(xué)習(xí)功能,大規(guī)模并行分布式處理,全局集體作用實(shí)現(xiàn)知識獲取自動化,可以實(shí)現(xiàn)并行聯(lián)想和自適應(yīng)推理,系統(tǒng)具有實(shí)時處理能力和較好的魯棒性,良好的啟發(fā)性、靈活性。和傳統(tǒng)的ES相比,在分類、診斷以及基于分類的智能控制和優(yōu)化求解等方面,此類智能診斷系統(tǒng)有更優(yōu)越的性能,但也有一些固有缺點(diǎn),如:適用于解決一些規(guī)模較小的問題;在很大程度上受訓(xùn)練數(shù)據(jù)集的限制;受限于常識問題知

25、識的獲取;知識表示,處理繁雜而低效,存在“黑箱”操作。這一切決定目前的智能診斷系統(tǒng)不可能具有很高的智能水平。然而,在此類系統(tǒng)中如引入數(shù)據(jù)挖掘和知識發(fā)現(xiàn)可緩解或部分地解決一些上述問題,這也是先進(jìn)智能診斷系統(tǒng)的發(fā)展方向。數(shù)據(jù)挖掘是從人工智能的分支機(jī)器學(xué)習(xí)發(fā)展而來,至今已有十多年歷史,數(shù)據(jù)挖掘就是從數(shù)據(jù)庫中獲取正確、新穎、有潛在應(yīng)用價(jià)值精度大大提高,幾乎接近專家的預(yù)測精度,見表1中()處。Bojarczuk CC4等在胸痛疾病的診斷系統(tǒng)中使用了遺傳編程GP,這種方法是一種有前途的數(shù)據(jù)挖掘方法,此系統(tǒng)根據(jù)165個預(yù)測特征值進(jìn)行12種不同胸痛疾病的分類,得到了87. 5%的分類精度,大于C5. 0決策樹

26、算法(79. 2% )。2.7解釋和評估所挖掘到的模式從上述可知,對醫(yī)學(xué)數(shù)據(jù)庫進(jìn)行數(shù)據(jù)挖掘的技術(shù)采用了對經(jīng)典的方法(如決策樹方法)進(jìn)行改進(jìn)、優(yōu)化和組合,以便適合特定的數(shù)據(jù)庫挖掘?qū)ο?有的系統(tǒng)采用了目前的先進(jìn)方法(如遺傳算法、粗糙集方法、模糊邏輯技術(shù)等)較好地適應(yīng)了其處理對象并得到了良好的結(jié)果。一般來說,對分類和預(yù)測的數(shù)據(jù)挖掘結(jié)果可用以下的標(biāo)準(zhǔn)進(jìn)行比較和評估:(1)預(yù)測正確度涉及模型正確地預(yù)測新的或先前未見過的數(shù)據(jù)的類的能力。(2)計(jì)算速度涉及產(chǎn)生和使用模型的計(jì)算花費(fèi)。(3)魯棒性涉及給定噪聲數(shù)據(jù)或具有空缺值的數(shù)據(jù),模型正確預(yù)測的能力。(4)可伸縮性涉及給定大量數(shù)據(jù),有效地構(gòu)造模型的能力。(5)

27、可理解性學(xué)習(xí)模型提供的理解和洞察層次。然而,目前對許多不同分類方法的比較仍然為一個研究課題,尚未發(fā)現(xiàn)有一種方法對所有數(shù)據(jù)優(yōu)于其它方法。必須要考慮準(zhǔn)確性、訓(xùn)練時間、魯棒性、可理解性和可伸縮性,可能涉及一折衷方案,可探索優(yōu)化組合各種算法以求得較好的結(jié)果,比如出現(xiàn)了研究模糊神經(jīng)網(wǎng)絡(luò)、模糊決策樹等先進(jìn)的數(shù)據(jù)挖掘方法。心肌灌注診斷系統(tǒng)中,采用CLIP3機(jī)器學(xué)習(xí)算法,此算法結(jié)合了決策樹概念和基于規(guī)則的算法,而心臟SPECT診斷的自動化課題中,采用了基于決策樹的C4. 5和簡單的統(tǒng)計(jì)樸素貝葉斯。另外,在乳腺癌的診斷中,使用基于統(tǒng)計(jì)方法的發(fā)現(xiàn)規(guī)則機(jī)器學(xué)習(xí)方法MMDR1/MMDR2/MMDR3(它們是對于0.

28、05級別的F規(guī)則分別有0. 75、0. 85和0. 95條件概率,產(chǎn)生統(tǒng)計(jì)有意義的診斷規(guī)則的方法)等。從表1中的醫(yī)學(xué)數(shù)據(jù)庫發(fā)現(xiàn)診斷知識的各種疾病診斷系統(tǒng),均就其使用的數(shù)據(jù)挖掘算法結(jié)果給予了醫(yī)學(xué)解釋和評估,而且其中許多還與其它的數(shù)據(jù)挖掘算法就精度、可理解性等進(jìn)行了比較,有時還強(qiáng)調(diào)了產(chǎn)生的診斷規(guī)則的有用性及其價(jià)值,但較少考慮算法的魯棒性、計(jì)算速度和可伸縮性。2.8使用所發(fā)現(xiàn)的知識計(jì)算機(jī)輔助診斷系統(tǒng)是以咨詢系統(tǒng)的形式提供的,目的是使醫(yī)生的診斷過程更客觀和容易,提高診斷效率,且可訓(xùn)練缺乏經(jīng)驗(yàn)的新醫(yī)生,就目前醫(yī)學(xué)數(shù)據(jù)庫發(fā)現(xiàn)知識系統(tǒng)的實(shí)用性來說,尚處于研究開發(fā)階段,有的知識發(fā)現(xiàn)診斷系統(tǒng)在發(fā)現(xiàn)知識后識別出數(shù)

29、據(jù)庫中的錯誤,經(jīng)驗(yàn)證修改其中的錯誤;有的還需進(jìn)一步充實(shí)其病例庫以便得到更符合實(shí)際的診斷規(guī)則或更好地預(yù)測疾病。另外,在醫(yī)學(xué)專家和數(shù)據(jù)庫發(fā)現(xiàn)的知識間有時必然存在不一致或矛盾,這就需要研究開發(fā)人員與醫(yī)學(xué)專家進(jìn)行不斷的商榷來消除或解釋矛盾,這正是一致性的計(jì)算機(jī)輔助醫(yī)學(xué)診斷系統(tǒng)最重要的特點(diǎn),是今后知識發(fā)現(xiàn)診斷系統(tǒng)和專家系統(tǒng)融合的發(fā)展方向。如上所述的BorisKavaler-chuk7等研究開發(fā)的乳腺癌的計(jì)算機(jī)輔助一致性診斷系統(tǒng),正是這方面很好的典型例子,它采用以下幾步來產(chǎn)生一個一致性的規(guī)則庫:根據(jù)數(shù)據(jù)庫發(fā)現(xiàn)數(shù)據(jù)驅(qū)動的規(guī)則,而不是通過詢問專家來發(fā)現(xiàn);通過醫(yī)學(xué)專家使用可得的已經(jīng)證實(shí)的病例來分析這些新的規(guī)則;

30、發(fā)現(xiàn)與她/他的知識或理解相矛盾的規(guī)則,這意味著兩種可能性: (a)這種規(guī)則是使用了誤導(dǎo)的病例被發(fā)現(xiàn)的;必須拒絕此類規(guī)則并且對訓(xùn)練數(shù)據(jù)進(jìn)行擴(kuò)展; (b)專家可能承認(rèn)他/她的想法沒有實(shí)際的根據(jù),因此系統(tǒng)提高了專家的經(jīng)驗(yàn)。3醫(yī)學(xué)輔助診斷系統(tǒng)研究和發(fā)展的方向總結(jié)目前的基于知識發(fā)現(xiàn)的計(jì)算機(jī)輔助診斷系統(tǒng),今后的發(fā)展可在以下三個方面進(jìn)行探索和研究。(1)在對有醫(yī)學(xué)影像的多媒體醫(yī)學(xué)數(shù)據(jù)庫進(jìn)行數(shù)據(jù)挖掘和知識發(fā)現(xiàn)時,亟需研究如何更快速而有效地自動提取圖像的特征值及如何選擇更合適和先進(jìn)的數(shù)據(jù)挖掘方法,以便可得到更好的數(shù)據(jù)挖掘結(jié)果即醫(yī)學(xué)診斷規(guī)則。從醫(yī)學(xué)圖像提取用于診斷的圖像特征值需花費(fèi)整個系統(tǒng)的絕大部分時間,因?yàn)槿祟?/p>

31、理解圖像比理解大量的數(shù)字容易,但計(jì)算機(jī)正好相反。正因如此,尤其針對圖像進(jìn)行挖掘的多媒體數(shù)據(jù)挖掘還處于研究起步階段,醫(yī)學(xué)圖像的特征自動提取和模式識別的研究和發(fā)展與多媒體數(shù)據(jù)挖掘具有相互促進(jìn)的作用。已有用模糊神經(jīng)網(wǎng)絡(luò)研究對乳腺醫(yī)學(xué)圖像進(jìn)行特征值的自動提取8對彌漫性的肝疾病進(jìn)行自動分·101·國外醫(yī)學(xué)生物醫(yī)學(xué)工程分冊2002年第25卷第3期等。就數(shù)據(jù)挖掘方法的采用上,神經(jīng)網(wǎng)絡(luò)技術(shù)在當(dāng)今的主要商品化數(shù)據(jù)挖掘工具中占有絕對的統(tǒng)治地位10,隨著對神經(jīng)網(wǎng)絡(luò)規(guī)則提取的研究和發(fā)展,利用神經(jīng)網(wǎng)絡(luò)來發(fā)現(xiàn)知識和提取分類規(guī)則,由于其計(jì)算的簡單性和具有歸納能力,正引起人們廣泛的研究和開發(fā)應(yīng)用1116,

32、而將這種方法如何更好地具體應(yīng)用到醫(yī)學(xué)數(shù)據(jù)庫的知識發(fā)現(xiàn)中,是值得進(jìn)一步研究和有發(fā)展前景的方向。近年來將模糊技術(shù)和神經(jīng)網(wǎng)絡(luò)技術(shù)結(jié)合起來的模糊神經(jīng)網(wǎng)絡(luò)技術(shù)1719成為一個熱門研究領(lǐng)域,人們已將此先進(jìn)技術(shù)應(yīng)用到醫(yī)學(xué)診斷領(lǐng)域2023,并且取得了良好的效果。(2)探討和開發(fā)適合醫(yī)學(xué)數(shù)據(jù)庫知識發(fā)現(xiàn)的一般數(shù)據(jù)挖掘方法和工具。針對各種特定的醫(yī)學(xué)數(shù)據(jù)庫,人們已使用了各種合適的數(shù)據(jù)挖掘方法來進(jìn)行其計(jì)算機(jī)輔助診斷系統(tǒng)的開發(fā)。在大量實(shí)踐的基礎(chǔ)上,將來能否利用軟件組件技術(shù)于知識發(fā)現(xiàn)系統(tǒng)24中,集成各種適合醫(yī)學(xué)數(shù)據(jù)庫挖掘的方法為一個開發(fā)醫(yī)學(xué)信息數(shù)據(jù)庫的通用工具,從而節(jié)省進(jìn)一步開發(fā)整個計(jì)算機(jī)輔助醫(yī)學(xué)診斷系統(tǒng)的時間,此工具應(yīng)能

33、自動比較合適方法的各種性能等。(3)開發(fā)出性能良好、接近醫(yī)學(xué)專家水平因而能投入實(shí)際臨床使用的計(jì)算機(jī)輔助診斷系統(tǒng)。醫(yī)學(xué)診斷是一件有關(guān)生命的重大事情。應(yīng)該在醫(yī)學(xué)數(shù)據(jù)庫知識發(fā)現(xiàn)和醫(yī)學(xué)專家知識之間達(dá)成一致,出現(xiàn)矛盾要解釋或消除,需要將現(xiàn)有的專家系統(tǒng)和知識發(fā)現(xiàn)系統(tǒng)進(jìn)行進(jìn)一步和真正的融合,不斷提高診斷系統(tǒng)的性能,從而使最后的計(jì)算機(jī)輔助診斷系統(tǒng)成為醫(yī)生的助手,甚至有一天真正代替醫(yī)生作出高水平的診斷。參考文獻(xiàn):1 Siromoney A,Raghuram L, Siromoney A, et al. Induc-tive logic programm ing for know ledge discovery

34、fromMRI dataJ. IEEE Engineering inM edicine Biology,2000, 19(4): 72-77.2 Sacha JP, Cios KJ,Goodenday LS. Issues in automat-ing cardiac SPECT diagnosisJ. IEEE Engineering inM edicine Biology, 2000, 19(4): 78-88.3 Cios KJ, Teresinska A,Konieczna S, et al.A know le-dge discovery approach to diagnosing

35、myocardial per-fusion J . IEEE Engineering in M edicine Biology,2000, 19(4): 17-25.4 Bojarczuk CC, Lopes HS, Freitas AA.Genetic progr-amm ing forknow ledge discovery in chest-pain diagno-sisJ. IEEE Engineering in M edicine Biology, 2000,19(4): 38-44.5 Ram irez JCG, Cook DJ, Peterson LL, et al. Tempo

36、rapattern discovery in course-of-dissease dataJ. IEEEEngineering inM edicine Biology, 2000, 19(4): 63-71.6W angML, Lam W, Leung KS, et al.Discovering kno-w ledge from medical databases using evolutionary al-gorithm sJ. IEEE Engineering in M edicine Biology,2000, 19(4): 45-55.7 Kovalerchuk B,V ityaey

37、 E,Ruiz JF.Consistent know l-edge discovery in medical diagnosis J. IEEE Engi-neering inM edicine Biology, 2000, 19(4): 26-37.8 Pavlopoulos S,KyriacouE, Koutsouris D, et al. Fuzzyneural network-based texture analysis of ultrasonicimages J. IEEE Engineering in M edicine Biology,2000, 19(4): 39-47.9 T

38、sumoto S.Automated discovery of positive and nega-tive know ledge in clinical databases J. IEEE Engi-neering inM edicine Biology, 2000, 19(4): 56-62.10黃飛雪,周東清,孫萬軍,等.基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)采掘技術(shù)J.計(jì)算機(jī)應(yīng)用研究, 2000, 17(9): 4-9.11孫晨,周志華,陳兆乾.神經(jīng)網(wǎng)絡(luò)規(guī)則抽取研究J.計(jì)算機(jī)應(yīng)用研究, 2000, 17(2): 34-37.12張朝輝,陸玉昌,張鈸.利用神經(jīng)網(wǎng)絡(luò)發(fā)現(xiàn)分類規(guī)則J.計(jì)算機(jī)學(xué)報(bào), 1999, 2

39、2(1): 108-112.13 IshikawaM. Rule extraction by successive regulariza-tionJ.NeuralNetworks, 2000, 13: 1171-1183.14 Ishikawa M. Structural learning w ith forgetting J.NeuralNetworks, 1996, 9(3): 509-521.15 DuchW,Adamczak R,G rabezewskiK.A new method-ology of extraction, optim ization and application o

40、fcrisp and fuzzy logical rulesJ. IEEE Transations onNeuralNetworks, 2001, 12(2): 277-306.16 Roy A.On connectionism, rule extraction, and brain-like learning J . IEEE Transactions on Fuzzy Sys-tem s, 2000, 8(2): 222-227.17 Raveendran P,Palaniappan R,Omatu S.FuzzyARTMAPclassification of invariant feat

41、ures derived using angleof rotation from a neuralnetworkJ. Information Sci-ences, 2000, 130: 67-84.18 A liev RA. Fazlollahi B, Vahidov RM.Genetic algori-thm-based learning of fuzzy neural networks. Part 1feed-forward fuzzy neural networks J . Fuzzy Setsand System s, 2001, 118: 351-358.19 IshibuchiH,

42、N iiM.Numerical analysis of the learningof fuzzified neural networks from fuzzy if-then rulesJ.Fuzzy Sets and System s, 2001, 120: 281-307.20 InnocentPR, John RI,Garibaldi JM.The fuzzymedicagroup in the centre for computational IntelligenceJ.Artificial Intelligence inM edicine, 2001, 21: 163-170.21

43、John RI, Innocent PR, BarnesMR.Neuro-fuzzy clust-ering of radiographic tibia image data using type 2fuzzy setsJ. Information Science, 2000, 125: 65-82.22 BrameierM,BanzhafW.A comparison of linear genet-ic programm ing and neural networks in medical datam ining J. IEEE Transactions on Evolutionary Co

44、m-putation, 2001, 5(1): 17-26.·102·國外醫(yī)學(xué)生物醫(yī)學(xué)工程分冊2002年第25卷第3期23 Verma B,Zakes J.A computer-aided diagnosis systemfor digital mammogram s based on fuzzy neural andfeature extraction techniques J. IEEE Transactionson Information Technology in Biomedicine, 2001, 5(1): 46-54.24樓偉進(jìn),孔繁勝.軟件組件技術(shù)與知識發(fā)現(xiàn)系統(tǒng)J.微型電腦應(yīng)用, 1999, 15(12): 4-6.感應(yīng)電流電阻抗成像的硬件系統(tǒng)向海燕,董秀珍,秦明新,尤富生(第四軍醫(yī)大學(xué)生物醫(yī)學(xué)工程系醫(yī)學(xué)電子工程教研室,陜西西安710033)摘要:本文回顧了感應(yīng)電流電阻抗成像技術(shù)的發(fā)展歷史及現(xiàn)狀,指出了其研究意義。對感應(yīng)電流電阻抗成像的硬件系統(tǒng)主要采用的技術(shù)進(jìn)行了介紹,并討論了研究中存在的關(guān)鍵問題。最后總結(jié)了今后工作可能的研究方向。關(guān)鍵詞:生物電阻抗;電阻抗斷層成像;感應(yīng)電流;硬件系統(tǒng)中圖分類號:R3

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論