醫(yī)藥數(shù)據(jù)挖掘(共9頁)_第1頁
醫(yī)藥數(shù)據(jù)挖掘(共9頁)_第2頁
醫(yī)藥數(shù)據(jù)挖掘(共9頁)_第3頁
醫(yī)藥數(shù)據(jù)挖掘(共9頁)_第4頁
醫(yī)藥數(shù)據(jù)挖掘(共9頁)_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、精選優(yōu)質文檔-傾情為你奉上醫(yī)藥數(shù)據(jù)挖掘Data mining in medicine季海霞季海霞,女(漢族),山西朔州人,碩士在讀,主要研究方向為中藥和分子生物基因表達山西省中醫(yī)藥研究院 , ,專心-專注-專業(yè)【中文摘要】數(shù)據(jù)挖掘是世紀末逐步形成的一個多種學科交叉的領域,至今已經(jīng)普遍地應用在零售、醫(yī)藥、通訊、金融、航空、電子工程、旅館等具有眾多數(shù)據(jù)和需要數(shù)據(jù)深度分析的領域.本文從四個方面具體地介紹了數(shù)據(jù)挖掘的定義,過程,常見的數(shù)據(jù)挖掘算法和在中醫(yī)藥領域的應用情況。【關鍵詞】醫(yī)藥、數(shù)據(jù)挖掘、算法、應用【Abstract】Data mining is a multi-disciplinary fi

2、eld gradually formed at end of the century, has been widely applied in the fields that have a number of data and need in-depth analysis of data including retail, pharmaceutical, telecommunications, finance, aviation, electronic engineering, hotels, etc. In this paper,from four specific aspects ,intr

3、oduces definitions of data mining, process, common data mining algorithms and applications in the field of medicine.【Key words 】medicine;data mining; algorithms; using1簡介近來, 數(shù)據(jù)挖掘逐漸地引起了醫(yī)藥領域的極大關注, 其原因是醫(yī)藥數(shù)據(jù)的數(shù)量十分龐大, 且急需將這些數(shù)據(jù)快速而準確的轉變成有用的醫(yī)藥知識和可以利用的信息, 從而可將獲取的知識和信息廣泛適宜的應用于各類醫(yī)學應用實踐中。并且數(shù)據(jù)挖掘作為數(shù)據(jù)庫與人工智能交叉融合的高端信

4、息處理技術,其在一定程度上可以幫助人們借助現(xiàn)代信息處理技術,獲得隱藏在數(shù)據(jù)中反映事物的本質特點和預測事態(tài)發(fā)展趨向的有用知識,并且以這些知識為基礎可以用來輔助科學決策。 數(shù)據(jù)挖掘最新的描述性定義是由Usama M .Fayy yad 等1 給出的:數(shù)據(jù)挖掘即數(shù)據(jù)庫中的知識發(fā)現(xiàn)、描述、統(tǒng)計、分析與利用2,就是從大量的數(shù)據(jù)庫中提取人們感興趣的相關知識,這些知識是人們一開始未知的、隱藏的、密集的、模糊的、看起來似乎隨機的信息,其表現(xiàn)為規(guī)則、概念、模式、規(guī)律等形式3。也是從數(shù)據(jù)集中識別出有效的、新穎的、有潛在價值的, 以及最終可被理解的模式的非平凡過程。數(shù)據(jù)挖掘是一個多種應用學科有機交叉形成的廣泛的領域

5、, 其包括知識庫系統(tǒng)、人工智能、數(shù)據(jù)庫技術、機器學習、信息檢索、統(tǒng)計學、神經(jīng)網(wǎng)絡、模式識別、高性能計算、知識獲取、和可視化等相關內容4。其任務大體上可分為描述和分析預測數(shù)據(jù)的進一步發(fā)展對事物的有效影響。2過程 從醫(yī)藥技術的多重角度來看,數(shù)據(jù)挖掘的基本過程如下圖1。圖1 數(shù)據(jù)挖掘的基本過程 并且在采集數(shù)據(jù)之后,抽樣和清理之類的工作還需再進行。其清理的結果就是人們想要得到的數(shù)據(jù)樣本集。此外數(shù)據(jù)倉庫的數(shù)據(jù)應用形式5也是一種數(shù)據(jù)存儲的有效形式,對數(shù)據(jù)挖掘應用方面極大的有利。然后,就可以應用各種算法來挖掘數(shù)據(jù)。但有的時候,還有需要返回到上一階段的情況出現(xiàn),重新將上述過程經(jīng)歷一遍或數(shù)遍。 3常用算法 數(shù)據(jù)

6、挖掘的采用基本算法根據(jù)其挖掘方式的不同可以分為有教師型和無教師型兩種形式,也就是所謂的監(jiān)督學習和非監(jiān)督學習。首先在有監(jiān)督學習算法中,先會給與一個教師信號,對訓練的樣本集中的每個輸入樣本能獲得分類代價和類別標記,并且尋找能夠降低總成本價值的方向。其次在無監(jiān)督學習算法中卻沒有顯式的教師。 數(shù)據(jù)挖掘包括很多算法,主要包括組合或關聯(lián)、聚類、分類、估計、預測等等,如圖2所示。這些方法在實際應用時具有各自的特色和適用條件,具體使用哪種數(shù)據(jù)挖掘算法,還是要根據(jù)具體的情況和應用要求來選擇。其中一種算法有可能在一種情況下適用,但是在另一種情況下卻不太適用。圖2數(shù)據(jù)挖掘算法3.1 關聯(lián)分析 關聯(lián)分析即是從大量的數(shù)

7、據(jù)中來發(fā)現(xiàn)不同項或項集之間隱含的聯(lián)系或相互關聯(lián)。如果兩個或多個數(shù)據(jù)項之間的取值多次出現(xiàn)并且重復概率較高時,那基本上可以確定它們之間就存在著某種隱秘而必然的關聯(lián),利用此特點就可以建立這些數(shù)據(jù)項之間的關聯(lián)規(guī)則。通常有用的關聯(lián)規(guī)則一般需要滿足設定的支持度和置信度這兩個條件,前者是一組項集記作關聯(lián)需要所要達到的最低聯(lián)系程度方可,而后者則是一個關聯(lián)規(guī)則的最低可靠程度。另外還可以加入相關性、應用性、興趣度等有效參數(shù)來增加規(guī)則的潛在準確性和精確度。關聯(lián)分析的目的則是查出數(shù)據(jù)庫中隱蔽的交叉聯(lián)系的網(wǎng)絡,用來描述分析利用一組數(shù)據(jù)項目的關系和密切度。3.2 分類分析 分類分析即是在已有數(shù)據(jù)的基礎上制造出一個分類函數(shù)

8、或分類模型。該函數(shù)或模型能夠把數(shù)據(jù)庫中的記錄映射到一個給定的類別中,再進行類別預測。例如,在臨床的研究中,依據(jù)患者的不同體征和癥狀可把疾病分為三種:早期、中期和晚期。因此在進行類別分類分析時,首先從數(shù)據(jù)中選出已經(jīng)分好類的數(shù)據(jù)集,再采用該數(shù)據(jù)集運用的數(shù)據(jù)挖掘分類技術來建立分類模型,最后對未分類的數(shù)據(jù)進行分類。3.3 聚類分析 聚類分析即是將數(shù)據(jù)集分為若干研究對象, 并且使一組內的對象有著比較高的相似度,而不同組內中的數(shù)據(jù)對象則沒有明顯的相似性。聚類分析的基本思想就是最大程度地出現(xiàn)組中數(shù)據(jù)對象相似度最大,同時組間數(shù)據(jù)對象相似度最小。其和分類分析的最大區(qū)別則是聚類分析并不依據(jù)類,也不需要訓練集。在這

9、些類事先并不知道的情況下,將并沒有標識的數(shù)據(jù)對象自動劃分為不同的類。3.4 時間序列分析 時間序列分析即是指通過時間序列來搜索出重復發(fā)生率較高的模式,強調時間序列的影響。例如在臨床的研究過程中,在既往病史記錄中分析并發(fā)現(xiàn)疾病的某種趨勢規(guī)律,揭示其預測因子的回顧性研究。在時序的模式中,我們需要尋找出在某個最小時間內出現(xiàn)的比率一直高于某一最小閾值的規(guī)則。而這種規(guī)則會因為形勢的變化而自主調整。時間序列分析則有三個基本功能:一是模式挖掘,通過分析時間序列的往來形態(tài)來研究事態(tài)的行為特點;二是趨勢分析,利用歷史時間序列來預測數(shù)據(jù)的未來數(shù)值;三是相似性搜索,應用距離度量來確定不同時間序列的相似性。3.5 決

10、策樹方法 決策樹是一種簡單的知識表示方法,將事例逐步分類成不同的類別。因為分類規(guī)則是比較直觀明白的,所以易于人們理解。其基本思想是以最能區(qū)分不同類別的樣本屬性作為樹根,把訓練集分為相應的節(jié)點,然后依次在每一塊樣本集中挑選出具有區(qū)別度的屬性,作為樹的第二層節(jié)點。依此類推,等到所有的葉節(jié)點都只包含某一類樣本時停止。構建的樹就叫做決策樹。決策樹從功能上主要區(qū)分為兩種類型:分類樹和回歸樹。分類樹通常用于對離散變量做決策樹,而回歸樹則用于對連續(xù)變量做決策樹。3.6 神經(jīng)元網(wǎng)絡技術 神經(jīng)元網(wǎng)絡技術是屬于軟計算領域里的一種重要方法,它是相關研究人員一直以來堅持不懈進行的對人腦神經(jīng)學習機能模擬所研究的明顯有效

11、成果,目前已廣泛成功地應用于各相關工業(yè)部門的數(shù)據(jù)統(tǒng)計、描述分析利用中,極大地提高了各部門的工作效率。人工神經(jīng)網(wǎng)絡是模仿生物神經(jīng)網(wǎng)絡的特點,以人工神經(jīng)元為基本運算單元的一種分布式存貯信息的智能信息處理系統(tǒng)。通常人工神經(jīng)網(wǎng)絡的應用分為網(wǎng)絡構建、規(guī)則提取等幾個階段。在構建網(wǎng)絡階段,神經(jīng)網(wǎng)絡通過調整權重來達到能正確預測輸入的樣本數(shù)據(jù)的類別歸屬,網(wǎng)絡修剪則是通過設定權值向量對神經(jīng)網(wǎng)絡進行簡化,而規(guī)則提取是針對設定的屬性通過一定的算法從結果集中提取符合要求、易于理解的規(guī)則。3.7 粗糙集理論 粗糙集理論是一種數(shù)學工具,用來刻畫不確定性和不完整性的,能有效地分析不精確、不完整、不一致等各種不完備的信息,還可

12、以對數(shù)據(jù)進行推理和分析,繼而從中發(fā)現(xiàn)隱藏的相關知識,揭示其潛在的規(guī)律。粗糙集理論是在分類機制的基礎上的建立的將分類規(guī)定為在特定空間上的等價關系,而等價關系卻構成了對該空間的劃分。4在中醫(yī)藥領域的應用情況 目前醫(yī)藥信息數(shù)據(jù)庫資源已比較豐富,數(shù)據(jù)挖掘技術以逐漸成為醫(yī)藥信息管理現(xiàn)代化重要組成的部分,各種算法更是在中醫(yī)藥領域中都有著重大的應用。4.1 關聯(lián)分析法 其最常用的算法為Apfiofi算法。例如,姚美村等8以相關的文獻中已經(jīng)收錄的106例治療消渴?。ㄌ悄虿。┑闹兴帍头綖檠芯繉ο?,以關聯(lián)規(guī)則分析為研究工具進行仔細的研究,先在單味藥層次上進行了消渴病復方組成藥味之間的關聯(lián)模式研究,成功得挖掘出藥物

13、與上中下之間的緊密關聯(lián),以及藥物彼此之間的有效關聯(lián),結果與中醫(yī)專家對消渴病的治療方面的主要藥物的配伍情況基本一致。4.2 典型的分類分析 此種分析模型有決策樹模型、貝葉斯分類模型、神經(jīng)網(wǎng)絡模型和線性回歸模型等。例如,譚紅娜等10在研究MRI乳腺非腫塊樣強化病灶對乳腺癌的診斷價值時,發(fā)現(xiàn)此類決策樹模型所具有的靈敏度、特異性和準確率等均優(yōu)于傳統(tǒng)數(shù)據(jù)分析所利用統(tǒng)計學中的logistic線性回歸傳統(tǒng)模型,此發(fā)現(xiàn)有著重要的醫(yī)學數(shù)據(jù)分析預測意義,可能用于指導臨床治療。4.3 聚類方法 其中包括機器學習和神經(jīng)網(wǎng)絡方法等。例如,梁偉雄等11用H指標聚類對221例中風病急性期病人癥候特點及其相關癥狀、脈象、舌象

14、的關系進行了精密的統(tǒng)計分析,提出中風急性期癥候可分為風火癥、氣虛癥、痰瘀癥、陰虛陽亢癥4類。對于中醫(yī)對中風的治療有指導性意義。4.4 時間序列分析 此類分析有一個重要的方法是相似時序法,即按時間順序查看事件數(shù)據(jù)庫,從中找出其他一個或多個相似的時序事件。例如,Simonsen L等12對美國的住院病人出院記錄數(shù)據(jù)庫進行了時間序列分析,結果顯示13價肺炎疫苗(PCVl3)的使用與美國兒童全因肺炎住院率的顯著下降有關。其他研究者也一定程度的利用了此法,效果均顯示良好。4.5 決策樹 其中有不同算法,如ID3、HAID、CART等,這些不同的算法同時會產(chǎn)生不同的決策樹,其差異在于三個維度方面:在每層面

15、上樹可以拆分點的最大數(shù)量;建樹時拆分點選擇的準確標準;以及如何防止過度擬合來控制樹的過度生長。徐蕾等13通過決策樹C4.5算法篩選對辯癥分型的26個因素并按其重要程度排序,獲得了可用于準確分類的決策規(guī)則,并且建立了能區(qū)分各類癥型、具有較高靈敏度和特異度的中醫(yī)辯癥模型,最后其得出了決策樹C4.5算法建立的模型效果好,可用于慢性胃炎中醫(yī)證型的較好鑒別診斷的結論。4.6 神經(jīng)網(wǎng)絡 此法其優(yōu)點為具有很強的自魯棒性、組織性和容錯性,但也有其缺點為“黑箱”性,往往人們對網(wǎng)絡的學習和決策過程難以理解,但可以經(jīng)過好的提取算法和有關領域的專家的指導可得到一定程度上的解決。例如雍小嘉等14以中醫(yī)類方辭典的方劑為樣

16、本數(shù)據(jù),量化組方藥物的數(shù)據(jù),再同時采取單純人工神經(jīng)網(wǎng)絡方法和神經(jīng)網(wǎng)絡方法結合在一起的屬性距離矩陣的高維數(shù)據(jù)方法,來通過藥物判斷方劑的基本相關功效。結果顯示結合了中醫(yī)先驗知識的人工神經(jīng)網(wǎng)絡方法有較好的利用前景。5結論與展望 數(shù)據(jù)挖掘已經(jīng)滲透到各行各業(yè),對于人們的生活也逐漸起著越來越重要的作用,尤其是在醫(yī)藥臨床診斷研究方面正發(fā)揮著重大的作用,隨著,人們不斷地進行著這方面的研究探索,我們有理由相信未來的醫(yī)藥和數(shù)據(jù)挖掘彼此的結合將會更加廣泛的造福于人類。6 參考文獻1Han JW.Kamber M .數(shù)據(jù)挖掘:概念與技術 M .范明, 孟小峰,譯.北京:機械工業(yè)出版社, 2001 :50 -512 李

17、雄飛,李軍。數(shù)據(jù)挖掘與知識發(fā)現(xiàn)M.北京:高等教育出版社,20053張穎,揚鈞劉建平數(shù)據(jù)挖掘在中醫(yī)藥研究中的應用J.遼寧中醫(yī)藥太學報,2008,3:153 4陸汝鈐.世紀之交的知識工程與知識科學M .北京:清華大學出版社, 2001 :1015 陳京民.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術M北京:電子工業(yè)出版社,20026 張大愚基于數(shù)據(jù)挖掘技術的新藥臨床試驗綜合平臺的研究D成都:電子科技大學,20087 武建虎關聯(lián)規(guī)則及其在肝癌病人資料分析研究中的應用D上海:第二軍醫(yī)大學20058姚美村,艾路袁月梅,等消渴病復方配伍規(guī)律的關聯(lián)分析北京中醫(yī)藥大學學報,200225(6):48509 徐蕾決策樹技術及其在醫(yī)學中

18、的應用D上海:第二軍醫(yī)大學。200410 譚紅娜,蘇懿,李瑞敏,等數(shù)據(jù)挖掘技術判定MRI乳腺非腫塊樣強化病灶的初步研究J中華放射學雜志,2009,43(5):45545911 梁偉雄,溫澤淮歐愛華等中風病急性期中醫(yī)癥候多元分析廣州中醫(yī)藥大學學報,1998,15(4):29312 胡吉明,鮮學豐挖掘關聯(lián)規(guī)則算法中的研究與改進J計算機技術與發(fā)展,2006(4):9910413徐蕾,賀佳,孟虹等基于信息熵的決策樹在慢性胃炎中醫(yī)辨證中的應用第二軍醫(yī)大學學報,200425:1009101214雍小嘉,彭京,宋姚屏采用高維數(shù)據(jù)歸約南藥物判定方劑功效上海中醫(yī)藥大學學報。2006,20(1):5456姓名(第一作者)季海霞個人照片(1寸電子版)工作單位山西省中醫(yī)藥研究院聯(lián)系電話0351-E-mail手機號碼聯(lián)系地址山西省太原市萬柏林區(qū)和平南路336號傳真0351-個人簡歷(200字左右) 本人本科期間專業(yè)為安徽醫(yī)科大學藥學院的中藥學,在讀期間學習和掌握了生

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論