從專家診病模型實例理解智慧醫(yī)療大數據文庫_第1頁
從專家診病模型實例理解智慧醫(yī)療大數據文庫_第2頁
從專家診病模型實例理解智慧醫(yī)療大數據文庫_第3頁
從專家診病模型實例理解智慧醫(yī)療大數據文庫_第4頁
從專家診病模型實例理解智慧醫(yī)療大數據文庫_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 HYPERLINK / 思邁特軟件大數據分析 頁 從專家診病病模型實例例理解智慧慧醫(yī)療大數數據大數據可謂謂是當紅炸子子雞,對于它的的應用場景,人們已經做做了充分的想象,很多也在逐步落地,比如智慧醫(yī)療療。醫(yī)療行業(yè)業(yè)正更多的融融入人工智智慧、傳感感技術等高高科技,使使醫(yī)療服務務走向真正正意義的智智能化。面對不同受受眾,智慧醫(yī)療有有著不同的的內涵。對對于公眾,意意味著更便捷可及及的醫(yī)療服服務;對于醫(yī)護人員,不不僅可以提提高診療速度,還可以讓診診療更加精準準,通過大量的的數據分析析支持他們們的診斷。這里就不得得不提到專家系統(tǒng)統(tǒng),它應該是一個個典型的醫(yī)醫(yī)療應用,是大數據和和人工智能能的緊密結合。專家系

2、統(tǒng)是是一個具有有大量的專專門知識與與經驗的程程序系統(tǒng),它它應用人工工智能技術術和計算機機技術,根根據某領域域一個或多多個專家提提供的知識識和經驗,進進行推理和和判斷,模模擬人類專專家的決策策過程,以以便解決那那些需要人人類專家處處理的復雜雜問題。簡簡言之,專專家系統(tǒng)是是一種模擬擬人類專家家解決領域域問題的計計算機程序序系統(tǒng)。專專家系統(tǒng)的的發(fā)展已經經歷了3個階段,正正向第四代代過渡和發(fā)發(fā)展。第一一代專家系系統(tǒng)(deendraal、macssyma等等)以高度度專業(yè)化、求解專門門問題的能能力強為特特點。但在在體系結構構的完整性性、可移植植性、系統(tǒng)統(tǒng)的透明性性和靈活性性等方面存存在缺陷,求求解問題的

3、的能力弱。第二代專專家系統(tǒng)(mycin、casnet、prospector、hearsay等)屬單學科專業(yè)型、應用型系統(tǒng),其體系結構較完整,移植性方面也有所改善,而且在系統(tǒng)的人機接口、解釋機制、知識獲取技術、不確定推理技術、增強專家系統(tǒng)的知識表示和推理方法的啟發(fā)性、通用性等方面都有所改進。第三代專家系統(tǒng)屬多學科綜合型系統(tǒng),采用多種人工智能語言,綜合采用各種知識表示方法和多種推理機制及控制策略,并開始運用各種知識工程語言、骨架系統(tǒng)及專家系統(tǒng)開發(fā)工具和環(huán)境來研制大型綜合專家系統(tǒng)。在總結前三代專家系統(tǒng)的設計方法和實現(xiàn)技術的基礎上,已開始采用大型多專家協(xié)作系統(tǒng)、多種知識表示、綜合知識庫、自組織解題機制

4、、多學科協(xié)同解題與并行推理、專家系統(tǒng)工具與環(huán)境、人工神經網絡知識獲取及學習機制等最新人工智能技術來實現(xiàn)具有多知識庫、多主體的第四代專家系統(tǒng)。接下來將通通過生動有有趣的過程程講解,幫幫助讀者了了解使用SmaartMiiningg敏捷挖掘掘桌面版,以以決策樹算算法為背景景,依托大大數據如何何構建專家家診病模型型,以及如如何通過可可視化探索索數據,實實現(xiàn)決策樹樹同樣的計計算結果!該案例的工工作流如下下:商業(yè)目標業(yè)務理解:該案例所所用的數據據是一份醫(yī)醫(yī)生診病的的數據,如如下:表1 數據據視圖其中,年齡齡、性別、血壓、膽膽固醇、鈉鈉、鉀是病病人的指標標,而藥物物是醫(yī)生針針對病人的的情況開出出的藥物。業(yè)務

5、目標:建立專家家診病系統(tǒng)統(tǒng),當把病病人的指標標輸入到該該系統(tǒng)時,系系統(tǒng)會自動動輸出該給給此類病人人開出的藥藥物。數據挖掘目目標:建立立專家診病病模型,該該模型以病病人的病例例指標為輸輸入,以藥藥物為目標標,建立預預測模型,該該模型可以以根據輸入入指標的值值,計算預預測值(藥藥物)。操作實現(xiàn):新建工作流流可以點擊文文件菜單下下的新建或者點擊擊工具欄左左方的新建建按鈕( )開始創(chuàng)創(chuàng)建工作流流。點擊后后會彈出以以下向導界界面:輸入工作流流的名字后后即可完成成創(chuàng)建:圖1 新建建工作流導入數據此時要根據據數據存儲儲文件的格格式選擇相相應的導入入節(jié)點。在在這里由于于數據源是是CSV文件件,因此可可以選擇C

6、CSV導入入節(jié)點(也也可以使用用可變文件件)。左側側節(jié)點庫中中CSV導入入節(jié)點拖到到右側的工工作流中。雙擊節(jié)點點或者右鍵鍵菜單中選選擇配置,彈出如如下配置窗窗口:圖2 CCSV節(jié)點點配置點擊 按按鈕,選擇擇相應的數數據文件。注意,此處處如果數據據第一行包包含字段名名,則選中中 (該數據據有),如如果有行IID字段,則則選中 (該數據據無,則不不選中)。配置完成成后,點擊擊 。節(jié)點下方的的預警符號號從 變成了 。紅色表表示節(jié)點尚尚未配置或或者配置有有誤,此時時節(jié)點不可可執(zhí)行;黃黃色表示節(jié)節(jié)點可以執(zhí)執(zhí)行。點擊擊右鍵菜單單的 或者點擊擊工具欄的的 ,即可執(zhí)執(zhí)行工作流流。執(zhí)行完完成后預警警符號變成成

7、。點擊右鍵菜菜單的 可以查詢詢數據。另另外,節(jié)點點的右端口口也會懸停停顯示數據據的行數和和字段數。理解數據使用統(tǒng)計分分析菜單下下的統(tǒng)計節(jié)節(jié)點可以對對數據進行行描述,這這是建模之之前必須要要做的工作作,一方面面是為了設設計合理的的實施方案案,另外一一方面也是是為了更好好的選擇合合適的算法法。從表22中可以看看出每種分分類變量的的取值及每每種取值的的個數。比比如,從這這里我們可可以看出藥藥物字段一一共包含五五種取值,且且出現(xiàn)最多多的是Y藥物。在在這里目標標變量為分分類型,因因此只能選選擇分類預預測類模型型,如決策策樹、邏輯輯回歸等。表2 數據據描述預建模接下來便是是嘗試建模模,看看建建模效果。圖3

8、 預建建模首先,從數數據準備列列轉換菜單單下選擇類類型轉換節(jié)節(jié)點。由于于性別、血血壓、膽固固醇三個字字段實際存存儲類型該該是字符型型,但這里里是整型,因因此為了便便于以下分分析,使用用類型轉換換節(jié)點將它它們的類型型從整型轉轉化為字符符型。配置置如下:其次,使用用類型節(jié)點點指定目標標變量的角角色,將藥藥物的角色色設為目標標。再次,從數數據準備的的行菜單中中選擇分區(qū)區(qū)節(jié)點。使使用分區(qū)節(jié)節(jié)點可以將將數據集分分成測試集集和訓練集集,訓練集集用于訓練練模型,測測試集用于于測試模型型。配置如如下:注意,如果果選中使用用隨機種子子( ),則每每次運行分分區(qū)結果將將會是一樣樣的,否則則每次運行行的結果將將會不

9、同,進進而建模的的結果也會會不同。通通常是選擇擇選中該項項,使得訓訓練集和測測試集都固固定。另外外,此處還還有個很重重要的用途途,不選中中 ,多次運運行可以測測試數據分分布規(guī)律和和模型穩(wěn)定定性。還有一點要要注意,這這里分區(qū)即即把數據集集隨機分成成兩份,通通常訓練集集要比測試試集大,通通常分為55:5,6:4,7:3,8:2,9:1。數據集集越小,訓訓練集應該該分的更多多,原因是是要保證模模型的穩(wěn)定定性,參與與訓練的數數據要足夠夠多。實際際中,各種種比例都會會嘗試,目目的有二:一是選擇擇最佳的比比例,二是是測試模型型的穩(wěn)定性性。然后,選擇擇分類預測測節(jié)點,因因為目標變變量(藥物物)為分類類型。此

10、處處我們重點點學習決策策樹算法,所所以就先選選擇決策樹樹算法節(jié)點點。節(jié)點連連接如上圖圖3所示,在在決策樹(訓訓練)節(jié)點點配置中選選擇目標變變量藥物。其中,決決策樹(訓訓練)節(jié)點點連接分區(qū)區(qū)節(jié)點。決決策樹訓練練節(jié)點可以以采用默認認配置,無無需修改配配置,如下下:最后,使用用分類評估估節(jié)點評估估模型的準準確性。配配置如下圖圖所示:評估結果:表3 模型型評估1從表3中可可以看出,模模型測試準準確度為995%,誤誤判5%。預建建模的目的的是為了從從整體判斷斷現(xiàn)有變量量與目標變變量的相關關性,以便便可以根據據經驗預估估最終的效效果和可操操作性。接下來如何何優(yōu)化模型型呢?通常常來說有三三種辦法:第一,增加

11、加新數據,以以便引入更更多重要的的影響因素素;第二,嘗試試其他模型型,以便找找到更適合合的模型;第三,優(yōu)化化輸入,即即基于已有有數據派生生更多重要要的變量,或或者過濾不不重要的變變量。這三三者中,第第一種最難難以實現(xiàn),一一般企業(yè)的的數據是有有限的,企企業(yè)內部可可用數據及及外部可用用網絡數據據,在項目目需求調研研階段就應應該明確,而而企業(yè)外部部行業(yè)數據據難以獲取取。第二種種最容易嘗嘗試,所有有可用模型型可以快速速嘗試一遍遍,這個是是每個項目目中都必做做的,但卻卻不是最重重要的方法法。而第三三種方法才才是項目中中最可行,也也是最重要要的辦法。如何優(yōu)化輸輸入?這是是第三種方方法的實現(xiàn)現(xiàn)目標。而而優(yōu)化

12、輸入入最重要的的環(huán)節(jié)就是是數據探索索。數據探索圖4 數據據可視化探探索數據探索最最核心的一一項工作就就是探索輸輸入變量與與目標變量量的相關性性。分析變變量的相關關性可以使使用相關性性計算,也也可以使用用圖形化分分析,而后后者最直觀觀常用。分分析兩個分分類型變量量可以使用用條形圖、網絡圖或或者交叉表表。分析兩兩個數值型型變量可以以使用散點點圖。分析析一個數值值型變量和和一個分類類型變量可可以使用直直方圖。通過分析,血血壓和藥物物字段有著著強相關性性,因為從從圖中可以以看出使用用藥物B和藥物A的人都是是高血壓(3表示高血壓,2表示正常,1表示低血壓),使用藥物C的人都是低血壓,這種很明細的規(guī)律反映

13、出兩個字段間存在很強的相關關系,如下圖所示:同理,膽固固醇和選擇擇藥物之間間也有一定定相關性,而而性別和選選擇藥物相相關性不大大,如下圖圖所示:接下來分析析數值型字字段的相關關性,從圖圖中可以看看出血液中中的鈉和鉀鉀相關性很很弱或者沒沒有。從圖圖形化的方方式判斷相相關性強弱弱的方法就就是看圖形形中的規(guī)律律,規(guī)律越越明顯,相相關性就越越強,否則則越弱。就此圖來說說,散點圖圖中的每一一個點表示示一個病例例,而我們們最想知道道的還不是是鈉和鉀的的相關性,而而是兩者與與藥物的相相關性,因因為藥物才才是我們分分析的目標標。所以我我們還想知知道散點圖圖中的每個個病例使用用的什么藥藥物。因此此,我們使使用藥

14、物作作為顏色區(qū)區(qū)分,重新新修正散點點圖。如下下: 從圖中可見見,上三角角區(qū)都是淺淺紅色,說說明這部分分病例使用用的都是YY藥物。這這是很明顯顯的規(guī)律,說說明這里面面有一種很很強的關聯(lián)聯(lián)。用數學學的語言來來描述,就就是鈉和鉀鉀的比例與與藥物有很很強的相關關性。因此此,我們發(fā)發(fā)現(xiàn)了一個個很重要的的變量就是是鈉和鉀的的比例。因因此,我們們可以派生生一個變量量:鈉鉀比比例。優(yōu)化輸入首先,使用用派生字段段節(jié)點或者者Javaa代碼段節(jié)節(jié)點生成鈉鈉鉀比例字字段。配置置如下:其次,使用用過濾節(jié)點點過濾鈉和和鉀字段,否否則它們的的重復存在在會導致多多重共線性性問題。配配置如下:過濾后預覽覽數據如下下:重新建模模

15、型整體評評估如下:表4 模型型評估2從表4中可可看出,模模型精度從從原來的995%提升升帶了1000%。當當然實際中中如果遇到到預測精度度為1000%的情況況一定就是是錯的。下下面我們再再來解讀一一下得到的的決策樹模模型。如下下圖所示,從整體來看看,得此類類病的人有有大約一半半的人(445%)選選擇服用了了Y藥物;如果病人血血液中鈉和和鉀的比例例大于144.82885,則選選擇服用YY藥物,準準確率為1100%;如果病人血血液中鈉和和鉀的比例例不大于114.82285,若若全部判成成X藥物準確確率只有447.5%,因此再再看病人的的另外一個個指標血壓壓;如果血壓(其其值有1、2和3)為2,則全

16、部部判為X藥物,準準確率為1100%;如果血壓為為1,全部判判為C藥物,準準確率僅550%。再再看另外一一個指標膽膽固醇,若若膽 固醇的值值為1,全部判判為X藥物,則則準確率為為100%。若膽固固醇的值為為2,全部判判為C 藥物,則則準確率為為100%。如果血壓為為3,全部判判為A藥物,則則準確率僅僅56.88%。再看看另外一個個指標年齡齡,若 年齡大于于50.55歲,判為為B藥物,則則準確率1100%。若年齡不不大于500.5歲,判判為A藥物, 準確率為為100%。小結第一,在建建模中,應應該注意過過擬合問題題。在商業(yè)業(yè)中建模的的目的是為為了商業(yè)應應用,因此此不僅要保保證模型的的準確性,更更要保證模模型

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論