醫(yī)學統(tǒng)計醫(yī)學宣教專家講座_第1頁
醫(yī)學統(tǒng)計醫(yī)學宣教專家講座_第2頁
醫(yī)學統(tǒng)計醫(yī)學宣教專家講座_第3頁
醫(yī)學統(tǒng)計醫(yī)學宣教專家講座_第4頁
醫(yī)學統(tǒng)計醫(yī)學宣教專家講座_第5頁
已閱讀5頁,還剩177頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

數(shù)據(jù)挖掘分析第二部分Logistic回歸第一部分醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第1頁Logistic回歸第一部分醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第2頁回歸分析分類多個因變量(y1,y2,…yk)路徑分析結(jié)構(gòu)方程模型分析一個因變量y連續(xù)型因變量(y)---線性回歸分析分類型因變量(y)---Logistic回歸分析時間序列因變量(t)---時間序列分析生存時間因變量(t)---生存風險回歸分析醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第3頁多重線性回歸logistic回歸醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第4頁logistic回歸(logisticregression)是研究因變量為二分類或多分類觀察結(jié)果與影響原因(自變量)之間關系一個多變量分析方法,屬概率型非線性回歸。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第5頁logistic回歸分類:(1)二分類資料logistic回歸:

因變量為兩分類變量資料,可用非條件logistic回歸和條件logistic回歸進行分析。非條件logistic回歸多用于非配比病例-對照研究或隊列研究資料,條件logistic回歸多用于配對或配比資料。(2)多分類資料logistic回歸:

因變量為多項分類資料,可用多項分類logistic回歸模型或有序分類logistic回歸模型進行分析。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第6頁隊列研究(cohortstudy):也稱前瞻性研究、隨訪研究等。是一個由因及果研究,在研究開始時,依據(jù)以往有沒有暴露經(jīng)歷,將研究人群分為暴露人群和非暴露人群,在一定時期內(nèi),隨訪觀察和比較兩組人群發(fā)病率或死亡率。假如兩組人群發(fā)病率或死亡率差異有統(tǒng)計學意義,則認為暴露和疾病間存在聯(lián)絡。隊列研究驗證暴露原因在研究開始前已存在,研究者知道每個研究對象暴露情況。研究人群+-++--調(diào)查方向:追蹤搜集資料比較疾病人數(shù)暴露abcda/(a+b)c/(c+d)隊列研究原理示意圖醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第7頁RR(相對危險度relativerisk):表示暴露組與非暴露組發(fā)病率(或死亡率)比值。也稱為危險比(riskratio)。反應了暴露與疾病發(fā)生關聯(lián)強度。RR表明暴露組發(fā)病或死亡危險是非暴露組多少倍。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第8頁病例對照研究(case-controlstudies):一個由果及因回顧性研究,先按疾病狀態(tài)確定調(diào)查對象,分為病例(case)和對照(control)兩組,然后利用已經(jīng)有統(tǒng)計、或采取問詢、填寫調(diào)查表等方式,了解其發(fā)病前暴露情況,并進行比較,推測疾病與暴露間關系。+-病例+-對照調(diào)查方向:搜集回顧性資料abcda/(a+b)c/(c+d)比較人數(shù)暴露疾病病例對照原理示意圖醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第9頁醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第10頁病例對照研究類型(一)病例與對照不匹配---非條件logistic回歸在設計所要求病例和對照人群中,分別抽取一定量研究對象,普通對照應等于或多于病例數(shù),另外無其它任何限制。(二)病例與對照匹配---條件logistic回歸匹配或稱配比(matching),即要求對照在一些原因或特征上與病例保持一致,目標是對兩組比較時排除混雜原因干擾。匹配分為成組匹配和個體匹配。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第11頁非條件logistic回歸應變量為二分類資料一個二分類自變量兩個(多個)二分類自變量無序多分類自變量有序多分類自變量引入數(shù)值型自變量應變量為有序多分類資料應變量為無序多分類資料醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第12頁二分類資料logistic回歸二分類logistic回歸對自變量沒有特殊要求,自變量能夠是分類變量(包含二分類和多分類變量)和數(shù)值變量。二分類資料logistic回歸經(jīng)過SPSS統(tǒng)計軟件二元Logistic過程實現(xiàn)統(tǒng)計分析。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第13頁【例1】某醫(yī)師為研究婦女服避孕藥與子代染色體異常關系,分別調(diào)查了子代染色體異常和正常同齡組兒童母親54名和196名,結(jié)果如表。試對此資料進行分析,能否提出子代染色體異常與其母在孕前6個月內(nèi)服用避孕藥相關?醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第14頁SPSS軟件操作第1步:定義變量醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第15頁第2步:輸入原始數(shù)據(jù)醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第16頁第3步:加權(quán)設置選擇數(shù)據(jù)→加權(quán)個案(W)將f移入頻率變量醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第17頁第4步:logistic回歸分析(1)選擇分析→

回歸→二元logistic醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第18頁第4步:logistic回歸分析(2)將a和b分別移入?yún)f(xié)變量和因變量醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第19頁自變量全部進入模型向前逐步選擇法向后逐步剔除法條件:將變量剔除出模型依據(jù)是條件參數(shù)預計似然比統(tǒng)計量概率值。LR:將變量剔除出模型依據(jù)是最大偏似然預計似然比統(tǒng)計量概率值。Wald:將變量剔除出模型依據(jù)是Wald統(tǒng)計量概率值。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第20頁第4步:logistic回歸分析(3)設置選項勾上exp(B)95CI。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第21頁第4步:logistic回歸分析(4)結(jié)果解讀:OR=3.200,p=0.000OR95%CI為(1.712~5.983)Exp(B)=eB醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第22頁值得注意是病例-對照研究中,病例與對照兩組人數(shù)百分比是人為要求,不代表自然人群中真實病人與正常人比值。所以,依據(jù)病例一對照研究資料建立Logistic回歸方程中,常數(shù)項意義不大,主要針對結(jié)果中自變量回歸系數(shù)及其對應比數(shù)比OR值意義作解釋,不宜直接用于所研究事件發(fā)生概率預測和判別。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第23頁兩個二分類自變量logistic回歸兩個自變量均為兩水平二分類資料Logistic回歸分析與一個自變量為兩水平二分類資料Logistic回歸分析在步驟方法上是相同,只是增加了一個自變量,在建立Logistic回歸方程時需要對兩個自變量對應參數(shù)進行預計,計算兩個比數(shù)比。另外,兩個自變量都有意義時,看哪個影響作用更大些,與多重線性回歸一樣,也是比較標準偏回歸系數(shù)絕對值大小。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第24頁無序多分類自變量Logistic回歸自變量是一個或多個為無序多分類變量時,其Logistic回歸在方法上同上述二分類資料Logistic回歸,只要對自變量不一樣水平結(jié)構(gòu)啞變量即可。某一多分類無序自變量可結(jié)構(gòu)啞變量數(shù)等于該自變量分類數(shù)減1。將啞變量引入模型,其結(jié)果不論有沒有統(tǒng)計學意義,都是相對事先確定某一類為基準對照而言。SPSS對字符型多分類無序自變量,系統(tǒng)默認以最終那個分類為對照。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第25頁有序多分類自變量Logistic回歸Logistic回歸中自變量為有序多分類變量,即等級變量,如文化程度可分為文盲、小學、中學、大學及以上等。這種資料Logistic回歸分兩種情況處理:假如自變量等級分組與logit(P)呈線性關系,即等級效應等百分比增加或降低,則該自變量能夠作為一個數(shù)值型自變量引人模型;不然,將等級變量視為無序多分類自變量,以啞變量形式引入模型進行分析。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第26頁引入數(shù)值型自變量Logistic回歸數(shù)值變量直接引入模型,得到對應比數(shù)比OR是指自變量增加一個單位(如年紀增加1歲)比數(shù)自然對數(shù)值改變量。若將數(shù)值自變量分成幾組,如自變量年紀按10歲間隔分組引人模型時,其OR值是指年紀每增加10歲比數(shù)自然對數(shù)值改變量。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第27頁數(shù)值型變量轉(zhuǎn)換成份類變量臨界點選擇,最正確方法是采取ROC分析。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第28頁【例2】為了探索相關危險原因和保護原因,對32例胃癌病人和32例對照者進行病例對照研究,考查危險原因作為自變量,分別為:

x1(年紀)

x2(蛋白質(zhì)攝入量由低到高:0,1,2,3,4)

x3(新鮮蔬菜及水果食用情況:良好、普通、不足、嚴重不足為0,1,2,3),

x4(吃鹽量高食物由輕到重為:0,1,2,3,4),

x5(飲食習慣,從良好,普通,不良,嚴重不良為:0,1,2,3),

x6(精神心理原因,從樂觀,較樂觀,普通,不良為0,1,2,3)。

Y(是否患胃癌作為因變量。0未患,1患者)醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第29頁。。。。。。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第30頁SPSS軟件操作第1步:定義變量醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第31頁第2步:輸入原始數(shù)據(jù)醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第32頁第3步:logistic回歸分析(1)選擇分析→

回歸→二元logistic醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第33頁第3步:logistic回歸分析(2)將x1-6和y分別移入?yún)f(xié)變量和因變量醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第34頁第3步:logistic回歸分析(3)設置選項勾上exp(B)95CI。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第35頁第3步:logistic回歸分析(4)結(jié)果解讀:給出各原因OR(95%CI)及對應p值。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第36頁第3步:logistic回歸分析(5)醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第37頁第3步:logistic回歸分析(6)醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第38頁第3步:logistic回歸分析(7)結(jié)果解讀:給出入選各原因OR(95%CI)及對應p值。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第39頁【例3】為了探討冠心病發(fā)生相關危險原因,對26例冠心病病人和28例對照者進行病例-對照研究,各原因說明及資料以下,試用logistic回歸分析方法篩選危險原因

。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第40頁。。。。。。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第41頁SPSS軟件操作第1步:定義變量醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第42頁第2步:輸入原始數(shù)據(jù)醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第43頁第3步:logistic回歸分析(1)選擇分析→

回歸→二元logistic醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第44頁第3步:logistic回歸分析(2)將x1-8和y分別移入?yún)f(xié)變量和因變量醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第45頁第3步:logistic回歸分析(3)設置選項勾上exp(B)95CI。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第46頁第3步:logistic回歸分析(4)結(jié)果解讀:給出入選各原因OR(95%CI)及對應p值。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第47頁多分類資料logistic回歸應變量為有序多分類資料logistic回歸應變量水平數(shù)大于2,且水平之間存在等級遞增或遞減關系資料為有序多分類資料。SPSS中經(jīng)過有序logistic過程實現(xiàn)。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第48頁【例4】研究性別和兩種治療方法對某病療效影響,療效評價分為三個有序等級,數(shù)據(jù)以下,試做logistic回歸分析:醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第49頁SPSS軟件操作第1步:定義變量醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第50頁第2步:輸入原始數(shù)據(jù)醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第51頁第3步:加權(quán)設置選擇數(shù)據(jù)→加權(quán)個案(W)將f移入頻率變量醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第52頁第4步:logistic回歸分析(1)選擇分析→

回歸→有序醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第53頁第4步:logistic回歸分析(2)將A和B移入?yún)f(xié)變量,C移入因變量醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第54頁第4步:logistic回歸分析(3)設置輸出勾上平行線檢驗。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第55頁第4步:logistic回歸分析(4)結(jié)果解讀:性別(A)和療法(B)回歸系數(shù)大于0,含有統(tǒng)計學意義。OR分別為e1.319=3.740,e1.797=6.302醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第56頁第4步:logistic回歸分析(5)結(jié)果解讀:平行線檢驗p=0.480,說明應變量各水平與自變量間回歸方程平行。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第57頁應變量為無序多分類資料logistic回歸應變量水平數(shù)大于2,且水平之間不存在等級遞增或遞減關系資料為無序多分類資料。SPSS中經(jīng)過多項logistic過程實現(xiàn)。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第58頁【例5】為了研究胃癌及胃癌前病變核仁組織改變情況,分析核仁組成區(qū)嗜銀蛋白顆粒數(shù)量及大小在胃炎、胃組織不經(jīng)典增生和胃癌三種胃疾病中改變規(guī)律以及臨床診療意義,共檢測129名患者,結(jié)果以下,試做logistic回歸分析:醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第59頁SPSS軟件操作第1步:定義變量醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第60頁第2步:輸入原始數(shù)據(jù)醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第61頁第3步:加權(quán)設置選擇數(shù)據(jù)→加權(quán)個案(W)將f移入頻率變量醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第62頁第4步:logistic回歸分析(1)選擇分析→

回歸→多項logistic醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第63頁第4步:logistic回歸分析(2)將a、b移入?yún)f(xié)變量,Y移入因變量醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第64頁第4步:logistic回歸分析(3)設置選項勾上exp(B)95CI。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第65頁第4步:logistic回歸分析(4)結(jié)果解讀:相對于胃炎OR值以及OR95%CI.醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第66頁數(shù)據(jù)挖掘分析第二部分醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第67頁數(shù)據(jù)挖掘研究設計基本概念基本步驟Clementine軟件應用基本操作關聯(lián)規(guī)則決議樹聚類分析醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第68頁研究時有沒有設計干預原因?試驗性研究觀察性研究是否隨機有沒有對照組分析性研究描述性研究時間方向隊列研究非隨機對照試驗隨機對照試驗病例對照研究橫斷面研究有無有無否是暴露→結(jié)局結(jié)局→暴露醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第69頁觀察性研究因為醫(yī)學研究對象特殊性,在很多科研中,研究者不能主動地控制研究原因。這種在自然狀態(tài)下,觀察疾病發(fā)生、發(fā)展、診治過程中表現(xiàn)出來特點和規(guī)律,以闡述疾病分布特征,認識病因和影響原因,分析防治過程中相關規(guī)律和特征研究方法,稱為觀察性研究。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第70頁數(shù)據(jù)挖掘研究基于數(shù)據(jù)分析方法角度分類本質(zhì)上屬于觀察性研究研究資料起源日常診療工作資料應用技術較傳統(tǒng)研究更先進分析工具、理論模型與傳統(tǒng)研究區(qū)分較大醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第71頁數(shù)據(jù)挖掘——從大量數(shù)據(jù)中尋找其規(guī)律技術,是統(tǒng)計學、數(shù)據(jù)庫技術和人工智能技術綜合。數(shù)據(jù)挖掘——從數(shù)據(jù)中自動地抽取模式、關聯(lián)、改變、異常和有意義結(jié)構(gòu)。數(shù)據(jù)挖掘——利用已經(jīng)有數(shù)據(jù),數(shù)據(jù)搜集過程不經(jīng)過特意科研設計,目標是發(fā)覺規(guī)律,而不是驗證假設。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第72頁數(shù)據(jù)挖掘研究設計基本概念基本步驟Clementine軟件應用基本操作關聯(lián)規(guī)則決議樹聚類分析醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第73頁第一步驟選擇第三步驟挖掘第二步驟處理第四步驟分析2024/4/19數(shù)據(jù)挖掘步驟目標數(shù)據(jù)預處理及變換變換后數(shù)據(jù)數(shù)據(jù)挖掘算法解釋/評定清理篩選知識數(shù)據(jù)挖掘研究基本步驟醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第74頁第一步:選擇數(shù)據(jù)搜集獲取原始數(shù)據(jù)

就是依據(jù)研究目標,進行需要被挖掘分析原始數(shù)據(jù)采集。評定數(shù)據(jù)可取得性。能夠采取較小規(guī)模數(shù)據(jù)對問題可行性進行初步研究。原始數(shù)據(jù)可能會分布于不一樣信息系統(tǒng)中,需要對信息系統(tǒng)充分了解,并有對應技術實現(xiàn)數(shù)據(jù)導出。原始數(shù)據(jù)采集非常費時費勁,通常在研究工作中占相當大比重。75醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第75頁病人基本信息:HIS病人檢驗信息:LIS病人檢驗信息:PACS等醫(yī)技系統(tǒng)病人診療過程信息:電子病歷病人收費信息:HIS。。。。。。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第76頁海量數(shù)據(jù),大量業(yè)務數(shù)據(jù)。問題也很多,標準不統(tǒng)一,極難分析。與臨床相關電子病歷系統(tǒng)結(jié)構(gòu)化與臨床工作量之間矛盾。中醫(yī)系統(tǒng)——醫(yī)療科研信息一體化系統(tǒng)軍隊系統(tǒng)——中國重大疾病臨床診療數(shù)據(jù)庫醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第77頁第二步:處理數(shù)據(jù)數(shù)據(jù)預處理部分,把數(shù)據(jù)轉(zhuǎn)換成比較輕易被數(shù)據(jù)挖掘格式及內(nèi)容。內(nèi)容處理:年紀

六十歲60

有個還分組:老年、青年、等格式處理:年紀

出生日期1950年轉(zhuǎn)成63。

醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第78頁為何需要預處理數(shù)據(jù)不完整含觀察噪聲不一致包含其它不希望成份數(shù)據(jù)清理經(jīng)過填寫空缺值,平滑噪聲數(shù)據(jù),識別刪除孤立點,并處理不一致來清理數(shù)據(jù)。污染數(shù)據(jù)普遍存在,使得在大型數(shù)據(jù)庫中維護數(shù)據(jù)正確性和一致性成為一個及其困難任務。垃圾進、垃圾出。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第79頁污染數(shù)據(jù)形成原因濫用縮寫詞數(shù)據(jù)輸入錯誤數(shù)據(jù)中內(nèi)嵌控制信息不一樣慣用語重復統(tǒng)計丟失值拼寫改變不一樣計量單位過時編碼醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第80頁例:中藥、證型、癥狀預處理預處理是最為關鍵一步正異名處理:白頭翁、白術、白頭公錯別字:青篙、青蒿省略字:龍牡、龍骨,牡蠣炮制預處理……醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第81頁建立一個中藥規(guī)范表編號規(guī)范后名稱原始中藥名稱101400白茅根《藥典》白茅根《藥典》茅根《別冊》生白茅根《切》101600白術《藥典》白術《藥典》土白術《別冊》冬術《別冊》土炒白術《切》炒白術《切》土白術《切》漂白術《切》曬白術《切》101601白術(焦)焦白術焦冬術101602白術(生)生白術101603白術(炭)白術炭101604白術(煨)煨白術101605白術(制)制白術醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第82頁建立證型規(guī)范表編號規(guī)范后證型詞頻次證型詞原文(后綴數(shù)字為醫(yī)案中出現(xiàn)頻次)300905血瘀591血瘀349瘀血85血淤19血滯30血行不暢15血凝12氣血瘀滯10氣血運行不暢10血行瘀滯6氣血郁滯5氣血阻滯5氣血壅滯5血澀4血結(jié)4氣血澀滯3煉血成瘀3氣血凝滯3血阻3干血2氣血不暢2氣血瘀阻2血行不通2血結(jié)成瘀化熱1血行瘀阻1血行受阻1痰血互結(jié)1氣血奎滯1血滯不暢1血分有寒夾瘀1寒凝血泣著而成瘀1氣礙血行1血不得行1血運不暢1血有郁熱1醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第83頁建立癥狀規(guī)范表編號規(guī)范后癥狀頻次醫(yī)案中原文癥狀用詞及使用頻次05體瘦289體瘦93消瘦42形體消瘦34形瘦33形體瘦弱28形體削瘦5形體較瘦5面黃肌瘦4體質(zhì)瘦弱3贏瘦3形體瘦小3身體瘦弱3瘦弱3體質(zhì)消瘦2身體嬴瘦2形體不豐2形體偏瘦2身體較瘦2形體瘦削2嬴瘦2形嬴1形體枯瘦1形體消索1形體漸瘦1形體日嬴1身瘦1肌肉消削1醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第84頁第三步:挖掘分析利用工具和算法,進行數(shù)據(jù)挖掘分析,完成份類、關聯(lián)、聚類、預計、預測等功效,發(fā)覺數(shù)據(jù)中規(guī)律。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第85頁數(shù)據(jù)挖掘主要方法Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40KQQQQII123456factor1factor2factorn神經(jīng)網(wǎng)絡NeuralNetworks聚類分析ClusteringOpenAccn’tAddNewProductDecreaseUsage???Time序列分析SequenceAnalysis決議樹DecisionTrees

傾向性分析關聯(lián)分析Association醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第86頁數(shù)據(jù)挖掘軟件應用醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第87頁SPSSClementine醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第88頁WEKA醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第89頁第四步:結(jié)果解釋結(jié)合專業(yè)知識,進行數(shù)據(jù)挖掘分析結(jié)果解釋,說明規(guī)律,以及規(guī)律臨床價值。結(jié)果解釋是數(shù)據(jù)挖掘研究關鍵,從發(fā)覺規(guī)律深入延伸出其實際意義,是整個研究工作結(jié)果所在。90醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第90頁數(shù)據(jù)挖掘研究設計基本概念基本步驟Clementine軟件應用基本操作關聯(lián)規(guī)則決議樹聚類分析醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第91頁Clementine軟件應用醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第92頁Clementine12.0安裝方法1.下載,存放到D盤,重新命名為“ClementineV12”2.打開ClementineV12--點擊運行setup.exe—按提醒完成安裝到默認目錄:"C:\ProgramFiles\SPSSInc\Clementine12.03.D:\CLE12.0\Clementine12\Crack\破解

復制該文件下“l(fā)servrc”“PlatformSPSSLic7.dll”兩個文件,粘貼到C:\ProgramFiles\SPSSInc\Clementine12.0\bin文件夾下,覆蓋原來同名字文件醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第93頁醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第94頁數(shù)據(jù)挖掘研究設計基本概念基本步驟Clementine軟件應用基本操作關聯(lián)規(guī)則決議樹聚類分析醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第95頁96Clementine用戶界面操作區(qū)醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第96頁節(jié)點——一個圖標代表在Clementine中進行一個操作。工作流——一系列連接在一起節(jié)點??梢暬幊提t(yī)學統(tǒng)計醫(yī)學宣教專家講座第97頁選項板源節(jié)點用來將數(shù)據(jù)讀入Clementine中統(tǒng)計選項節(jié)點在統(tǒng)計上進行操作一條統(tǒng)計是一個“情形”或一“行”數(shù)據(jù)字段選項節(jié)點在字段上進行操作一個字段是一個變量圖形節(jié)點在建模之前和之后用來可視化數(shù)據(jù)建模節(jié)點代表有效建模算法注意:建模算法產(chǎn)生生成模型醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第98頁增加一個節(jié)點在選項板上雙擊節(jié)點,自動放置節(jié)點到數(shù)據(jù)流區(qū)域.將節(jié)點從選項板拖放到數(shù)據(jù)流區(qū)域中在選項板上點擊一個節(jié)點,然后在數(shù)據(jù)流區(qū)域中點擊一下醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第99頁編輯一個節(jié)點在節(jié)點上右擊,展開一個節(jié)點點擊“編輯”在菜單上還能夠選擇連接、斷開連接、重命名、注釋、復制、刪除、載入、保留等操作醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第100頁連接節(jié)點使用鼠標中鍵來連接節(jié)點在數(shù)據(jù)流區(qū)域上,把一個節(jié)點連接到另一個上,能夠經(jīng)過鼠標中間鍵點擊和拖放來完成(假如您鼠標沒有中間鍵,能夠經(jīng)過按住“Alt”鍵來模擬這個過程)經(jīng)過雙擊來連接節(jié)點雙擊選項板上節(jié)點,自動把新節(jié)點連接到數(shù)據(jù)流區(qū)域中“中心”節(jié)點上使用鼠標中鍵醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第101頁刪除節(jié)點之間連接在連接箭頭頭部按住鼠標右鍵選擇“刪除連接”醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第102頁Clementine中讀取數(shù)據(jù)格式文本文件EXCELSPSS數(shù)據(jù)文件ODBC兼容數(shù)據(jù)庫SAS數(shù)據(jù)文件用戶輸入文件醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第103頁讀取原始文件添加變量文件節(jié)點到數(shù)據(jù)流區(qū)域編輯節(jié)點指向文件經(jīng)過編輯進行原始數(shù)據(jù)設置醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第104頁讀取文本文件醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第105頁讀取EXCEL文件醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第106頁讀取其它數(shù)據(jù)文件原始數(shù)據(jù)是什么文件類型,則采取什么節(jié)點醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第107頁定義字段類型類型節(jié)點指定字段一系列主要屬性;指定字段類型、方向和缺失值;Clementine能夠自動設置變量類型,用戶也能夠強制指定類型;為建立模型,指定字段方向;指定缺失值以及怎樣處理缺失值;變量值檢驗確保字段值滿足一定設置;字段類型幫助您了解正在使用數(shù)據(jù),是一些數(shù)據(jù)準備和全部建模程序所必需.醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第108頁連續(xù)型–用于描述數(shù)值,如0-100或者0.75-1.25內(nèi)連續(xù)值一個連續(xù)值能夠是整數(shù)、實數(shù)或日期/時間離散型–用于當一個詳細值準確數(shù)量未知時描述字符串,一旦數(shù)據(jù)被讀取,其類型就會是標識、集合或者無類型集合型–用于描述帶有多個詳細值數(shù)據(jù)(黃、綠、藍)標識型–用于只取兩個詳細值數(shù)據(jù)(真、假)無類型–用于不符合上述任一個類型數(shù)據(jù)或者含有太多元素集合類型數(shù)據(jù)醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第109頁字段方向輸入:輸入或者預測字段輸出:輸出或者被預測字段字段二者:既是輸入又是輸出,只在關聯(lián)規(guī)則中用到無:建模過程中不使用該字段分區(qū):將數(shù)據(jù)拆分為訓練、測試(驗證)部分字段方向設置只有在建模時才起作用醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第110頁字段實例化在讀取值前數(shù)據(jù)稱為未實例化,經(jīng)過讀取值后數(shù)據(jù)完全實例化,字段取值和類型都是可知.醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第111頁數(shù)據(jù)挖掘分析普通步驟1、數(shù)據(jù)整理2、數(shù)據(jù)格式轉(zhuǎn)化3、數(shù)據(jù)文件讀入4、數(shù)據(jù)類型設置5、模型選擇與參數(shù)設置6、結(jié)果輸出與解讀醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第112頁1、數(shù)據(jù)整理整理成可分析數(shù)據(jù)普通為橫向數(shù)據(jù),即一個病人一條統(tǒng)計。ID藥品數(shù)量(克)1甘草101當歸101白術102大黃102白術102黃芩103當歸103紅花103白術10ID甘草當歸白術大黃黃芩紅花110101000020010101003010100010醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第113頁2、數(shù)據(jù)格式轉(zhuǎn)換轉(zhuǎn)化成軟件能夠讀入格式,慣用TXT文件醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第114頁3、數(shù)據(jù)文件讀入醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第115頁醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第116頁查看讀入數(shù)據(jù)是否成功醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第117頁4、數(shù)據(jù)類型設置醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第118頁5、模型選擇與參數(shù)設置關聯(lián)規(guī)則決議樹類神經(jīng)網(wǎng)絡聚類分析判別分析醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第119頁醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第120頁6、結(jié)果輸出與解讀執(zhí)行模型后,輸出結(jié)果。直接查看結(jié)果,也能夠再次增加table節(jié)點,查看新寫入數(shù)據(jù)。結(jié)合專業(yè)知識進行解讀。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第121頁數(shù)據(jù)挖掘研究設計基本概念基本步驟Clementine軟件應用基本操作關聯(lián)規(guī)則決議樹聚類分析醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第122頁關聯(lián)規(guī)則基本概念是分析兩個或多個變量取值之間存在某種規(guī)律性方法,包含簡單關聯(lián)規(guī)則和系列關聯(lián)規(guī)則。在Clementine中實現(xiàn)簡單關聯(lián)規(guī)則算法有Apriori和GRI兩種,Apriori只能處理分類變量,GRI還能夠處理前項是數(shù)值型變量情況。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第123頁簡單關聯(lián)規(guī)則有效性主要測度指標包含兩個:規(guī)則置信度和規(guī)則支持度。規(guī)則置信度是對簡單關聯(lián)規(guī)則準確度測量,描述了包含項目X事務中同時也包含項目Y概率。規(guī)則支持度是對簡單關聯(lián)規(guī)則普遍性測量,表示項目X和項目Y同時出現(xiàn)概率。一個理想簡單關聯(lián)規(guī)則應含有較高置信度和較高支持度。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第124頁關聯(lián)規(guī)則應用實例【例6】搜集了某一時間范圍內(nèi)治療某一疾病中藥方3122張,包括藥品251種。要分析處方中慣用藥對情況,現(xiàn)進行關聯(lián)規(guī)則分析。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第125頁藥正確概念方劑庫1白術,蒼術,大黃,白芍2白術,蒼術,紅花3白術,蒼術,白芍方劑轉(zhuǎn)化成藥對1白術-蒼術,白術-大黃,白術-白芍,蒼術-大黃,蒼術-白芍,大黃-白芍2白術-蒼術,白術-紅花,蒼術-紅花3白術-蒼術,白術-白芍,蒼術-白芍編號藥對頻次1白術-蒼術32白術-白芍23白術-大黃14白術-紅花15蒼術-白芍26蒼術-大黃17蒼術-紅花18大黃-白芍1醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第126頁編號藥對頻次支持度置信度1白術?蒼術3100%100%蒼術?白術100%2白術?白芍266%66%白芍?白術100%3白術?大黃133%33%大黃?白術100%4白術?紅花133%33%紅花?白術100%5蒼術?白芍266%66%白芍?蒼術100%6蒼術?大黃133%33%大黃?蒼術100%7蒼術?紅花133%33%紅花?蒼術100%8大黃?白芍133%100%白芍?大黃50%置信度、支持度概念醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第127頁單味藥頻次白術蒼術白芍大黃紅花33211方劑庫1白術,蒼術,大黃,白芍2白術,蒼術,紅花3白術,蒼術,白芍同時出現(xiàn)白芍、大黃方劑數(shù)1“白芍-大黃”支持度=————————————————=33%總方劑數(shù)3同時出現(xiàn)白芍、大黃方劑數(shù)1“白芍?大黃”置信度=————————————————=50%凡出現(xiàn)白芍方劑數(shù)2同時出現(xiàn)白芍、大黃方劑數(shù)1“大黃?白芍”置信度=————————————————=100%凡出現(xiàn)大黃方劑數(shù)1編號藥對頻次支持度置信度8白芍?大黃133%50%大黃?白芍100%醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第128頁設定

最小支持度50%

最小置信度50%藥對頻次支持度置信度白術?蒼術3100%100%蒼術?白術100%白術?白芍266%66%白芍?白術100%白術?大黃133%33%大黃?白術100%白術?紅花133%33%紅花?白術100%蒼術?白芍266%66%白芍?蒼術100%蒼術?大黃133%33%大黃?蒼術100%蒼術?紅花133%33%紅花?蒼術100%大黃?白芍133%100%白芍?大黃50%醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第129頁1、數(shù)據(jù)整理從醫(yī)院HIS系統(tǒng)中導出某一疾病在某一時間范圍內(nèi)藥方信息。數(shù)據(jù)整理目標是確保從日常運行數(shù)據(jù)中取得數(shù)據(jù)標準是統(tǒng)一,規(guī)則是一致,同類信息表示是無偏。比如藥名信息有“白頭翁”、“白術”、“白頭公”,則統(tǒng)一為“白術”。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第130頁2、數(shù)據(jù)格式轉(zhuǎn)化

——橫縱向轉(zhuǎn)換從業(yè)務數(shù)據(jù)庫取得原始數(shù)據(jù)表基本上都是縱向結(jié)構(gòu)。為了便于數(shù)據(jù)挖掘分析,必須將其轉(zhuǎn)換成橫向數(shù)據(jù)結(jié)構(gòu),即轉(zhuǎn)換成一個個案信息由一條統(tǒng)計全部展示。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第131頁2、數(shù)據(jù)格式轉(zhuǎn)化

——文件類型轉(zhuǎn)換SPSSClementine能讀取文件類型包含文本文件、EXCEL文件、SPSS數(shù)據(jù)文件、ODBC兼容數(shù)據(jù)庫、SAS數(shù)據(jù)文件和用戶輸入文件。普通文本文件出現(xiàn)亂碼、錯位等錯誤概率較小,占用資源也較少,可優(yōu)先轉(zhuǎn)換成TXT文件。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第132頁3、數(shù)據(jù)文件讀入數(shù)據(jù)文件讀入第一步是構(gòu)建一個原始文件節(jié)點,經(jīng)過編輯原始文件節(jié)點,選定文件路徑,讀取原始數(shù)據(jù)文件。點擊“確定”后,該數(shù)據(jù)節(jié)點就有了可分析原始數(shù)據(jù)。為了查看原始數(shù)據(jù)是否正確讀入,可增加table節(jié)點,查看原始數(shù)據(jù)是否已經(jīng)被讀入,格式是否準確,有沒有亂碼等情況。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第133頁醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第134頁醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第135頁4、數(shù)據(jù)類型設置兩分類變量,設置文件類型為flag,關聯(lián)分析方向設置為“both”醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第136頁全部設置完成后,讀取變量(字段實例化)醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第137頁5、模型選擇與參數(shù)設置在讀取原始數(shù)據(jù)和數(shù)據(jù)格式定義好以后,就能夠依據(jù)數(shù)據(jù)挖掘分析需要選擇對應模型,在簡單關聯(lián)分析中可選擇Apriori或GRI兩種節(jié)點。以Apriori為例,節(jié)點相關參數(shù)設置主要包含兩部分:設置進行兩兩關聯(lián)分析變量和最小置信度、最小支持度定義。普通中藥藥對研究中,可選最小置信度和最小支持度均為50%。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第138頁兩兩關聯(lián)分析變量定義醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第139頁最小置信度、最小支持度定義醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第140頁6、結(jié)果輸出與解讀醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第141頁輸出了最小支持度和置信度均在50%以上藥對。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第142頁中藥與中藥之間癥狀與癥狀之間證型與證型之間中藥與癥狀之間中藥與證型之間癥狀與證型之間關系中醫(yī)藥關聯(lián)規(guī)則分析其它應用醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第143頁關聯(lián)分析完整數(shù)據(jù)流圖醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第144頁數(shù)據(jù)挖掘研究設計基本概念基本步驟Clementine軟件應用基本操作關聯(lián)規(guī)則決議樹聚類分析醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第145頁決議樹基本概念在數(shù)據(jù)挖掘中,決議樹是分類預測經(jīng)典算法。決議樹算法目標是經(jīng)過向數(shù)據(jù)學習,取得輸入變量和輸出變量不一樣取值下數(shù)據(jù)分類和預測規(guī)律,并用于對新數(shù)據(jù)對象分類預測。SPSSClementine提供C5.0、CART、CHAID、QUEST在內(nèi)決議樹經(jīng)典算法。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第146頁決議樹應用實例【例7】搜集了某一時間范圍內(nèi)治療應用作用效果類似A、B、C、X、Y5種藥品治療病人200例,資料包含年紀、性別、膽固醇、血壓、血鉀、血鈉、使用藥品等7個變量?,F(xiàn)進行用藥決議規(guī)律決議樹分析。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第147頁1、數(shù)據(jù)整理從醫(yī)院HIS、LIS、電子病歷系統(tǒng)中導出某一疾病在某一時間范圍內(nèi)相關信息。數(shù)據(jù)整理目標是確保從日常運行數(shù)據(jù)中取得數(shù)據(jù)標準是統(tǒng)一,規(guī)則是一致,同類信息表示是無偏。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第148頁2、數(shù)據(jù)格式轉(zhuǎn)化

——橫縱向轉(zhuǎn)換從業(yè)務數(shù)據(jù)庫取得原始數(shù)據(jù)表基本上都是縱向結(jié)構(gòu)。為了便于數(shù)據(jù)挖掘分析,必須將其轉(zhuǎn)換成橫向數(shù)據(jù)結(jié)構(gòu),即轉(zhuǎn)換成一個個案信息由一條統(tǒng)計全部展示。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第149頁2、數(shù)據(jù)格式轉(zhuǎn)化

——文件類型轉(zhuǎn)換SPSSClementine能讀取文件類型包含文本文件、EXCEL文件、SPSS數(shù)據(jù)文件、ODBC兼容數(shù)據(jù)庫、SAS數(shù)據(jù)文件和用戶輸入文件。普通文本文件出現(xiàn)亂碼、錯位等錯誤概率較小,占用資源也較少,可優(yōu)先轉(zhuǎn)換成TXT文件。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第150頁3、數(shù)據(jù)文件讀入數(shù)據(jù)文件讀入第一步是構(gòu)建一個原始文件節(jié)點,經(jīng)過編輯原始文件節(jié)點,選定文件路徑,讀取原始數(shù)據(jù)文件。點擊“確定”后,該數(shù)據(jù)節(jié)點就有了可分析原始數(shù)據(jù)。為了查看原始數(shù)據(jù)是否正確讀入,可增加table節(jié)點,查看原始數(shù)據(jù)是否已經(jīng)被讀入,格式是否準確,有沒有亂碼等情況。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第151頁醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第152頁醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第153頁4、數(shù)據(jù)類型設置設置文件類型兩分類變量為flag,多分類為set,連續(xù)資料為rang。決議樹中,決議目標設置方向為out,其它作為決議依據(jù)變量設置為in。醫(yī)學統(tǒng)計醫(yī)學宣教專家講座第154頁5、模型選擇與參數(shù)設置在讀取原始數(shù)據(jù)和數(shù)據(jù)格式定義好以后,就能夠依據(jù)數(shù)據(jù)挖掘分析需要選擇對應模型,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論