




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
醫(yī)學大數據分析聚類方法高等教育出版社CONTENTS目錄1聚類的概念2聚類與分類的區(qū)別3劃分方法4層次聚類4聚類算法評估1聚類的概念什么是聚類?
什么是聚類?聚類分析是將物理的或者抽象的數據集合劃分為多個類別的過程,聚類之后的每個類別中任意兩個數據樣本之間具有較高的相似度,而不同類別的數據樣本之間具有較低的相似度。每一類稱為一個簇。物以類聚,人以群分聚類和分類的區(qū)別有監(jiān)督學習學習器通過對大量有標記的訓練集進行學習,從而建立模型用于預測未見示例的標記,例如神經網絡和決策樹無監(jiān)督學習無訓練樣本,僅根據測試樣本的在特征空間分布情況來進行標記/聚簇有監(jiān)督學習無監(jiān)督學習分類圖示訓練數據待分類數據聚類圖示聚類中沒有任何指導信息,完全按照數據的分布進行類別劃分2劃分方法距離度量
距離度量
3劃分方法劃分方法給定n個數據對象的數據集D,以及要生成的簇數k,劃分算法把數據分成k(k≦n)個分區(qū),其中每個分區(qū)代表一個簇。使得在同一個簇中對象是“相似的”,而不同簇中的對象是“相異的”。也就是說,它將數據劃分為k個組,同時滿足如下的要求:每個組至少包含一個對象;每個對象必須屬于且只屬于一個組,同時某些模糊劃分技術中第二個要求可以放寬。劃分方法主要包含以下兩種:K-均值算法K-中心點算法k均值聚類給定k,算法的處理流程如下:Step1:從D中任意選擇k個對象作為初始簇中心;Step2:將每個對象根據其與各個簇中心的距離,重新分配到與它最近的簇中;Step3:計算每個簇的平均值,并用該平均值代表相應的簇;Step4:回到第2步,直到不再有新的分配發(fā)生。k均值聚類(a)
(b)(c)(d)k均值聚類優(yōu)點相對高效的:算法復雜度O(tkn),其中n是數據對象的個數,k是簇的個數,t是迭代的次數,通常k,t<<n當簇是密集的,簇與簇之間區(qū)別明顯時,它的效果較好。缺點只有當平均值有意義的情況下才能使用,對于類別字段不適用;必須事先給定要生成的簇的個數k;對“噪聲”和異常數據敏感;不能發(fā)現非球形的簇,難以達到全局最優(yōu)k均值聚類缺陷(a)聚類-預期結果(b)原始數據(c)結果較差聚類k-中心點聚類k-均值算法對離群點非常敏感。因為擁有極端值的對象將在很大程度上影響數據的分布。k-中心點:用中心點(位于簇最中心位置的對象)而不是簇中對象的平均值作為參考點。k-中心點聚類算法實現的過程:設置聚類簇數k,從數據集中隨機選擇k個數據點作為初始簇中心。計算其余數據點到聚類簇中心的距離,并將其分配到距離最近的簇中。隨機選擇一個非簇中心代替最開始的初始中心,并進行重新分配剩余的數據。計算代替后的總代價,如果該總代價小于代替之前的總代價,則用該非簇中心對象代替原來的簇中心,否則不替換。重復執(zhí)行步驟3-4,直到沒有簇中心發(fā)生變化或達到迭代次數,算法停止并輸出聚類簇中心坐標。k-中心點聚類-優(yōu)缺點k-中心點聚類的主要優(yōu)點:該算法原理簡單,容易實現。該算法伸縮性好,能夠處理中小型數據集。該算法對于讀入數據的順序不敏感,數據輸入順序不影響聚類結果。該算法對離群點或“噪聲”數據不敏感。k-中心點聚類-優(yōu)缺點
4層次聚類層次聚類把數據分成不同層,將數據對象組成層次結構或簇的“樹”,有利于數據匯總和可視化。層次聚類使用距離作為衡量標準,不需要輸入聚類的個數k,但需要設置終止條件。層次聚類-步驟(1)把n個對象作為n個聚類(2)找出距離最近的兩個聚類合并(3)重復(2)直至n個對象歸于一類(或幾類)BCAFDEG層次聚類-距離最小距離(SINGLE):最大距離(COMPLETE):距離均值(MEAN):平均距離(AVERAGE):層次聚類-距離(a)最小距離
(b)最大距離(c)平均距離
(d)均值距離當算法使用最小距離衡量簇間距離時,稱為最近鄰聚類算法。此外,如果當最近的簇之間的距離超過某個任意的閾值時聚類過程就會終止,則稱其為單連接算法。當一個算法使用最大距離度量簇間距離時,稱為最遠鄰聚類算法。如果當最近簇之間的最大距離超過某個任意的閾值時聚類過程就會終止,則稱其為全連接算法。距離度量先將五個樣本都分別看成是一個簇,最靠近的兩個簇是3和4,因為他們具有最小的簇間距離D(3,4)=5.0第一步:合并簇3和4,得到新的簇集合1,2,(3,4),5x1x2110522020330104301555101234510.00218.00.00320.614.10.00422.411.25.000.0057.0718.025.025.50.00最小距離層次聚類實例第二步:更新距離矩陣:D(1,(3,4))=min(D(1,3),D(1,4))=min(20.6,22.4)=20.6D(2,(3,4))=min(D(2,3),D(2,4))=min(14.1,11.2)=11.2D(5,(3,4))=min(D(3,5),D(4,5))=min(25.0,25.5)=25.0125(34)10.00218.00.0057.0718.00.00(34)20.611.225.00.002(34)(15)20.00(34)11.20.00(15)18.020.60.00(15)(234)(15)0.00(234)18.00.00最小距離層次聚類實例最小距離層次聚類實例最小和最大度量代表了簇間距離度量的兩個極端。它們趨向對離散點或噪聲數據過分敏感。使用均值距離和平均距離是對最小和最大距離之間的一種折中方法,而且可以克服離群點敏感性問題。盡管均值距離計算簡單,但是平均距離也有它的優(yōu)勢,因為它既能處理數值數據又能處理分類數據。各種距離優(yōu)缺點層次聚類方法盡管簡單,但經常會遇到合并或分裂點選擇的困難。這樣的決定是非常關鍵的,因為一旦一組對象合并或者分裂,下一步的處理將對新生成的簇進行。(不能撤銷先前步驟所做的工作)不具有很好的可伸縮性,因為合并和分裂的決定需要檢查和估算大量的對象或簇,時間復雜度為O(n2)層次聚類缺點5聚類算法評估36聚類算法評估主要包括:確定數據集中的簇數測定聚類質量算法評估37
算法評估—確定簇數38外在方法當原始數據集含有正確的類別信息,則可以使用與分類算法類似的評估方法對聚類結果進行評價。含有正確類別信息的數據稱為基準數據。用一定的度量評判聚類結果與基準數據的符合程度即可。內在方法采用輪廓系數進行衡量算法評估—測定聚類質量39算法評估—輪廓系數
THANKS本講結束高等教育出版社醫(yī)學大數據分析時間序列分析高等教育出版社CONTENTS目錄1時間序列概述1.1基本概念2時間序列基本模型分類基本分析方法分解與基本特征2.1確定性時間序列模型2.2隨機性時間序列模型1.21.31.41時間序列概述引子時間序列概述時間序列是一種復雜的數據對象類型。最早的時間序列分析可以追溯到7000年前的古埃及。古埃及人把尼羅河漲落的情況逐天記錄下來,然后對這個時間序列長期地觀察,結果他們發(fā)現尼羅河的漲落是非常有規(guī)律的。由于掌握了尼羅河泛濫的規(guī)律,使得古埃及的農業(yè)迅速發(fā)展,從而創(chuàng)建了埃及燦爛的史前文明。在醫(yī)學研究工作中,有很多類似的序列,這些序列的指標值隨時間變化,有明顯的時間先后順序。比如,人體從清晨到深夜的體溫記錄、人體餐后血糖濃度的變化、不同睡眠階段的腦電波、24小時動態(tài)心電圖等等。時間序列數據中的觀測值不獨立,因此不能采用常規(guī)的統計方法解決,此時應采用時間序列分析對數據進行處理。基于時間序列模型,可以對醫(yī)院門診量、住院人數、藥品消耗量、腦電、心電信號等時間序列進行分析和預測。1.1基本概念所謂時間序列(TimesSeries),是指同一現象或同一變量在不同時間上的觀察值排列而成的數列,也稱時間數列,常以Yt表示。形式上由現象所屬的時間和現象在不同時間上的觀察值兩部分組成。這里的時間可以是年份、季度、月份或其他任何時間形式。時間序列是應用較普遍的數據表現形式和數據存儲格式。醫(yī)學領域也存在著大量的時間序列,比如從1955年到2010年的兒童結腦死亡率的變化規(guī)律;從1980年到2010年我國高壓氧艙數量的增長規(guī)律等。時間序列概述——基本概念1.2分類時間序列概述——分類1.3基本分析方法對于給定的時間序列,通常可以從絕對增長量、平均增長量、發(fā)展速度、增長速度、平均發(fā)展速度、平均增長速度等方面進行基本分析。時間序列概述——基本分析方法時間序列概述——基本分析方法例子:全國衛(wèi)生機構2000-2008年床位數的統計數據表10-1衛(wèi)生機構2000-2008年床位數的動態(tài)變化時間序列概述——基本分析方法例子:全國衛(wèi)生機構2000-2008年床位數的統計數據時間序列概述——基本分析方法例子:全國衛(wèi)生機構2000-2008年床位數的統計數據時間序列概述——基本分析方法例子:全國衛(wèi)生機構2000-2008年床位數的統計數據時間序列概述——基本分析方法例子:全國衛(wèi)生機構2000-2008年床位數的統計數據時間序列概述——基本分析方法例子:全國衛(wèi)生機構2000-2008年床位數的統計數據時間序列概述——基本分析方法例子:全國衛(wèi)生機構2000-2008年床位數的統計數據1.4分解與基本特征時間序列中每一時期形成的的數值都是由許多不同因素共同作用的結果,而這些影響因素往往交織在一起,增加了時間序列趨勢分析的困難。在眾多因素中,有的因素起長期的、決定性的作用,使時間序列呈現出某種趨勢性、周期性和一定的規(guī)律性;有的因素則起著短暫、非決定性的作用,使時間序列呈現出某種不規(guī)則性。時間序列由于受到各種偶然因素的影響,往往表現出隨機性且彼此之間存在統計相關性或存在反映系統動態(tài)變化的特征信息。為了分析時間序列的模式或趨勢,通常需要先了解時間序列的主要成分,然后再進行分解,據此進行分析。時間序列概述——分解與基本特征組成成分長期趨勢(SecularTrend)一般用T表示。指現象在較長時期內持續(xù)發(fā)展變化的一種趨向或狀態(tài)。即時間序列隨時間的變化呈現出逐漸增加或減少的一種長期變化趨勢。這些趨勢可以分為線性趨勢和非線性趨勢。不規(guī)則變動(IrregularVariation)一般用I表示。是指由于突發(fā)事件、偶然因素或不明原因等對時間序列造成的非趨勢性、非季節(jié)性、非循環(huán)性的隨機變動。因此,不規(guī)則變動是沒有規(guī)律的,是不可預測的。循環(huán)變動(CyclicalVariation)一般用C表示。是指以若干年為周期、不具嚴格規(guī)則的周期性連續(xù)變動。與長期趨勢不同,它不是朝著單一方向的持續(xù)運動,而是漲落相間的如鐘擺般的波浪式起伏變化;與季節(jié)變動也不同,它的波動時間較長,變動的周期長短不一,變動的規(guī)則性和穩(wěn)定性較差。季節(jié)變動(SeasonalVariation)一般用S表示。是指由于季節(jié)的變化而引起的現象發(fā)展水平的規(guī)則變動01020304時間序列概述——分解與基本特征時間序列的組成成分時間序列的組成成分:長期趨勢(SecularTrend)01時間序列概述——分解與基本特征時間序列的組成成分:季節(jié)變動(SeasonalVariation)02時間序列概述——分解與基本特征時間序列的組成成分:循環(huán)變動(CyclicalVariation)03時間序列概述——分解與基本特征時間序列的組成成分:不規(guī)則變動(IrregularVariation)04時間序列概述——分解與基本特征一個時間序列通常包括上述4種成分或其中幾種變動因素,因此分析時間序列的基本思路就是將其中的變動因素一一分解出來,測定其變動規(guī)律,然后再綜合反映它們的變動對時間序列變動的影響。采用何種方法分析和測定時間序列中各因素的變動規(guī)律或變動特征取決于對這4種變動因素之間相互關系的假設。一般可對時間序列各變動因素關系作三種不同的假設,即加法關系假設、乘法關系假設、加乘混合關系假設,因而形成了加法模型、乘法模型、加乘混合模型。時間序列概述——分解與基本特征時間序列的分解時間序列的分解加法模型加法模型假設時間序列中每一個指標數值都是長期趨勢、季節(jié)變動、循環(huán)變動和不規(guī)則變動四種變動因素構成,這些因素之間相互獨立且其數值可依次相加,即某種成分的變動并不影響其他成分的變動加乘混合模型加乘混合模型是假設時間序列中每一個指標數值都是長期趨勢、季節(jié)變動、循環(huán)變動和不規(guī)則變動四種成分中的幾種成分做乘法,再與另外的成分做加法。乘法模型乘法模型是假設時間序列中每一個指標數值都是長期趨勢、季節(jié)變動、循環(huán)變動和不規(guī)則變動四種成分的乘積。010203時間序列概述——分解與基本特征時間序列的分解時間序列的分解:加法模型01時間序列概述——分解與基本特征時間序列的分解:乘法模型02時間序列概述——分解與基本特征時間序列的分解:加乘混合模型03時間序列概述——分解與基本特征2時間序列基本模型時間序列分析就是通過對時間序列進行觀察研究,發(fā)現蘊含于時間序列中的事物變化的發(fā)展規(guī)律,并用此規(guī)律對事物的發(fā)展變化趨勢進行預測或施加控制。對于不同的時間序列有不同的分析模型。時間序列基本模型2.1確定性時間序列模型時間序列由長期趨勢、季節(jié)變動、循環(huán)變動和不規(guī)則變動四種成分組成。前三種成分是依一定的規(guī)則而變動,因此在時間序列分析中,設法消除不規(guī)則變動,擬合確定型趨勢。為了消除不規(guī)則變動的影響,一種有效的方法就是取一段時間的觀察值的平均值作為下一時刻的預測值,于是便產生了移動平均法和指數平滑法。時間序列基本模型——確定性時間序列模型時間序列由長期趨勢、季節(jié)變動、循環(huán)變動和不規(guī)則變動四種成分組成。前三種成分是依一定的規(guī)則而變動,因此在時間序列分析中,設法消除不規(guī)則變動,擬合確定型趨勢。為了消除不規(guī)則變動的影響,一種有效的方法就是取一段時間的觀察值的平均值作為下一時刻的預測值,于是便產生了移動平均法和指數平滑法。時間序列基本模型——確定性時間序列模型移動平均法簡單移動平均簡單移動平均按照新序列生成方式分為N期移動平均和中心化移動平均。。趨勢移動平均法當預測目標的基本趨勢在某一水平上下波動時,可用一次移動平均法;當預測目標的基本趨勢與某一線性模型相吻合時,可用二次移動平均法;當預測序列同時存在線性趨勢與周期波動時,用趨勢移動平均法。加權移動平均在簡單移動平均中,每期數據在求平均時的作用是相同的。但在實際中每期數據所包含的信息量不一樣,近期數據包含著更多關于未來情況的信息。因此把各期數據等同看待是不盡合理的,應考慮各期數據的重要性,對近期數據給予較大的權重,這就是加權移動平均法的基本思想。0102031.移動平均法時間序列基本模型——確定性時間序列模型移動平均法是對原序列依次求連續(xù)若干期的平均數作為時間序列某一期的趨勢值,如此逐項遞移求得一系列的移動平均數,形成一個新的平均數時間序列。移動平均法假定預測值與其相鄰的若干觀察期數據擁有密切關系。該方法在一定程度上可以消除歷史數據隨時間變化引起的不規(guī)則變動的影響,從而分析預測時間序列的長期趨勢。移動平均法按預測方法的不同分為簡單移動平均、加權移動平均和趨勢移動平均。N期移動平均數01確定性時間序列模型:移動平均法(1).簡單移動平均:
簡單移動平均按照新序列生成方式分為N期移動平均和中心化移動平均。中心化移動平均02確定性時間序列模型:移動平均法(1).簡單移動平均:
簡單移動平均按照新序列生成方式分為N期移動平均和中心化移動平均。N的取值03確定性時間序列模型:移動平均法(1).簡單移動平均:
簡單移動平均按照新序列生成方式分為N期移動平均和中心化移動平均。確定性時間序列模型:移動平均法(1).簡單移動平均:
例題10-1:某地歷年某傳染病人數的時間序列如下表10-2所示。試用移動平均法預測t=16時的傳染病人數。表10-2某地歷年某傳染病人數確定性時間序列模型:移動平均法(1).簡單移動平均:
例題10-1:試用移動平均法預測t=16時的傳染病人數。確定性時間序列模型:移動平均法(1).簡單移動平均:
例題10-1:試用移動平均法預測t=16時的傳染病人數。確定性時間序列模型:移動平均法(1).簡單移動平均:
例題10-1:試用移動平均法預測t=16時的傳染病人數。(2).加權移動平均確定性時間序列模型:移動平均法(3).趨勢移動平均法確定性時間序列模型:移動平均法確定性時間序列模型:移動平均法例題10-2:某醫(yī)院2001-2012年某藥品出庫量(單位:萬盒)如表10-4所示,試用移動平均法(N=3)預測2013年和2014年的藥品出庫量。確定性時間序列模型:移動平均法例題10-2:試用移動平均法(N=3)預測2013年和2014年的藥品出庫量。確定性時間序列模型:指數平滑法(1).指數平滑法的原理
一次移動平均實際上認為最近N期數據對未來值影響相同,都加權1/N,而N期以前的數據對未來值沒有影響,加權為零。但是二次及更高次移動平均數的權數卻不是1/N。次數越高,權數的結構越復雜。但永遠保持對稱的權數,即兩端項權數小,中間項權數大,這不符合一般系統的動態(tài)性規(guī)律。一般說來,歷史數據對未來值的影響是隨時間間隔的增長而遞減的,所以更切合實際的方法應是對各期觀測值依時間順序進行加權平均作為預測值。這就產生了指數平滑法。
指數平滑法是用時間序列過去取值的加權平均作為未來的預測值,離當前時刻越近的取值,其權重越大。指數平滑法的本質是一種加權移動平均,它既可以用來描述時間序列的變化趨勢,也可以實現時間序列的預測。
指數平滑法根據平滑次數的不同又分為一次指數平滑法、二次指數平滑法和p次指數平滑法。
確定性時間序列模型:指數平滑法(2).指數平滑公式確定性時間序列模型:指數平滑法(3).平滑系數的確定確定性時間序列模型:指數平滑法(4).初始預測值的確定例題10-3:某醫(yī)院某科室2012年1月至11月的門診收入依次為9.03,9.06,9.12,8.73,8.94,9.30,9.15,9.36,9.45,9.30,9.24,試用指數平滑法預測12月份的門診收入。確定性時間序列模型:指數平滑法例題10-3:某醫(yī)院某科室2012年1月至11月的門診收入依次為9.03,9.06,9.12,8.73,8.94,9.30,9.15,9.36,9.45,9.30,9.24,試用指數平滑法預測12月份的門診收入。確定性時間序列模型:指數平滑法例題10-3:某醫(yī)院某科室2012年1月至11月的門診收入依次為9.03,9.06,9.12,8.73,8.94,9.30,9.15,9.36,9.45,9.30,9.24,試用指數平滑法預測12月份的門診收入。確定性時間序列模型:指數平滑法確定性時間序列模型:指數平滑法(5).指數平滑的選擇一次指數平滑適用于不包含長期趨勢和季節(jié)成分的平穩(wěn)時間序列預測,雖然克服了移動平均法的缺點,但當時間序列的變動出現直線趨勢時,用一次指數平滑進行預測,仍存在明顯的滯后偏差,需要進行二次指數平滑,即時間序列的變動出現直線趨勢時用二次指數平滑;當時間序列的變動表現為二次曲線趨勢時,則需要用三次指數平滑。2.2隨機性時間序列模型時間序列基本模型——隨機性時間序列模型時間序列受偶然因素的影響,出現隨機波動,這些隨機性波動,看似雜亂無章,其實也是有一定規(guī)律的。基于隨機性理論,對時間序列進行分析,形成了隨機性時間序列模型。拿到一個觀察值序列后,首先對它的隨機性和平穩(wěn)性進行檢驗。根據檢驗結果可以將序列分為不同的類型,對不同類型的序列采取不同的模型進行分析。隨機性時間序列模型:時間序列的隨機性和平穩(wěn)性對于純隨機序列,又稱為白噪聲序列,序列的各項之間沒有任何相關關系,序列在進行完全無序的隨機波動,可以終止對該序列的分析。純隨機序列是沒有信息可提取的平穩(wěn)序列。對于平穩(wěn)非白噪聲序列,它的均值和方差是常數,現已有一套非常成熟的平穩(wěn)時間序列的建模方法。如AR模型、MA模型、ARMA(AutoregressiveandMovingAverage)模型等是最常用的平穩(wěn)序列擬合模型。對于非平穩(wěn)序列,由于它的均值和方差不穩(wěn)定,處理方法一般是將其轉變?yōu)槠椒€(wěn)序列,這樣就可以應用有關平穩(wěn)時間序列的分析方法。如果一個時間序列經差分運算后具有平穩(wěn)性,則該序列為差分平穩(wěn)序列,可以使用ARIMA(AutoregressiveIntegratedMovingAverage)模型進行分析。(1)平穩(wěn)時間序列的定義隨機性時間序列模型:時間序列的隨機性和平穩(wěn)性(1)平穩(wěn)時間序列的定義隨機性時間序列模型:時間序列的隨機性和平穩(wěn)性如果時間序列{Yt,t∈T}在某一常數附近波動且波動范圍有限,即有常數均值和常數方差,并且延遲k期的序列變量的自協方差和自相關系數是相等的或者延遲k期的序列變量之間的影響程度是一樣的。則稱{Yt,t∈T}為平穩(wěn)序列。平穩(wěn)時間序列沒有明顯的長期趨勢、循環(huán)變動和季節(jié)變動。我們平常所說的平穩(wěn)時間序列是指寬平穩(wěn)時間序列,即在任意時刻,該時間序列的均值為常數,協方差僅與時間間隔有關,不隨時間的平移而變化。(2)平穩(wěn)性檢驗隨機性時間序列模型:時間序列的隨機性和平穩(wěn)性對序列的平穩(wěn)性的檢驗有兩種方法,一種是根據時序圖、自相關圖的特征做出判斷的圖檢驗。該方法操作簡單,應用廣泛,缺點是帶有主觀性。另一種是根據統計量進行檢驗的方法。目前最常用的方法是自相關或偏相關函數檢驗法、單位根檢驗、參數檢驗法、逆序檢驗法、游程檢驗法等。(2)平穩(wěn)性檢驗:①時序圖檢驗隨機性時間序列模型:時間序列的隨機性和平穩(wěn)性(2)平穩(wěn)性檢驗:②自相關圖檢驗隨機性時間序列模型:時間序列的隨機性和平穩(wěn)性平穩(wěn)序列具有短期相關性,這個性質表明對平穩(wěn)序列而言通常只有近期的序列值對現時值的影響比較明顯,間隔越遠的過去值對現時值的影響越小。隨著延遲期數k的增加,平穩(wěn)序列的自相關系數會比較快的衰減趨向于零,并在零附近隨機波動,而非平穩(wěn)序列的自相關系數衰減的速度比較慢,這就是利用自相關圖進行平穩(wěn)性檢驗的標準。(2)平穩(wěn)性檢驗:③自相關系數ACF隨機性時間序列模型:時間序列的隨機性和平穩(wěn)性時間序列的自相關系數是用來描述同一個時間序列相差k個時期的兩個數據序列Yt,Yt-k之間的依賴或相關程度。其取值范圍為-1~1之間,它的絕對值與1越接近,說明時間序列的自相關程度越高。自相關系數可提供時間序列及其模型構成的重要信息。對于純隨機序列,即一個由隨機數字構成的時間序列,其各階的自相關系數接近于零或等于零。而具有明顯的上升或下降趨勢的時間序列或具有強烈季節(jié)變動或循環(huán)變動性質的時間序列將會有高度的自相關。即平穩(wěn)序列自相關系數會很快衰減至0,而非平穩(wěn)時間序列通常衰減速度較慢。(2)平穩(wěn)性檢驗:④偏自相關系數PACF隨機性時間序列模型:時間序列的隨機性和平穩(wěn)性在時間序列中偏自相關是時間序列Yt在給定Yt-1,Yt-2,…,Yt-k-1的條件下,Yt與滯后k期的時間序列之間的條件相關。它用來度量在其滯后1,2,3…,k-1期的時間序列的作用已知的條件下,Yt與Yt-k之間的相關程度。(2)平穩(wěn)性檢驗:⑤單位根檢驗隨機性時間序列模型:時間序列的隨機性和平穩(wěn)性單位根檢驗是指檢驗序列中是否存在單位根,如果存在存在單位根就是非平穩(wěn)時間序列。(3)純隨機性檢驗隨機性時間序列模型:時間序列的隨機性和平穩(wěn)性隨機性時間序列模型:平穩(wěn)時間序列模型對于平穩(wěn)時間序列,常用的模型有:AR模型、MA模型、ARMA模型。(1)p階自回歸模型-AR(p)隨機性時間序列模型:平穩(wěn)時間序列模型(2)滑動平均模型-MA(q)隨機性時間序列模型:平穩(wěn)時間序列模型(3)自回歸滑動平均模型-ARMA(p,q)隨機性時間序列模型:平穩(wěn)時間序列模型(4)有均值項的ARMA模型隨機性時間序列模型:平穩(wěn)時間序列模型隨機性時間序列模型:非平穩(wěn)時間序列模型在實際問題中我們常遇到的序列,特別是反映生理、社會、經濟現象的序列時,大多數并不平穩(wěn),而是呈現出明顯的增長或減少趨勢,或者含有依時間周期變化的趨勢。Box和Jenkins提出的ARIMA模型,即差分自回歸移動平均模型,是國際上流行的一種時間序列預測模型。該方法的核心思想是采用差分方法將非平穩(wěn)時間序列變成平穩(wěn)時間序列,然后再通過差分的逆操作得到原序列的預測值。對于有趨勢性時間序列通常采用ARIMA模型進行分析。對于有季節(jié)性的時間序列,可以采用乘積季節(jié)ARIMA模型進行預測,由于這類模型比較復雜,本課程不做介紹。(1)差分(Difference)運算隨機性時間序列模型:非平穩(wěn)時間序列模型(2)ARIMA模型隨機性時間序列模型:非平穩(wěn)時間序列模型(1)對時間序列的平穩(wěn)性和隨機性進行檢驗隨機性時間序列模型:隨機性時間序列預測步驟畫出時序圖或計算時間序列的自相關系數(ACF)和偏自相關系數(PACF)或計算單位根,判斷時間序列為平穩(wěn)時間序列還是非平穩(wěn)時間序列;對于非平穩(wěn)時間序列,通過差分運算轉換成平穩(wěn)時間序列。對時間序列的純隨機性進行檢驗,當計算出p<0.05,說明不是純隨機序列。當一個時間序列被判定為平穩(wěn)非白噪聲序列時,就可以進行時間序列建模。(2)模型識別隨機性時間序列模型:隨機性時間序列預測步驟(3)模型參數估計隨機性時間序列模型:隨機性時間序列預測步驟用時間序列的數據估計模型中所含自回歸和移動平均項的參數,并判定所選的模型對數據擬合是否夠好?如不恰當則重新選定模型。主要的參數估計方法有矩估計法、最小二乘估計法和極大似然估計法等,一般都由計算機軟件實現,這里不作介紹。(4)模型應用隨機性時間序列模型:隨機性時間序列預測步驟利用所選模型對時間序列進行一步或多步的預測。利用時間序列模型向前預測的時期越長,預測誤差就會越大。例題10-4:表10-9記錄了1975-2006年某市居民糖尿病患者的死亡率(死亡率單位:1/10萬),請用隨機性時間序列模型預測2007-2016年糖尿病患者的死亡率。隨機性時間序列模型:隨機性時間序列預測步驟例題10-4:表10-9記錄了1975-2006年某市居民糖尿病患者的死亡率(死亡率單位:1/10萬),請用隨機性時間序列模型預測2007-2016年糖尿病患者的死亡率。隨機性時間序列模型:隨機性時間序列預測步驟檢驗序列的平穩(wěn)性01畫出原始序列的時序圖和自相關圖,計算出單位根;根據圖形和計算結果,判斷原始序列為非平穩(wěn)序列,因為非平穩(wěn)序列一定不是白噪聲序列,所以對原始序列不需要進行白噪聲檢驗。例題10-4:表10-9記錄了1975-2006年某市居民糖尿病患者的死亡率(死亡率單位:1/10萬),請用隨機性時間序列模型預測2007-2016年糖尿病患者的死亡率。隨機性時間序列模型:隨機性時間序列預測步驟對原始序列進行一階差分,并進行平穩(wěn)性和白噪聲檢驗02畫出一階差分后的序列的時序圖和自相關圖,計算出單位根;根據圖形和計算結果,判斷一階差分后的序列為平穩(wěn)序列;再進行白噪聲檢驗,根據算出的p值,判定一階差分的序列為非白噪聲序列。例題10-4:表10-9記錄了1975-2006年某市居民糖尿病患者的死亡率(死亡率單位:1/10萬),請用隨機性時間序列模型預測2007-2016年糖尿病患者的死亡率。隨機性時間序列模型:隨機性時間序列預測步驟根據表10-8進行模型定階03根據自相關圖和偏自相關圖,確定模型的階數p和q模型參數估計04用模型預測2007-2016年糖尿病患者的死亡率05例題10-4:表10-9記錄了1975-2006年某市居民糖尿病患者的死亡率(死亡率單位:1/10萬),請用隨機性時間序列模型預測2007-2016年糖尿病患者的死亡率。隨機性時間序列模型:隨機性時間序列預測步驟例題10-4:表10-9記錄了1975-2006年某市居民糖尿病患者的死亡率(死亡率單位:1/10萬),請用隨機性時間序列模型預測2007-2016年糖尿病患者的死亡率。結果如下:隨機性時間序列模型:隨機性時間序列預測步驟例題10-4:表10-9記錄了1975-2006年某市居民糖尿病患者的死亡率(死亡率單位:1/10萬),請用隨機性時間序列模型預測2007-2016年糖尿病患者的死亡率。隨機性時間序列模型:隨機性時間序列預測步驟隨機性時間序列模型:關于時間序列預測的幾點說明(1)時間序列預測的一個基本假設是:現象在過去的發(fā)展趨勢會在未來保持下去。如果外部環(huán)境發(fā)生了重大變化,預測結果很可能是不可靠的。(2)對歷史數據擬合最好的模型預測效果不一定是最好的。(3)復雜的模型不一定比簡單的模型預測效果好。(4)實際應用中不能機械的根據模型的評價指標選擇模型,而應結合定性的分析。THANKS本講結束高等教育出版社醫(yī)學大數據分析醫(yī)學大數據概述高等教育出版社CONTENTS目錄1基本概念2狀態(tài)轉移矩陣3穩(wěn)態(tài)概率4馬爾科夫預測1基本概念基本概念
安德雷·馬爾可夫(1856-1922)
俄國數學家,師從切比雪夫,主要研究領域在概率和統計方面。他的研究開創(chuàng)了隨機過程這個新的領域,以他的名字命名的馬爾可夫鏈在現代工程、自然科學和社會科學各個領域都有很廣泛的應用。基本概念-隨機過程
定義:設(Ω,F,P)為概率空間,T是給定的參數集(時間參數集)。對每個t∈T都有一個隨機變量X(t,ω)與之對應,則稱隨機變量簇{X(t,ω),
t∈T
}是概率空間上的隨機過程。X(t,ω)記為X(t)。Ω:樣本空間;{正面,反面}F:事件,樣本空間的子集;P:概率P(Ω)=1基本概念-無后效性|馬爾可夫性當隨機過程在t時刻所處的狀態(tài)已知時,在t+1時刻所處的狀態(tài)僅與t時刻的狀態(tài)有關,而與t時刻以前的狀態(tài)無關。此特性稱為隨機過程的~。過去只影響現在,而不影響將來。P{將來|現在、過去}=P{將來|現在}狀態(tài)空間134狀態(tài)1狀態(tài)2狀態(tài)nt1時刻t2時刻tn時刻……時間參數集
狀態(tài)時間離散連續(xù)離散馬爾科夫鏈馬爾科夫序列連續(xù)可列馬爾科夫過程馬爾科夫過程四類馬爾科夫過程2、狀態(tài)與狀態(tài)變量狀態(tài):客觀事物可能出現或存在的狀況。商品:暢銷、滯銷
機器運轉:正常、故障同一事物不同狀態(tài)之間必須相互獨立:不能同時存在兩種狀態(tài)。狀態(tài)會發(fā)生變化的。
高風險->低風險321基本概念-馬爾可夫鏈定義:隨機過程X(t)在tn時刻的狀態(tài)為Xn=X(tn),且Xn可能取得的狀態(tài)必為a1a2…an之一,其中AI={a1a2…an}為有限的狀態(tài)空間,隨機過程只在t1t2…tn
…可列個時刻發(fā)生狀態(tài)轉移。若隨機過程在tn+1時刻變成任一狀態(tài)aj的概率,只與過程在tn時刻的狀態(tài)ai有關,而與過程在tn時刻以前的狀態(tài)無關,則稱此隨機過程為馬爾可夫鏈,簡稱馬氏鏈。P{X(tn+1))=aj|X(tn)=ai,X(tn-1)=an-1
,…,X(t0)=a0}=P{X(tn+1))=aj|X(tn)=ai}2狀態(tài)轉移矩陣基本概念-狀態(tài)
例如流行病等級分為:“高風險”、“中風險”、“低風險”基本概念-狀態(tài)轉移概率矩陣
基本概念-狀態(tài)轉移概率矩陣
狀態(tài)轉移概率矩陣概率矩陣是由概率向量作為行向量所構成的方陣稱為概率矩陣
基本概念-K步狀態(tài)轉移概率矩陣
基本概念-K步狀態(tài)轉移概率矩陣
定義:若系統在時刻處于狀態(tài),經過步轉移,在時刻處于狀態(tài)。那么,對這種轉移的可能性的數量描述稱為步轉移概率。記為:
并令舉例例:設某流行病發(fā)病情況分為“高風險”和“低風險”兩種狀態(tài),現有24個季度的數據,請求出發(fā)病的初始概率向量、一步狀態(tài)轉移矩陣和二步轉移矩陣,并預測后兩個季度后的發(fā)病情況。季度123456789101112狀態(tài)高高低高低低高高高低高低季度131415161718192021222324狀態(tài)高高低低高高低高低高高高舉例
舉例
3穩(wěn)態(tài)概率平穩(wěn)分布
平穩(wěn)分布
若隨機過程某時刻的狀態(tài)概率向量P(k)為平穩(wěn)分布,則稱過程處于平衡狀態(tài)。一旦過程處于平衡狀態(tài),則經過一步或多步狀態(tài)轉移之后,其狀態(tài)概率分布保持不變,也就是說,過程一旦處于平衡狀態(tài)后將永遠處于平衡狀態(tài)。對于所討論的狀態(tài)有限(即N個狀態(tài))的馬爾可夫鏈,平穩(wěn)分布必定存在。平穩(wěn)分布
如存在非零向量
X=(x1,x2,
…,xN),使得:
XP=X其中:P為一概率矩陣則稱X為P的固定概率向量。特別地,設X=(x1,x2,
…,xN)為一狀態(tài)概率向量,P為狀態(tài)轉移概率矩陣,若XP=X即: 稱X
為該馬爾可夫鏈的一個平穩(wěn)分布
性質??若隨機過程某時刻的狀態(tài)概率向量P(k)為平穩(wěn)分布,則稱過程處于平衡狀態(tài)。(XP=X)一旦過程處于平衡狀態(tài),則經過一步或多步狀態(tài)轉移之后,其狀態(tài)概率分布保持不變,也就是說,過程一旦處于平衡狀態(tài)后將永遠處于平衡狀態(tài)。對于所討論的狀態(tài)有限(即N個狀態(tài))的馬爾可夫鏈,平穩(wěn)分布必定存在。特別地,當狀態(tài)轉移矩陣為正則概率矩陣時,平穩(wěn)分布唯一。
正則概率矩陣???正則概率矩陣定義:如果P為概率矩陣,且存在m>0,使Pm中諸元素皆非負非零。則稱P為正則概率矩陣。例如:均為正則概率矩陣。P1為正則概率矩陣是明顯的(m=1)P2是正則概率矩陣也也易于論證:即存在(m=2),使P2的元素皆非負非零。正則概率矩陣
是非正則概率矩陣。正則概率矩陣的這一性質很有實用價值。穩(wěn)態(tài)分布
穩(wěn)態(tài)分布
設存在穩(wěn)態(tài)分布
=(
1,
2,
…,
N),則由于下式恒成立:令k→∞就得
即有限狀態(tài)馬爾可夫鏈的穩(wěn)態(tài)分布如存在,那么它也是平穩(wěn)分布。當馬爾科夫鏈的狀態(tài)轉移概率矩陣為正則概率矩陣時穩(wěn)態(tài)分布存在,且穩(wěn)態(tài)分布和平穩(wěn)分布相同且均唯一。穩(wěn)態(tài)分布
應用舉例
根據例12-1所得狀態(tài)轉移矩陣,求平穩(wěn)分布和穩(wěn)態(tài)分布,并預測該流行病的發(fā)展趨勢。
應用舉例
從求得結果可以看出,該馬爾可夫鏈的平穩(wěn)分布,也是穩(wěn)態(tài)分布。從得到的結果可知,該流行病處于“高風險”的可能性為61%,處于“低風險”的可能性為39%。4馬爾科夫預測步驟:
馬爾可夫鏈預測法的應用流行病預測問題提出:某市1995年至2010年腎綜合征出血熱(HFRS)的發(fā)病率情況:年份19951996199719981999200020012002發(fā)病率(1/10萬)2.956.2810.287.017.3613.7833.9335.87年份20032004200520062007200820092010發(fā)病率(1/10萬)33.428.3830.533.7939.730.3939.733.59問題求解:首先根據資料將發(fā)病率劃分為四個狀態(tài),統計各數據的狀態(tài)歸屬得下表.某市HFRS流行狀況年份發(fā)病率(1/10萬)狀態(tài)年份發(fā)病率(1/10萬)狀態(tài)19952.951200333.40419966.281200428.383199710.282200530.50419987.011200633.79419997.361200739.704200013.782200830.394200133.934200939.704200235.874201033.594狀態(tài)1234發(fā)病率取值范圍X≤1010<X≤2020<X≤30X>30
各狀態(tài)出現的頻率(初始概率)狀態(tài)發(fā)病率取值范圍初始概率1X≤104/16210<X≤202/16320<X≤301/164X>30
9/16
由上表可得各狀態(tài)的轉移頻率即狀態(tài)轉移概率的估計值,從而得模型的一步轉移概率矩陣:計算二步轉移矩陣:
得模型的極限概率分布(穩(wěn)態(tài)分布):(0,0,1/9,8/9).
分析預測:
由于出生狀態(tài)向量P0(1/4,1/8,1/16,9/16),乘以一步轉移狀態(tài)概率矩陣知,
狀態(tài)4概率最大,所以預測2011年仍處于狀態(tài)4,即發(fā)病率大于30萬.同樣,從二步轉移矩陣知,依然是狀態(tài)4的概率最大,所以預測2011和2012年該市的HFRS發(fā)病率將持續(xù)在大于30萬(高發(fā)區(qū))水平,這提醒我們應該對此高度重視,采取相應對策.THANKS本講結束高等教育出版社醫(yī)學大數據分析醫(yī)學文本數據分析CONTENTS目錄1文本數據分析概述2文本數據分析的流程3文本分析實例1文本數據分析概述醫(yī)學文本數據病歷的描述文字。醫(yī)學文本數據檢查報告的檢查所見醫(yī)學文本數據病例文本胃小彎及胃體后壁潰瘍型低分化腺癌,腫瘤大小約為8X8X1.8cm。癌組織侵及胃壁全層、神經伴脈管內癌栓,再取上、下切緣及送檢(食管下切緣)均為未見癌。結構化輸出字段名值腫瘤部位胃小彎,胃體組織學類型腺癌分化程度低分化腫瘤大小8X8X1.8cmT分期T4a切緣陰性醫(yī)學文本數據政策、管理、新聞和時事發(fā)布醫(yī)學文本數據專業(yè)網站、微博醫(yī)學文本數據文獻數據庫(期刊、電子書)醫(yī)學文本數據你所在的研究領域有哪些有研究價值的文本數據?文本分析在醫(yī)學領域的有哪些成果?(webofscience或pubmed
文獻庫中醫(yī)學領域
查找textanalysis或contentanalysisoftext文章)Leveragingmedicalthesauriandphysicianfeedbackforimprovingmedicalliteratureretrievalforcasequeries文本分析的醫(yī)學應用WatsonHealth用戶:浙江省中醫(yī)院北京朝陽中西醫(yī)結合急診搶救中心……文本分析的醫(yī)學應用同義詞“先天性膽管擴張癥”和“先天性膽總管囊腫”是同義詞“口瘡”、“口腔潰瘍”、“口腔潰爛”、“嘴巴起泡”也是同義詞“2型糖尿病”、“糖尿病2型”、“糖尿病II型”、“II型糖尿病”、“糖尿病二型”、“二型糖尿病”、“2-糖尿病”和“乙型糖尿病”是同一個概念的不同寫法醫(yī)學文本分析的難點縮寫詞冠心病、冠狀動脈粥樣硬化性心臟病、CAD都是同一個概念HCC表示肝細胞癌(HepatocellularCarcinoma)醫(yī)學文本分析的難點新詞如“癥狀性動脈粥樣硬化性椎動脈起始部狹窄”這個詞長達18個字。它是通過不同的詞“癥狀性”、“動脈粥樣硬化性”、“椎動脈”、“起始部”、“狹窄”拼接成的長詞。醫(yī)學文本分析的難點2文本數據分析的流程分詞文本數據(RawData)分詞Tokenization標準化(Normalization)特征提取(Feature
Extraction)建模
(Modeling)(停用詞(StopWord)jiebaR(結巴分詞):jiebaR(結巴分詞)是一款高效的開源免費中文分詞包,基于MIT協議,底層使用C++,通過Rcpp進行調用。jiebaR提供函數worker()初始化分詞引擎,使用函數segment()進行分詞。分詞分詞語句提供了三種寫法:wk=worker()#方法1wk["全身諸骨顯影,雙側肘關節(jié)、腕關節(jié)、膝關節(jié)、踝關節(jié)及雙手掌指關節(jié)見點片狀放射性輕度濃聚"]#方法2wk<="全身諸骨顯影,雙側肘關節(jié)、腕關節(jié)、膝關節(jié)、踝關節(jié)及雙手掌指關節(jié)見點片狀放射性輕度濃聚"#方法3segment("全身諸骨顯影,雙側肘關節(jié)、腕關節(jié)、膝關節(jié)、踝關節(jié)及雙手掌指關節(jié)見點片狀放射性輕度濃聚",wk)分詞分詞語句:#還可以把分析句子放入到一個文件中,然后直接對這個文件進行分詞,比如:segment('D:/test.txt',wk)分詞結果自動在原文件所在的目錄下生成一個文本文件,內容如下:分詞【例13-1】利用jiebaR工具包實現中文語句的分詞。#安裝jiebaR包install.packages("jiebaR")#加載jiebaR包library("jiebaR")#調用worker()函數,加載jiebaR庫的分詞引擎wk=worker()wk["目前,國家藥監(jiān)局已附條件批準我國2個新冠病毒疫苗上市,應急批準5條技術路線共16個疫苗品種開展臨床試驗,其中6個疫苗品種已開展III期臨床試驗。"]分詞【例13-1】利用jiebaR工具包實現中文語句的分詞。#安裝jiebaR包install.packages("jiebaR")#加載jiebaR包library("jiebaR")#調用worker()函數,加載jiebaR庫的分詞引擎wk=worker()wk["目前,國家藥監(jiān)局已附條件批準我國2個新冠病毒疫苗上市,應急批準5條技術路線共16個疫苗品種開展臨床試驗,其中6個疫苗品種已開展III期臨床試驗。"]分詞Rwordseg分詞:Rwordseg是使用的是rJava調用Java分詞工具Ansj。所以Rwordseg依賴rJava包和Java運行環(huán)境,在使用之前先裝rJava包和JDK(Java的運行環(huán)境,并正確配置環(huán)境變量)。只有前面的安裝配置都成功后,Rwordseg分詞才能正確安裝使用。segmentCN()是Rwordseg包里用于中文分詞的函數。分詞【例13-2】利用Rwordseg工具包實現中文語句的分詞。#安裝Rwordseg包install.packages("Rwordseg")#加載Rwordseg包library(Rwordseg)#分詞句子賦值給變量texttext<-"目前,國家藥監(jiān)局已附條件批準我國2個新冠病毒疫苗上市,應急批準5條技術路線共16個疫苗品種開展臨床試驗,其中6個疫苗品種已開展III期臨床試驗。"#調用segmentCN()函數實現分詞segmentCN(text)分詞在jiebaR中通過show_dictpath()函數可以查看默認的標準詞典,也可以指定自己的詞典。#查看默認的詞典位置show_dictpath()#查看目錄dir(show_dictpath())在指示的位置找到用戶自定義詞典的文件user.dict.utf8,用記事本打開后,添加默認詞典不能識別的詞語
配置詞典停用詞文本數據(RawData)分詞Tokenization標準化(Normalization)特征提取(Feature
Extraction)建模
(Modeling)(停用詞(StopWord)停用詞停用詞就是在句子中無實際意義,去掉這些詞后對理解整個句子的語義沒有影響的詞。例如大量的虛詞、代詞或者沒有特定含義的動詞,像“吧”、“嗎”、“的”、“呢”這些無實際含義的語氣詞,或者是“即使”、“但是”這樣的轉折詞。在jiebaR中提供了2種過濾停用詞的方法,一種是使用filter_segment()函數,另一種是通過配置stop_jiebaRword文件實現停用詞的過濾。停用詞標準化文本數據(RawData)分詞Tokenization標準化(Normalization)特征提取(Feature
Extraction)建模
(Modeling)(停用詞(StopWord)標準化標準化就是把多個單詞合并稱為一個單詞,主要是由于英語中同一個單詞可能有不同的形態(tài)。比如單詞的單復數,單詞的時態(tài)變化名詞以book為例,有book,books的形態(tài);動詞以study為例,有study,studies,studied,studying的形態(tài)。標準化特征提取文本數據(RawData)分詞Tokenization標準化(Normalization)特征提取(Feature
Extraction)建模
(Modeling)(停用詞(StopWord)文本特征提取實現的思路是基于向量空間模型(VectorSpaceModal),把一篇文檔看作N維空間的一個點,用這個點的各維數據表示文檔的特征。一般采用關鍵詞集表示文檔的特征,即根據一組預定義的關鍵詞,以某種方法計算這些關鍵詞在當前文檔中的權重,然后用這些權重形成一個數字向量,該向量就是文檔的特征向量。文本特征提取文本特征提取可以分解為兩個步驟:提取關鍵詞集(也可以稱之為特征詞集)計算每個關鍵詞在該篇文檔中的權重。文本特征提取
文本特征提取IDF(InverseDocumentFrequency)表示逆文檔頻率。如果包含詞語t的文檔越少,則IDF越大,說明詞語t在整個文檔集層面上具有很好的類別區(qū)分能力。如“我”,“了”,“是”等在每篇文檔中幾乎具有非常高的詞頻,那么對于整個文檔集而言,這些詞都是不重要的。文本特征提取
文本特征提取通過IDF來算出每個詞的權重,不常見的詞出現的頻率越高,則權重越大。計算TF-IDF的公式為:TF-IDF=TF(詞頻)*IDF(逆文檔頻率)對文檔中每個詞計算TF-IDF的值,把結果從大到小排序,就得到了這篇文檔的關鍵性排序列表。文本特征提取【例13-4】將【例13-3】處理后的文本計算特征向量。#計算詞頻freq(segment)#取TF-IDF的前5的關鍵詞keys=worker("keywords",topn=5)#計算關鍵詞vector_keywords(segment,keys)文本分析處理tm包是R文本分析一個常用的基礎包。它提供了一些文本分析中的綜合處理功能。如:數據輸入、語料庫處理、數據預處理、建立“文檔-詞條”矩陣等功能。使用該包前首先要安裝和加載:install.packages("tm")library(tm)文本分析處理tm包中主要管理文件的數據結構稱為語料庫(Corpus),它表示一系列文檔的集合。語料庫又分為動態(tài)語料庫(VolatileCorpus)和靜態(tài)語料庫(PermanentCorpus)。動態(tài)語料庫將作為R對象保存在內存中,使用VCorpus()或者Corpus()生成。而靜態(tài)語料庫則作為R外部文件保存,使用PCorpus()函數生成。文本分析處理【例13-5】通過不同的方式創(chuàng)建語料庫。library(tm)#1、使用DirSource()方式讀取指定目錄位置的文檔創(chuàng)建一個語料庫texts<-Corpus(DirSource(directory="D:/texts",encoding="UTF-8"))#2、使VectorSource()方式創(chuàng)建語料庫txts<-c("thisisatext","Wecreateavector.")Corpus(VectorSource(txts))#3、利用DataframeSource()方式創(chuàng)建語料庫data<-read.csv("D:/data.csv")textdata<-Corpus(DataframeSource(data),readerControl=list(language="UTF-8"))文本分析處理詞條-文檔矩陣是一個非常重要的對象,建立文本分類,文本聚類等模型一般需要對語料庫創(chuàng)立詞條-文檔關系矩陣。其核心思想就是通過把所有文檔所用到的詞提取出來,然后行(或列)代表文檔,列(或行)代表詞,若該文檔中該詞出現n次,則此處的矩陣元素為n,反之為0。從而構造出一個稀疏矩陣。文本分析處理在tm包中提供了兩個函數來構造此矩陣,TermDocumentMatrix
是詞條-文檔矩陣指的是詞條作為行、文檔標簽作為列的稀疏矩陣TermDocumentMatrix(x,control=list())
DocumentTermMatrix是“文檔-詞條矩陣”是以文檔為行、詞條為列的稀疏矩陣。所用到的函數為:DocumentTermMatrix(x,control=list())文本分析處理【例13-6】使用tm包中texts/txt目錄下的文本文件(5篇不同主題的詩),創(chuàng)建語料庫,實現聚類分析。library(tm)txt<-system.file("texts/txt",package="tm")txts<-Corpus(DirSource(txt),readerControl=list(language="utf-8"))#文檔術語矩陣,其中weightTfIdf根據詞頻-文檔頻率的倒數,為詞頻-文檔矩陣加權,stopwords是包默認的列表。dtm<-DocumentTermMatrix(ovid,control=list(weighting=function(x)weightTfIdf(x,normalize=FALSE),stopwords=F))inspect(dtm)3文本分析的實例在“春雨醫(yī)生”網站爬取“經典問答”欄目下有關兒科的患者家屬提問問題的數據,將這些數據制作成主題詞云分析,用于發(fā)現兒科常見病癥的特點。實現方式wordcloud2是基于wordcloud2.js封裝的一個R包,可以使詞頻以圖形的形式展示,與wordcloud包不同的是wordcloud2支持任意形狀的詞云繪制。文本分析實例實現方式#安裝方法1:install.packages('devtools')library('devtools')install_github("lchiffon/wordcloud2")library(wordcloud2)#安裝方法2(在RStudio中執(zhí)行):if(!require(devtools))install.packages("devtools")devtools::install_github('lchiffon/wordcloud2')文本分析實例library("jiebaR")#加載jiebaR包library("wordcloud2")#加載詞云包text<-readLines("d:/data.txt",encoding="UTF-8")#讀取數據文件#加載分詞引擎,并配置自定義的停用詞表過濾。wk=worker(stop_word='d:/stopword.txt')fc<-segment(text,wk)filter<-c("寶寶","小孩","孩子")#去除不能反應癥狀的高頻詞fc<-filter_segment(fc,filter)fc<-fc[nchar(fc)>1]#去除字符長度小于2的詞語fc<-gsub("[0-9]","",fc)#去除數字freq
<-sort(table(fc),decreasing=T)[1:50]#統計詞頻,并提取出現次數最多的前50個詞語#把關鍵詞和詞頻轉換為數據框結構mydata=data.frame(word=names(freq),freq=as.vector(freq),stringsAsFactors=F)wordcloud2(mydata,size
=1.5)#制作一個詞云圖實例代碼:THANKS本講結束高等教育出版社醫(yī)學大數據分析醫(yī)學圖像數據分析高等教育出版社CONTENTS目錄1醫(yī)學圖像分析意義2常見的醫(yī)學圖像數據3醫(yī)學圖像數據分析方法4醫(yī)學圖像數據分析應用1醫(yī)學圖像分析意義傳統中醫(yī)診斷方式醫(yī)學圖像使診療方式發(fā)生翻天覆地的變化醫(yī)學圖像與計算機技術相結合形成了新興交叉學科——醫(yī)學圖像處理和分析醫(yī)學圖像處理和分析使醫(yī)學圖像的顯示質量得到很大的改善,大大提高了診斷的質量醫(yī)學圖像處理和分析在醫(yī)學診斷、治療、手術、培訓、科研與教學等廣泛應用,為醫(yī)學的研究與發(fā)展提供堅實的基礎,具有不可估量的價值醫(yī)學圖像數據分析的意義2常見的醫(yī)學圖像主要研究如何將實際人體信息轉換為計算機的二進制數據的問題。經過一定的重建算法把這些數據轉換成與二維圖像像素或三維體數據對應的原始圖像數據集醫(yī)學圖像成像技術(MedicalImaging)B超掃描圖像、彩色多普勒超聲圖像、核磁共振圖像、CT圖像、PET圖像、SPECT圖像、數字X光機(DX)圖像、X射線透視圖像、各種電子內窺鏡圖像,顯微鏡下病理切片圖像等。常見的醫(yī)學影像X光倫琴因發(fā)現X射線獲得首屆諾貝爾物理學獎。成像原理基于待成像物體各部分的密度不同,對x射線的吸收不同,透射X射線強度不同,從而在膠片上成像的。圖像特點X光圖片是X射線在通路上物體對射線吸收的積分效果。不足X光有輻射X光圖片不能反映組織或病灶的三維空間位置。倫琴開創(chuàng)了醫(yī)學圖像的先河X光片已經廣泛應用于醫(yī)學診斷??梢詸z查肺部紋理增多、鈣化點、主動脈結鈣化等。X光胸片可粗略檢查心臟、主動脈、肺、胸膜、肋骨等對于各種外傷,如果要確定是否傷害骨頭,優(yōu)先選擇X光檢查,檢查結果快速易得。X光片反應的是通路上人體對X光累積吸收效果,無法得到人體的三維信息,若想更細致的人體內部的觀察需要借助CT影像。生物機體被X射線照射時,會受到抑制、破壞甚至壞死,發(fā)生不同程度的生理、病理和生化等方面的改變。X射線可用于治療人體的某些疾病,特別是腫瘤治療。X光的應用CT:computedtomography利用X線對人體某一范圍進行逐層的橫斷掃描,取得信息,經計算機處理后獲得重建的圖像。獲得的圖像為人體的橫斷解剖圖,并可通過計算機處理得到三維的重建圖像。
(X射線斷層掃描影像裝置)CT計算機體層攝影掃描儀CTHounsfield和Cormack因發(fā)明CT獲得1979年諾貝爾醫(yī)學和生理學獎。CT:computedtomography利用X線對人體某一范圍進行逐層的橫斷掃描,取得信息,經計算機處理后獲得重建的圖像。獲得的圖像為人體的橫斷解剖圖,并可通過計算機處理得到三維的重建圖像。
(X射線斷層掃描影像裝置)CT工作原理提供很高的空間分辨率(0.5毫米)。CT密度分辨率比較高,可以靈敏地檢測到有密度改變的細微病變。CT檢查為橫斷面成像,通過計算機圖像重建算法,可從任意角度顯示組織或器官,方便醫(yī)生更全面觀察病變部位,防止遺漏;造影增強掃面的CT可以進一步明確病變性質;CT檢查還具有無創(chuàng)、圖像清晰、成像速度快等優(yōu)勢。CT圖像的優(yōu)勢CT掃描雖然發(fā)現病變的敏感性極高,但在定性診斷上仍有很大的限制。醫(yī)生就是根據正常組織和異常組織呈現的衰減值差異作為診斷的依據,如果衰減值無差異,再大的腫瘤也無法鑒別。CT掃描盡管有許多優(yōu)越性,但也有其局限性,只有與其他設備,其他診斷手段相配合,才能充分發(fā)揮其作用。
CT圖像的限制CT對骨骼的成像效果好,目前經常用于頭部疾病、胸腔疾病、腹部和骨盆疾病及四肢的檢查。但是因為CT是采用X光成像,輻射比較大,故懷孕婦女不能做CT檢查。CT圖像的應用MRI倫琴因發(fā)現X射線獲得首屆諾貝爾物理學獎。無電離輻射危害,是一種安全的檢查的方法。
多參數成像,可以提供豐富的診斷信息。
高對比度成像,在所有醫(yī)學影像技術中,MRI的軟組織對比分辨力最高。
具有任意方向斷層的能力,能夠從不同角度直視地觀察分析組織結構及其病變。
無骨偽影干擾,后顱凹病變清晰可辨。
可進行功能、組織化學和生物化學方面的研究。MRI圖像的優(yōu)勢成像速度慢,不適合運動性器官對鈣化灶和骨皮質病灶不夠敏感。
禁忌癥相對較多。安置心臟起搏器、假肢、人工髖關節(jié)的病人、疑有眼球異物的病人以及動脈瘤銀夾結扎術后的病人都禁做MRI檢查。裝假牙的病人不能進行頜面水平MRI檢查。放置宮內節(jié)育環(huán)者,如檢查中出現不適應立刻停止檢查。
圖像易受多種偽影干擾。MRI偽影主要來自患者的運動,金屬異物以及設備三個方面。MRI圖像的不足中樞神經系統對脊柱與椎管內病變有重要診斷意義肌肉關節(jié)系統fMRI功能成像研究腦功能對肺、密質骨,如四肢長骨、胃腸道疾病不如CTMRI圖像的應用2024/2/132451Hz 2Hz 3Hz%
100755025Schlaug,etal,1995,HarvardMedicalSchoolandBethIsraelHospitalfMRI應用醫(yī)用超聲診斷儀是將聲納原理和雷達技術相結合生產的為臨床應用的醫(yī)療儀器。其基本原理是高頻超聲脈沖波輻射到生物作內,由生物體內不同界面反射出不同波形并形成圖像.從而判斷生物體內是否有病變。超聲圖像(sonography)有高的軟組織分辨力。組織只要有1%的聲阻抗差異,儀器就能檢測出,并顯示其反射回波。具有高度的安全性。當嚴格控制聲強低于安全閾值時,超聲可能成為一種無損傷的診斷技術高速實時成像,可以觀察運動的器官,并節(jié)省檢查時間。
使用簡便,費用較低,用途廣泛。
超聲圖像優(yōu)點比如B超在清晰度、分辨率等方面,較弱。B超對腸道等空腔器官病變易漏診。氣體對超聲影響很大,患者容易受到患者腸氣干擾等多方面因素影響檢查結果需要改變體位屏氣等,對于骨折和不能配合病人不
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度設施農業(yè)土地承包經營合同
- 2025年度生豬養(yǎng)殖產業(yè)鏈金融服務合同
- 二零二五年度航空航天市場推廣分紅權協議書
- 2025年度物流運輸授權合作合同
- 2025年度知識產權侵權和解賠款調解協議書
- 二零二五年度超市經營權轉讓協議
- 2025年度自愿離婚協議書及財產分割及子女撫養(yǎng)及債務處理及贍養(yǎng)費及財產保全及離婚訴訟費及財產轉移及子女教育及監(jiān)護權及贍養(yǎng)費及離婚后財產監(jiān)管及財產分割執(zhí)行協議
- 二零二五年度國有產權無償劃轉與國有企業(yè)改革試點合作協議
- 2025年度網絡安全公司技術團隊薪酬及保密協議
- 2025年度高端家教一對一聘用協議
- 2024年度供應商管理培訓課件
- 6、水平四+田徑18課時大單元計劃-《雙手頭上前擲實心球》
- 《審計課件東北財經大學會計系列教材》課件
- 電梯維保員服務用語培訓
- 中國老年危重患者營養(yǎng)支持治療指南2023解讀課件
- 《管理信息系統》考試復習題庫(含答案)
- 2024年9月抖音短視頻及直播電商月報
- 《光伏電站運行與維護》試題及答案一
- 人教版初中全部英語單詞表
- 2024年浙江省中考社會試卷真題(含標準答案及評分標準)
- 2024年貴州省高職(專科)分類考試招收中職畢業(yè)生文化綜合考試語文試題
評論
0/150
提交評論