ARMA模型在傳染病預(yù)測中的應(yīng)用_第1頁
ARMA模型在傳染病預(yù)測中的應(yīng)用_第2頁
ARMA模型在傳染病預(yù)測中的應(yīng)用_第3頁
ARMA模型在傳染病預(yù)測中的應(yīng)用_第4頁
ARMA模型在傳染病預(yù)測中的應(yīng)用_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、目 錄引言1第1章 arma模型21.1 定義21.2 建模步驟31.3 數(shù)據(jù)的處理31.4 模型的識別、定階與參數(shù)估計(jì)3第2章 實(shí)證分析42.1 平穩(wěn)性檢驗(yàn)42.2 白噪聲檢驗(yàn)52.3模型擬合62.4模型擇優(yōu)112.4.1 根據(jù)信息量準(zhǔn)則擇優(yōu)112.4.2 預(yù)測值與實(shí)際值的比較112.5對2010年發(fā)病率的預(yù)測12第3章 小結(jié)與討論13成果聲明14參考文獻(xiàn)15附錄:16arma模型在傳染病預(yù)測中的應(yīng)用張齊蘭摘要: 探討arma模型在傳染病預(yù)測中的應(yīng)用,以1975年至2009年全國腎綜合征出血熱發(fā)病率資料為例,應(yīng)用平穩(wěn)時間序列分析方法,選用條件最小二乘估計(jì)法,根據(jù)信息量準(zhǔn)則aic和sbc確定a

2、rma的參數(shù),應(yīng)用sas統(tǒng)計(jì)軟件進(jìn)行數(shù)據(jù)處理,并對模型進(jìn)行分析和預(yù)測。關(guān)鍵詞: arma模型 時間序列 發(fā)病率 arma models in infectious disease prediction zhangqilanabstract:arma models of infectious disease prediction to the country from 1975 to 2009 the incidence of hemorrhagic fever with renal syndrome information, for example, application of statio

3、nary time series analysis method, used conditional least squares estimation method, according to information criteria aic and sbc to determine the parameters of arma, application sas statistical software for data processing, and analysis and forecasting model.keywords: arma model time series inciden

4、ce rate 引言在醫(yī)學(xué)衛(wèi)生領(lǐng)域中,傳染病發(fā)病會受到許多因素的影響,而且影響因素之間又存在著錯綜復(fù)雜的聯(lián)系,很難運(yùn)用結(jié)構(gòu)式的因果模型加以解釋。腎綜合征出血熱是20世紀(jì)30年代初被發(fā)現(xiàn)和認(rèn)識的,是危害我國人民身體健康的重要的自然疫源性疾病1。腎綜合征出血熱是由hfrs病毒引起,由鼠類等傳播的自然疫源性急性病毒性傳染病。以往此病在中國和日本被稱為流行性出血熱,在朝鮮和韓國被稱為朝鮮出血熱,在前蘇聯(lián)被稱為遠(yuǎn)東出血熱和出血性腎炎。1980年世界衛(wèi)生組織將其統(tǒng)一命名為什綜合征出血熱。流行性出血熱又稱腎綜合證出血熱為我國法定乙類傳染病,是由漢坦病毒引起的一組以發(fā)熱、出血及腎功能損害為主要臨床表現(xiàn)的急性自

5、然疫源性疾病。該病主要傳染源為鼠類,通過皮膚粘膜傷口、吸入被病毒污染的塵埃、食入或飲用被鼠尿、鼠糞污染的食物和水以及鼠蚤、革螨叮咬人體感染。疫區(qū)與疫源地:hfrs疫區(qū)分布相當(dāng)廣泛,但有其獨(dú)特的地理分布特征,特別是雞鼠型疫區(qū),有沿水系分布的特點(diǎn)。以往認(rèn)為多在海拔400米以下的地勢低洼潮濕雜草灌木叢生的地方,但是1992年以來,研究和事實(shí)都證明了在海拔1600m以上,甚至2500米左右的高原地區(qū)或高山林地中存在有hfrs的微小疫源地,一定情況下,可引起暴發(fā)流行。這為許多旅游勝地做好hfrs的防治工作提供了依據(jù)。另外,疫區(qū)尚具有相對穩(wěn)定性和局限性特點(diǎn)。1995年國內(nèi)對疫區(qū)、疫源地的統(tǒng)一命名如下:(1

6、)雞鼠型疫區(qū);(2)家鼠型疫區(qū);(3)混合型疫區(qū)。我國大部分地區(qū)的疫區(qū)類型為混合型疫區(qū)。傳播途徑:hfrs是多傳播途徑的,目前研究認(rèn)為以氣溶膠通過呼吸道傳播為主要途徑,其他尚其經(jīng)消化道,經(jīng)破損皮膚,經(jīng)蟲媒和垂直傳播等。另外有人認(rèn)為其傳播途徑可能為攜帶hfrs-v的螨被吸入肺組織內(nèi)裂解釋放出hfrs-v而引起感染。明確某地區(qū)hfrs流行的主要傳播途徑,以便采用針對性的預(yù)防措施。本文采用arma模型對全國重點(diǎn)防制的腎綜合征出血熱發(fā)病趨勢進(jìn)行了擬合研究,為深入開展疾病預(yù)警預(yù)測奠定基礎(chǔ),也為制定防制策略及措施提供理論依據(jù)。第1章 arma模型1.1 定義把具有如下結(jié)構(gòu)的模型稱為自回歸移動平均模型,簡記

7、arma(p,q):若=0,該模型稱為中心化arma(p,q)模型。缺省默認(rèn)條件,中心化arma(p,q)模型可簡寫為:默認(rèn)條件與ar模型、ma模型相同。引進(jìn)延遲算子,arma(p,q)模型簡寫為: 式中: , 為p階自回歸系數(shù)多項(xiàng)式。 , 為q階移動平均系數(shù)多項(xiàng)式。顯然,當(dāng)q=0時,arma(p,q)模型就退化成了ar(p)模型;當(dāng)p=0時,arma(p,q)模型就退化成了ma(q)模型.所以,ar(p)模型和ma(q)模型實(shí)際上是arma(p,q)模型的特例,它們統(tǒng)稱為arma模型。而arma(p,q)模型的統(tǒng)計(jì)性質(zhì)也正是ar(p)模型和ma(q)模型統(tǒng)計(jì)性質(zhì)的有機(jī)組合。1.2 建模步驟假

8、如某個觀察值序列通過序列預(yù)處理,可以判定為平穩(wěn)非白噪聲序列,我們就可以利用模型對該序列建模。(1)求出該觀察值序列的樣本自相關(guān)系數(shù)(acf)和樣本偏自相關(guān)系數(shù)(pacf)的值。(2)根據(jù)樣本自相關(guān)系數(shù)和偏自相關(guān)系數(shù)的性質(zhì),選擇階數(shù)適當(dāng)?shù)腶rma(p,q)模型進(jìn)行擬合。(3)估計(jì)模型中未知參數(shù)的值。(4)檢驗(yàn)?zāi)P偷挠行?。如果擬合模型通不過檢驗(yàn),轉(zhuǎn)向步驟(2),重新選模型再擬合。(5)模型優(yōu)化。如果擬合模型通過檢驗(yàn),仍然轉(zhuǎn)向步驟(2),充分考慮各種可能,建立多個擬合模型,從所有通過檢驗(yàn)的擬合模型中選擇最優(yōu)模型。(6)利用擬合模型,預(yù)測序列的將來走勢。1.3 數(shù)據(jù)的處理時間序列的平穩(wěn)性可通過其時序

9、圖和自相關(guān)圖來判斷,如果觀察序列的時序圖顯示出該序列有明顯的趨勢性或周期性,那它通常不是平穩(wěn)序列。如果自相關(guān)函數(shù)在前面少數(shù)幾個值后下降為0,則序列是平穩(wěn)的;如果在前面幾個值后,自相關(guān)函數(shù)沒有下降為0,而是逐次減少,則序列不平穩(wěn)。1.4 模型的識別、定階與參數(shù)估計(jì)對arma(p,q)模型的階數(shù)識別,基本采用它的統(tǒng)計(jì)性質(zhì)(拖尾、截尾)。參數(shù)估計(jì)通常有極大似然估計(jì)、最小二乘估計(jì)、條件最小二乘估計(jì)方法,一般用aic、sbc準(zhǔn)則。aic準(zhǔn)則是由日本統(tǒng)計(jì)學(xué)家akaike于1973年提出的,它的全稱是最小信息量準(zhǔn)則。它是擬合精度和參數(shù)個數(shù)的加權(quán)函數(shù): 為了彌補(bǔ)aic準(zhǔn)則的不足,akaike于1976年提出b

10、ic準(zhǔn)則,而schwartz在1978年根據(jù)bayes理論也得出同樣的判斷準(zhǔn)則,稱為sbc準(zhǔn)則: aic和sbc函數(shù)值達(dá)到最小的那個模型作為最終的擬合模型,而這樣得到的最優(yōu)模型就是一個相對最優(yōu)模型。第2章 實(shí)證分析以1975年至2009年全國腎綜合征出血熱疫情報告資料2為例,數(shù)據(jù)見表1:年份發(fā)病率/10萬年份發(fā)病率/10萬年份發(fā)病率/10萬年份發(fā)病率/10萬19752.021984 8.8719933.9420022.4619761.67198510.02 1994 5.1420031.6819771.80198611.0619955.302004 1.9319781.5819876.1419

11、963.6520051.6019792.1919884.7819973.6020061.1519803.1219893.6619983.7720070.8419814.2619903.6619993.9320080.6419826.1519914.3220003.0520091.0519838.4019924.0320012.83 表1 1975-2009年全國腎綜合證出血熱發(fā)病率2.1 平穩(wěn)性檢驗(yàn)1、繪制1975-2009年全國腎綜合證出血熱發(fā)病率的自相關(guān)圖(見圖1)。圖1全國腎綜合征出血熱序列自相關(guān)圖由自相關(guān)圖(圖1)知,自相關(guān)系數(shù)衰減向零的速度比較快,因而該序列是平穩(wěn)序列。2.2 白噪聲

12、檢驗(yàn)對1975-2009年全國腎綜合證出血熱發(fā)病率序列做白噪聲檢驗(yàn),輸出結(jié)果如下(見圖2): 圖2 白噪聲檢驗(yàn)結(jié)果該序列白噪聲檢驗(yàn)輸出結(jié)果(圖2)顯示在延遲6階下lb檢驗(yàn)統(tǒng)計(jì)量的p值非常?。?0001),所以可以斷定該序列屬于非白噪聲序列。綜合序列時序圖、自相關(guān)圖和白噪聲檢驗(yàn)可以斷定該序列是平穩(wěn)非白噪聲序列。因此可以對該序列擬合arma模型。 2.3模型擬合對1975-2009年全國腎綜合證出血熱發(fā)病率序列進(jìn)行定階,繪制自相關(guān)圖、偏自相關(guān)圖(見圖3) 圖3 1975-2009年全國腎綜合證出血熱發(fā)病率序列自相關(guān)圖、偏自相關(guān)圖由自相關(guān)圖及偏自相關(guān)圖看出:自相關(guān)系數(shù)為2階截尾、偏相關(guān)系數(shù)為1階截尾

13、。因此可以嘗試擬合ar(1)、arma(1,1)、ar (2)模型。(1)選取ar (1)模型對1975-2009年全國腎綜合證出血熱發(fā)病率序列進(jìn)行擬合,輸出的結(jié)果如下:由上圖可知,殘差白噪聲檢驗(yàn)顯示延遲6階、12階、18階、24階lb檢驗(yàn)統(tǒng)計(jì)量的p值均顯著大于0.05,因此該模型顯著有效;在三個參數(shù)中常數(shù)項(xiàng)的t檢驗(yàn)統(tǒng)計(jì)量的p值大于0.05,不顯著,其他兩個參數(shù)的t檢驗(yàn)統(tǒng)計(jì)量的p值小于0.05是顯著的,所以要除去常數(shù)項(xiàng)。(其中 aic=111.1408,sbc=114.1935)ar(1)模型除去常數(shù)項(xiàng)后運(yùn)行得如下結(jié)果:由上結(jié)果得知aic=112.4837,sbc=114.01,參數(shù)的t檢驗(yàn)統(tǒng)

14、計(jì)量的p值小于0.05是顯著的,殘差白噪聲檢驗(yàn)顯示延遲6階、12階、18階、24階lb檢驗(yàn)統(tǒng)計(jì)量的p值均顯著大于0.05,因此該模型顯著有效。因此ar (1)模型為:(2)選取arma(1,1)模型對1975-2009年全國腎綜合證出血熱發(fā)病率序列進(jìn)行擬合,輸出的結(jié)果如下: 由上圖可知,殘差白噪聲檢驗(yàn)顯示延遲6階、12階、18階、24階lb檢驗(yàn)統(tǒng)計(jì)量的p值均顯著大于0.05,因此該模型顯著有效。在三個參數(shù)中ma1,1的t檢驗(yàn)統(tǒng)計(jì)量的p值為0.0618大于0.05,不顯著,其他兩個參數(shù)的t檢驗(yàn)統(tǒng)計(jì)量的p值均小于0.05是顯著的,arma(1,1)模型除去不顯著的參數(shù)后就是ar(1)模型,結(jié)果和上

15、個擬合的模型一樣。(3)選取ar(2)模型對1975-2009年全國腎綜合證出血熱發(fā)病率序列進(jìn)行擬合輸出的結(jié)果如下: 由上圖可知:參數(shù)顯著性檢驗(yàn)結(jié)果顯示三參數(shù)t統(tǒng)計(jì)量的p值均小于0.05,然而這三個參數(shù)均顯著;殘差白噪聲檢驗(yàn)顯示延遲6階、12階、18階、24階lb檢驗(yàn)統(tǒng)計(jì)量的p值均顯著大于0.05,因此該模型顯著有效的。(其中aic=108.7482,sbc=113.3273)ar(2)模型為: 2.4模型擇優(yōu)2.4.1 根據(jù)信息量準(zhǔn)則擇優(yōu)綜上所述,在嘗試擬合的模型中有ar(1)、ar(2)顯著有效,根據(jù)信息量準(zhǔn)則,aic、sbc越小越好,通過比較兩種模型的aic、sbc值(見表2)可得出最理

16、想的模型為ar(2)模型。ar(2)模型為: 模型aicsbcarma(1,0)111.1408114.1935arma(2,0)108.7482113.3273 表2兩種模型的aic、sbc值2.4.2 預(yù)測值與實(shí)際值的比較用ar(1)、ar(2)模型分別對2009年年發(fā)病率作出預(yù)測,比較實(shí)際值與預(yù)測值,以了解ar(2)模型的預(yù)測精度。(1)ar(1)模型對2009年年發(fā)病率作出的預(yù)測,輸出結(jié)果如下:由上結(jié)果知該模型對2009年年發(fā)病率的預(yù)測值為0.7578/10萬人。(2)ar(2)模型對2009年年發(fā)病率作出的預(yù)測,輸出結(jié)果如下:由上知該模型對2009年年發(fā)病率的預(yù)測值為0.8029/1

17、0萬人。在資料的數(shù)據(jù)表中知2009年年發(fā)病率的實(shí)際值為0.84/10萬,兩種模型所得的預(yù)測值中與實(shí)際值最接近的ar(2)模型(表3),因此ar(2)模型為最理想的模型,其預(yù)測值與實(shí)際值的相對誤差分別為0.0371。ar(2)模型為:年 度預(yù)測值 實(shí)際值arma(1,0)arma(2,0) 2009年 0.7578 0.8029 0.84 表3兩種模型預(yù)測值與實(shí)際值的比較2.5對2010年發(fā)病率的預(yù)測ar(2)模型為:2008年、2009年全國腎綜合證出血熱發(fā)病率分別為0.64,0.84。因此可預(yù)測2010年腎綜合征出血熱發(fā)病率為3.45/10萬人。第3章 小結(jié)與討論 由于剛才所用的歷史資料,主

18、要來源于法定傳染病報告系統(tǒng)和死因報告系統(tǒng),時間跨度大,其間報告系統(tǒng)經(jīng)歷了數(shù)次變革,因此應(yīng)充分考慮其完整性和可信度,對其結(jié)果的解釋和利用要審慎。本文對腎綜合征出血熱進(jìn)行了“年”發(fā)病率的預(yù)測,預(yù)測精度較大,但腎綜合征出血熱作為季節(jié)性很強(qiáng)的傳染病,在實(shí)際工作中往往需要以月為單位進(jìn)行預(yù)測,如果預(yù)測精度不夠大,將失去實(shí)際意義。丁守鑾3采用arma方法以月為單位對腎綜合征出血熱發(fā)病率進(jìn)行預(yù)測,實(shí)際值與預(yù)測值絕對誤差最大值達(dá)到2.5/10萬。隨著基礎(chǔ)資料質(zhì)量的提高,以月甚至以周為單位進(jìn)行預(yù)測必然是發(fā)展方向。預(yù)報提前期是實(shí)際預(yù)測的時點(diǎn)距當(dāng)前最新一個歷史值的時間,提前量太短是預(yù)測可能在應(yīng)用中喪失其實(shí)際意義4。本

19、研究在選取預(yù)報提前期時,采取的是經(jīng)驗(yàn)法,并沒有對提前期進(jìn)行篩選。綜上所述,arma模型對樣本容量和概率分布沒有嚴(yán)格要求,模型簡單,是一種預(yù)測精度較高的預(yù)測模型,適合于流行因素較穩(wěn)定的疾病進(jìn)行中短期預(yù)測。成果聲明本人鄭重聲明:所呈交的畢業(yè)論文是本人在指導(dǎo)老師的指導(dǎo)下獨(dú)立進(jìn)行研究所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本論文不包含任何其他個人或集體已經(jīng)發(fā)表或撰寫過的科研成果。本文的研究和撰寫對做出重要貢獻(xiàn)的個人和集體,均已在文中以明確方式標(biāo)明。本人完全意識到本聲明的法律責(zé)任由本人承擔(dān)。另外:本文版權(quán)屬貴州民族學(xué)院所有。 論文作者簽名: 張齊蘭 日期: 2010年6月10日 致謝非常感謝蔡靜老師在我大學(xué)的最后學(xué)習(xí)階段畢業(yè)論文階段給自己的指導(dǎo),從最初的定題,到資料收集,到寫作、修改,到論文定稿,她給了我耐心的指導(dǎo)和無私的幫助。為了指導(dǎo)我們的畢業(yè)論文,她放棄了自己的休息時間,她

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論