




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、實(shí)驗(yàn) 12:回歸分析習(xí)題7:在有氧鍛煉中人的耗氧能力y(ml/(min·kg)是衡量身體狀況的重要指標(biāo),它可能與以下因素有關(guān):年齡x1,體重x2(kg),1500m跑的時(shí)間x3(min),靜止時(shí)心跳速度x4(次/min),跑步后心速x5(次/min).對(duì)24名40至57歲的志愿者進(jìn)行了測(cè)試,結(jié)果如下表(節(jié)選),試建立耗氧能力y與諸因素的之間的回歸模型。序號(hào)123421222324Y44.645.354.359.639.446.145.454.7X14440444257545250X289.575.185.868.273.479.476.370.9X36.826.045.194.97.
2、586.75.785.35X46262454058624848X5178185156166174156164146(1)若x1x5中只許選擇1個(gè)變量,最好的模型是什么?(2)若x1x5中只許選擇2個(gè)變量,最好的模型是什么?(3)若不限制變量的個(gè)數(shù),最好的模型是什么?(4)對(duì)最終模型觀察殘查,有無異常點(diǎn),若有,剔除后如何?1 模型建立本題不同小問需要建立不同模型,由于專業(yè)知識(shí)所限,并且提供的數(shù)據(jù)較少,難以做出精確符合現(xiàn)實(shí)情況的模型,因此這里采用最簡(jiǎn)單的線性回歸法進(jìn)行擬和,模型基本形式如下:事實(shí)上,中的項(xiàng)(高次項(xiàng)和交互項(xiàng))對(duì)于本題目來講意義不大,因?yàn)樗o定的5個(gè)自變量和因變量之間關(guān)系比較模糊,幾個(gè)
3、變量彼此之間的聯(lián)系也很難說清,因此用自變量的一次線性擬和就足以適應(yīng)本題的要求。但作為練習(xí),還是將每種回歸方法都使用到了,可以用于參考。具體采用的各個(gè)模型將在下面單獨(dú)說明,這里不再重復(fù)。2 程序設(shè)計(jì)由于本題需要建立多組模型,并且要在不斷的調(diào)試中發(fā)現(xiàn)最合理的,很多命令都要在這個(gè)過程中不斷使用,這里僅僅給出使用的最基本的命令。u 數(shù)據(jù)clearA=;%數(shù)據(jù)矩陣,略n=24;y=A(2,:);%提取各個(gè)數(shù)據(jù)x1=A(3,:);x2=A(4,:);x3=A(5,:);x4=A(6,:);x5=A(7,:);u 繪制散點(diǎn)圖(大致判斷影響情況)for i=1:5 subplot(2,3,i),plot(A(
4、i+2,:),y,'+'),grid pause endpauseu 單參數(shù)回歸(第一問)X=ones(n,1),x4'%這里檢驗(yàn)的是自變量x4,實(shí)際操作時(shí)要分別檢驗(yàn)x1x5b,bint,r,rint,s=regress(y',X);%回歸分析程序(=0.05)b,bint,s,%輸出回歸系數(shù)估計(jì)值、置信區(qū)間、以及統(tǒng)計(jì)量rcoplot(r,rint)%殘差圖Polytool(x3',y',2)%檢驗(yàn)一元多項(xiàng)式回歸的結(jié)果,輸出交互式畫面u 雙參數(shù)回歸(第二問):用逐步回歸法找出最合理的兩個(gè)變量X5=x1',x2',x3',x
5、4',x5'stepwise(X5,y');%利用輸出的交互式畫面,可以選出最佳的兩個(gè)變量XX=x3',x1'%當(dāng)?shù)玫搅俗罴训膬蓚€(gè)變量后(這里假設(shè)是x3x1)rstool(XX,y','linear')%檢驗(yàn)二元情況下的交互項(xiàng)和高次項(xiàng)u 全部參數(shù)回歸(第三問):X5=x1',x2',x3',x4',x5'%仍然用逐步回歸法找出最合理的組合方式stepwise(X5,y')第五問要求對(duì)殘差進(jìn)行分析,并且剔除異常點(diǎn),可以在該問得到最終模型后,采用regress得到的殘差值和置信區(qū)間并根據(jù)
6、其繪制殘差圖,然后再進(jìn)行剔除操作重新檢驗(yàn)。3 運(yùn)行結(jié)果及分析u 散點(diǎn)圖散點(diǎn)圖從左上到右下的順序?yàn)閤1x5.可以由點(diǎn)的分布大致看出,除了x3自變量呈現(xiàn)比較明顯的負(fù)相關(guān)趨勢(shì)以外,對(duì)于其他的各個(gè)自變量都難以直接觀測(cè)出其對(duì)于因變量的影響。根據(jù)這種結(jié)果,可以假設(shè)自變量x3(1500m跑后心速)最直接的與鍛煉耗氧能力相關(guān),下面通過對(duì)各個(gè)自變量的單參數(shù)回歸進(jìn)行檢驗(yàn)。u 單參數(shù)回歸被檢對(duì)象011置信區(qū)間 R2Fps2X164.3812-0.3599-0.8309 0.11110.10252.51150.127331.2484X252.7432-0.0644-0.4334 0.30460.00590.13100
7、.730934.6097X383.4438-5.6682-7.1252 -4.21120.747465.095908.7943X467.1094-0.3599-0.6262 -0.09360.26317.85600.010425.6547X594.0024-0.2739-0.5095 -0.03840.20915.81690.024727.5352由單參數(shù)回歸的結(jié)果可以證明X3(1500m跑后心速)可以最好的反映出y(鍛煉耗氧能力)的情況。由1置信區(qū)間可以看出,x1、x2包含0在內(nèi),即y可能與該參數(shù)無關(guān),所以不選擇,并且兩者的p值已經(jīng)明顯的大于=0.05,則不考慮x1、x2。比較x3x5后發(fā)現(xiàn)
8、,x3的-決定系數(shù)明顯的大于x4、x5的,決定系數(shù)反映的是在因變量的總變化中自變量引起的那部分的比例,大說明x3自變量對(duì)因變量起的決定作用最大。并且x3的p和s2值也都比較小,所以最終確定x3可以最好的反映出y的情況。用Polytool檢驗(yàn)含x3高次(2次)項(xiàng)的情況,參量Export如下表:012回歸系數(shù)估計(jì)值122.7242-17.90720.9356置信區(qū)間下限67.1878-35.0387-0.3695 置信區(qū)間上限178.2605-0.7757 2.2408 可以同之前的僅含一次項(xiàng)的結(jié)果進(jìn)行比較,發(fā)現(xiàn)各個(gè)參量的置信區(qū)間都很寬,且2的置信區(qū)間過0??梢哉J(rèn)為二次項(xiàng)的引入是不重要的。因此采用
9、如下單參數(shù)模型描述y是最準(zhǔn)確地: 其中:u 雙參數(shù)回歸:用stepwise作逐步回歸,部分過程和最終結(jié)果如下圖:只取x3自變量的回歸結(jié)果取x3和x5自變量的回歸結(jié)果取x3和x1自變量的回歸結(jié)果根據(jù)題目要求,最終得到取雙參量時(shí)的最佳結(jié)果(RMSE參量最小)是取x3 (1500m跑后心速)和x1(年齡)自變量。但事實(shí)上,實(shí)際的逐步回歸過程在此時(shí)并沒有結(jié)束,最終的最優(yōu)結(jié)果是只取x3參量。這說明取x3、x1參量同只取x3相比優(yōu)勢(shì)并不明顯。通過rstool命令檢驗(yàn)二元情況下的交互項(xiàng)和高次項(xiàng)情況,下圖是linear情況下固定單參數(shù)進(jìn)行預(yù)測(cè)的結(jié)果:項(xiàng)對(duì)應(yīng)的系數(shù)常數(shù)項(xiàng)X3X1X32X12X3*X1RMSELi
10、near90.8529-5.4671-0.1872.8704Purequadratic142.8835-14.7911-1.17180.71110.01092.9028Interaction120.1929-10.1096-0.83640.10252.9033Quadratic144.4666 -16.4515-1.01990.0450 0.6818 0.00622.9786可以看到高次項(xiàng)和相關(guān)項(xiàng)的系數(shù)都非常小,說明其對(duì)于y的影響不大。根據(jù)rmse的結(jié)果進(jìn)行比較,仍然選擇linear回歸方式,即只用二元自變量的一次項(xiàng)。 其中: u 全參數(shù)回歸根據(jù)以上的分析可以驗(yàn)證模型建立時(shí)的猜想,本題中5個(gè)字
11、變量和y的關(guān)系都不是很直接的,除x3外其他變量的影響很小,所以在最終完整模型中,不再考慮高次項(xiàng)和交互項(xiàng)的影響,一方面簡(jiǎn)化模型,一方面大大節(jié)省的篩選的時(shí)間。所以采用stepwise命令,僅對(duì)五元變量x1x5的一次項(xiàng)進(jìn)行回歸分析,結(jié)果如下:Export參數(shù)結(jié)果:置信區(qū)間Coeff.set-statp-valX1-0.3254-0.594-0.0568-0.32540.1288-2.52740.02X200 0 -0.01310.0851-0.15390.8793X3-4.5694-6.1842-2.9546-4.56940.7741-5.90260X400 0-0.03840.0915-0.419
12、30.6797X5-0.1561-0.31260.0004-0.15610.075-2.08090.0505R2=0.814315F=29.2364RMSE=2.66669P=1.64368*e-7最終取以下三個(gè)參數(shù)得到最佳回歸結(jié)果:x3 (1500m跑后心速)、x1(年齡)以及x5(跑步后心速)。但仍需要進(jìn)行一般回歸分析(regress)確定常數(shù)項(xiàng)并觀察殘差,結(jié)果如下: 殘差圖(全部點(diǎn))可以看到10和15號(hào)數(shù)據(jù)異常,剔除,再次觀察殘差,結(jié)果如下殘差圖(剔除10,15號(hào)點(diǎn))可以看到4號(hào)數(shù)據(jù)變?yōu)楫惓?,再次剔除,結(jié)果仍然有異常點(diǎn)。過程從略,最終經(jīng)過4次剔除,去掉5個(gè)點(diǎn)(4,10,15,17,23)
13、以后,得到?jīng)]有異常點(diǎn)的模型:去掉所有異常點(diǎn)之后的結(jié)果最終得到的結(jié)果整體上優(yōu)越于剔除異常點(diǎn)之前的結(jié)果(不再粘貼結(jié)果)。但是事實(shí)上,由于數(shù)據(jù)點(diǎn)經(jīng)過剔除不斷的結(jié)果,模型最終的形式和實(shí)際統(tǒng)計(jì)到的24組數(shù)據(jù)的整體情況偏離越來越大,也就是說:剔除異常點(diǎn)雖然能夠一應(yīng)程度上降低其對(duì)于整體情況的干擾作用,而剔除的過程也放大了其他原本正常數(shù)據(jù)點(diǎn)的異常性,所以異常點(diǎn)可能會(huì)不斷產(chǎn)生,但是剔除的數(shù)量增加即采樣數(shù)據(jù)的減少也會(huì)削弱模型反省整體性能的能力。是一對(duì)矛盾,在數(shù)據(jù)點(diǎn)較少的時(shí)候尤其明顯。比較科學(xué)的做法是:只進(jìn)行1次或少次剔除,保證整體性,又去掉了最主要的異常點(diǎn)。這里的最終結(jié)果采用剔除最初兩個(gè)異常點(diǎn)(10,15號(hào))后的
14、結(jié)果,在此也附上完整數(shù)據(jù)(剔除之前)的結(jié)果,作為第3問的答案:完整數(shù)據(jù)(第三題結(jié)果):回歸參數(shù)取值置信區(qū)間118.0135 88.1010 147.92601-0.3254 -0.5940 -0.05683-4.5694 -6.1842 -2.95465-0.1561 -0.3126 0.0004R2Fps20.814329.23640.00007.1112 其中: 一次剔除(最終結(jié)果): 回歸參數(shù)取值置信區(qū)間119.4955 94.6827 144.30841-0.3623 -0.5991 -0.12553-4.0411 -5.3617 -2.72055-0.1774 -0.3030 -0.
15、0518R2Fps20.862537.62690.00004.4400 其中:1500m跑后心速、年齡以及跑步后心速三個(gè)參數(shù)最能夠反映鍛煉耗氧量這個(gè)重要的身體狀態(tài)指標(biāo)。三種心跳速度越快,說明耗氧量越大;速度越慢,即時(shí)間越長(zhǎng),說明耗氧量越小。 習(xí)題11:一個(gè)醫(yī)藥公司的新藥研究部門為了掌握一種新型止痛劑的療效,設(shè)計(jì)了一個(gè)藥物試驗(yàn),給24名患有同種痛病的病人使用這種新止痛劑的以下4個(gè)劑量中的某一:2、5、7、10,(g),并記錄每個(gè)病人病痛明顯減輕的時(shí)間(min).為了了解新藥的療效與病人性別和血壓有什么關(guān)系,試驗(yàn)過程中研究人員把柄熱男性別集血壓的低中高3檔平均分配來進(jìn)行測(cè)試。通過比較每個(gè)病人血壓的
16、歷史數(shù)據(jù),從低到高分成3組,分別記作0.25,0.0,0.75。實(shí)驗(yàn)結(jié)束后,公司的記錄結(jié)果見表格(略).請(qǐng)為公司建立一個(gè)模型,根據(jù)病人用藥的計(jì)量、性別和血壓組別,預(yù)測(cè)出服藥后病痛明顯減輕的時(shí)間。病人序號(hào)病痛減輕時(shí)間用藥劑量性別血壓組別135200.25243200.50355200.75447210.252131000.2522271010.2523261010.502451010.751. 模型建立本題共提供了三種不同的自變量,設(shè)為性別-x1,血壓-x2和用藥計(jì)量-x3。建立回歸模型時(shí),應(yīng)該充分考慮各個(gè)自變量對(duì)于因變量的多種影響方式,這里可能涉及到高次項(xiàng)和交互項(xiàng)。因此應(yīng)該在實(shí)驗(yàn)過程中將所有可
17、能的因素列于其中,分別檢驗(yàn),最終得到最佳的回歸模型。基本公式如下: 2. 程序設(shè)計(jì)u 數(shù)據(jù)clc,clearx1=0 0 0 1 1 1 0 0 0 1 1 1 0 0 0 1 1 1 0 0 0 1 1 1;x2=0.25 0.5 0.75 0.25 0.5 0.75 0.25 0.5 0.75 0.25 0.5 0.75 0.25 0.5 0.75 0.25 0.5 0.75 0.25 0.5 0.75 0.25 0.5 0.75;x3=2 2 2 2 2 2 5 5 5 5 5 5 7 7 7 7 7 7 10 10 10 10 10 10; y=35 43 55 47 43 57 26
18、 27 28 29 22 29 19 11 14 23 20 22 13 8 3 27 26 5; u 用逐步回歸法檢驗(yàn)所有的一次、二次和交互項(xiàng)XX=x1',x2',x3',x2'.2,x3'.2,(x1.*x2)',(x2.*x3)',(x3.*x1)'%注意,由于性別x1是0-1變量,所以齊高次項(xiàng)沒有任何意義,才此舍去stepwise(XX,y');u 根據(jù)逐步回歸得到的最優(yōu)模型,進(jìn)行regress回歸檢驗(yàn),并繪制殘差圖XF=ones(24,1),x2',x3',x2'.2,x3'.2,
19、(x2.*x3)',(x3.*x1)'b1,bint1,r1,rint1,s1=regress(y',XF);b1,bint1,s1,rcoplot(r1,rint1);3. 運(yùn)行結(jié)果及分析上圖是逐步回歸得到的最優(yōu)結(jié)果,其參數(shù)輸出結(jié)果如下betabetaciCoeff.t-statp-valx10003.8597-0.08640.9322x200030.02170.38890.7022x3-7.0608-10.2134-3.90831.5006-4.70550.0002x2242.528224.194660.86188.72654.87350.0001x320.5111
20、0.28140.74080.10934.67560.0002x1*x20005.4975-0.86760.3977x2*x3-7.3746-10.1514-4.59781.3217-5.57960x3*x10.95510.43861.47150.24583.88540.0011interceptrmsersqadjrsqfstatpval52.8084.01650.940510.9206856.9172.12E-10得到模型:其中:由多項(xiàng)指標(biāo)可以確定以上模型的合理性:rmse最小,R2統(tǒng)計(jì)量接近于1,beta(回歸系數(shù))置信區(qū)間全部部包含0點(diǎn),pval<<=0.05,這些都可以說明上模型在數(shù)學(xué)上
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025廠里安全培訓(xùn)考試試題【真題匯編】
- 一年級(jí)數(shù)學(xué)20以內(nèi)三個(gè)數(shù)加減混合運(yùn)算單元監(jiān)控模擬題帶答案
- 三年級(jí)數(shù)學(xué)因數(shù)中間或末尾有零的乘法競(jìng)賽測(cè)試口算題
- 車輛手續(xù)辦理協(xié)議
- 2025-2030年中國酒店保險(xiǎn)箱行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2025-2030年中國連續(xù)運(yùn)動(dòng)包裝機(jī)行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2025-2030年中國辣椒行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2025-2030年中國資產(chǎn)證券化行業(yè)市場(chǎng)發(fā)展分析及前景趨勢(shì)與機(jī)會(huì)風(fēng)險(xiǎn)研究報(bào)告
- 2025-2030年中國貝類行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2025-2030年中國血流量測(cè)量裝置行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- DZ∕T 0054-2014 定向鉆探技術(shù)規(guī)程(正式版)
- 社會(huì)主義發(fā)展簡(jiǎn)史智慧樹知到課后章節(jié)答案2023年下北方工業(yè)大學(xué)
- 溫泉度假設(shè)施造價(jià)預(yù)算
- 青少年創(chuàng)意編程試題
- 電子商務(wù)客戶服務(wù)5套綜合測(cè)試題帶答案
- 微觀經(jīng)濟(jì)學(xué)課件第二章(高鴻業(yè))
- RULES OF ORIGIN 原產(chǎn)地規(guī)則
- 國內(nèi)旅游出團(tuán)通知書(新版)
- LETTEROFINTENTION意向書范本
- 國內(nèi)各航空公司差異化服務(wù)
- 《山東省自然科學(xué)基金資助項(xiàng)目年度進(jìn)展報(bào)告》
評(píng)論
0/150
提交評(píng)論