區(qū)間估計與假設(shè)檢驗課件_第1頁
區(qū)間估計與假設(shè)檢驗課件_第2頁
區(qū)間估計與假設(shè)檢驗課件_第3頁
區(qū)間估計與假設(shè)檢驗課件_第4頁
區(qū)間估計與假設(shè)檢驗課件_第5頁
已閱讀5頁,還剩199頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第三章 區(qū)間估計與假設(shè)檢驗3.1 區(qū)間估計與假設(shè)檢驗的基本概念3.2 總體均值的區(qū)間估計與假設(shè)檢驗的SAS實現(xiàn)3.3 總體比例的區(qū)間估計與假設(shè)檢驗的SAS實現(xiàn)3.4 總體方差的區(qū)間估計與假設(shè)檢驗的SAS實現(xiàn)3.5 分布檢驗3.1 區(qū)間估計與假設(shè)檢驗的基本概念3.1.1 區(qū)間估計3.1.2 假設(shè)檢驗3.1.1 區(qū)間估計1. 點估計和區(qū)間估計 參數(shù)的估計方法主要有兩種:點估計和區(qū)間估計。 點估計是用樣本的觀測值估計總體未知參數(shù)的值。由于樣本的隨機性,不同樣本觀測值計算得出的參數(shù)的估計值間存在著差異,因此常用一個區(qū)間估計總體的參數(shù),并把具有一定可靠性和精度的估計區(qū)間稱為置信區(qū)間。利用構(gòu)造的統(tǒng)計量及樣

2、本觀測值,計算得出參數(shù)的置信區(qū)間的方法稱為參數(shù)的區(qū)間估計。2. 參數(shù)的置信區(qū)間 在區(qū)間估計中,對于總體的未知參數(shù),需要求出兩個統(tǒng)計量1(X1,X2,.,Xn)和2(X1,X2,.,Xn)來分別估計總體參數(shù)的上限和下限,使得總體參數(shù)在區(qū)間(1,2)內(nèi)的概率為P1 2 = 1 其中1 稱為置信水平,而(1,2)稱為的置信區(qū)間,1,2分別稱為置信下限和置信上限。置信水平為1 的含義是隨機區(qū)間(1,2)以1 的概率包含了參數(shù)。正態(tài)總體參數(shù)的各種置信區(qū)間見表3-1。 其中被估參數(shù)條件樞軸量及其分布參數(shù)的置信區(qū)間兩正態(tài)總體1 -2兩樣本獨立,12, 22已知兩樣本獨立,12= 22 = 2 未知兩樣本獨立

3、,1, 2未知4. 總體比例與比例差的置信區(qū)間 實際應(yīng)用中經(jīng)常需要對總體比例進行估計,如產(chǎn)品的合格率、大學(xué)生的就業(yè)率和手機的普及率等。記和P分別表示總體比例和樣本比例,則當(dāng)樣本容量n很大時(一般當(dāng)nP和n(1 P)均大于5時,就可以認為樣本容量足夠大),樣本比例P的抽樣分布可用正態(tài)分布近似??傮w比例與比例差的置信區(qū)間如表3-2所示。待估參數(shù)樞軸量及其分布參數(shù)的置信區(qū)間總體比例兩總體比例差1-2其中P1,P2為兩個樣本比例 2. 假設(shè)檢驗的步驟 1) 根據(jù)問題確立原假設(shè)H0和備選假設(shè)H1; 2) 確定一個顯著水平,它是衡量稀有性(小概率事件)的標(biāo)準,常取為0.05; 3) 選定合適的檢驗用統(tǒng)計量

4、W(通常在原假設(shè)中相等成立時,W的分布是已知的),根據(jù)W的分布及的值,確定H0的拒絕域。 4) 由樣本觀測值計算出統(tǒng)計量W的觀測值W0,如果W0落入H0的拒絕域,則拒絕H0;否則,不能拒絕原假設(shè)H0。 注意:在SAS系統(tǒng)中,是由樣本觀測值計算出統(tǒng)計量W的觀測值W0和衡量觀測結(jié)果極端性的p值(p值就是當(dāng)原假設(shè)成立時得到樣本觀測值和更極端結(jié)果的概率),然后比較p和作判斷:p ,拒絕原假設(shè)H0;p,不能拒絕原假設(shè)H0。 p值通常由下面公式計算而得到。 p = P|W| |W0| = 2 P W |W0| (拒絕域為兩邊對稱的區(qū)域時) p = minPW W0,PW W0(拒絕域為兩邊非對稱區(qū)域時)

5、p = PW W0 (拒絕域為右邊區(qū)域時) p = PW W0 (拒絕域為左邊區(qū)域時) 只需根據(jù)SAS計算出的p值,就可以在指定的顯著水平下,作出拒絕或不能拒絕原假設(shè)的決定。3. 正態(tài)總體均值和方差的假設(shè)檢驗 對正態(tài)總體的參數(shù)進行假設(shè)檢驗是假設(shè)檢驗的重要內(nèi)容,如對單總體均值、方差的檢驗、兩總體均值之差的檢驗和兩總體方差比的檢驗等。正態(tài)總體參數(shù)的各種檢驗方法見下表3-3至表3-5。表3-3 單正態(tài)總體N(,2)均值的檢驗法檢驗名稱條件檢驗類別H0H1檢驗統(tǒng)計量分布拒絕域Z檢驗已知雙邊檢驗 = 0 0N(0,1)| Z | Z/2左邊檢驗 0 0Z Zt檢驗未知雙邊檢驗 = 0 0t(n 1)|

6、t | t/2(n 1)左邊檢驗 0 0t t(n 1)表3-4 單正態(tài)總體N(,2)方差2的檢驗法或檢驗名稱條件檢驗類別H0H1檢驗統(tǒng)計量分布拒絕域2檢驗已知雙邊檢驗左邊檢驗右邊檢驗未知雙邊檢驗左邊檢驗右邊檢驗表3-5 兩正態(tài)總體的均值差與方差比的檢驗名稱條件類別H0H1檢驗統(tǒng)計量分布拒絕域Z檢驗兩樣本獨立,12=22=2未知雙邊檢驗1-2=01-20t(n1 + n2 2)左邊檢驗1-201-20t檢驗成對匹配樣本,12,22未知雙邊檢驗d=0d0左邊檢驗d0d0F檢驗兩樣本獨立,1, 2未知雙邊檢驗F(n11,n21)左邊檢驗右邊檢驗3.2 總體均值的區(qū)間估計與假設(shè)檢驗的SAS實現(xiàn)3.2

7、.1 使用INSIGHT模塊3.2.2 使用“分析家”3.2.3 使用TTEST過程3.2.1 使用INSIGHT模塊1. 總體均值的區(qū)間估計【例3-1】某藥材生產(chǎn)商要對其倉庫中的1000箱藥材的平均重量進行估計,藥材重量的總體方差未知,隨機抽取16箱樣本稱重后結(jié)果如表3-7所示。表3-7 16箱藥材重量(單位:千克) 設(shè)藥材重量數(shù)據(jù)存放于數(shù)據(jù)集Mylib.yczl中,其中重量變量名為weight。求該倉庫中每箱藥材平均重量在95%置信水平下的置信區(qū)間。50505651495347525353495355485055 結(jié)果包括一個名為“95Confidence Intervals(95%置信區(qū)

8、間)”的列表,表中給出了均值、標(biāo)準差、方差的估計值(Parameter)、置信下限(LCL)和置信上限(UCL),如圖3-2所示。結(jié)果表明,根據(jù)抽樣樣本,該倉庫中藥材的平均重量以95%的可能性位于50.08千克至52.92千克之間。2. 單樣本總體均值的假設(shè)檢驗【例3-2】一家食品廠以生產(chǎn)袋裝食品為主,每天的產(chǎn)量大約為8000袋,每袋重量規(guī)定為100克。為了分析每袋重量是否符合要求,質(zhì)檢部門經(jīng)常進行抽檢。現(xiàn)從某天生產(chǎn)的一批食品中隨機抽取了25袋,測得每袋重量如表3-8所示。表3-8 25袋食品的重量(單位:克)試從抽檢的樣本數(shù)據(jù)出發(fā),檢驗變量WEIGHT的均值與100克是否有顯著差異。假定表3

9、-8數(shù)據(jù)存放在數(shù)據(jù)集Mylib.spzl中,重量變量名為WEIGHT。112.5101.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.3 設(shè)變量WEIGHT的均值為,問題是希望通過樣本數(shù)據(jù)檢驗變量WEIGHT均值的如下假設(shè): H0: = 100,H1: 100。使用INSIGHT對均值進行檢驗的步驟如下: 1) 首先啟動INSIGHT,并打開數(shù)據(jù)集Mylib.spzl; 2) 選擇菜單“Analyze”“Distribut

10、ion(Y)”; 3) 在打開的“Distribution(Y)”對話框中選定分析變量WEIGHT; 4) 單擊“OK”按鈕,得到變量的描述性統(tǒng)計量; 5) 選擇菜單“Tables(表)”“Tests for Location(位置檢驗)”;在彈出的“Tests for Location”對話框中輸入100,單擊“OK”按鈕得到輸出結(jié)果如圖所示。 結(jié)果顯示,觀測值不等于100克的觀測有24個,其中19個觀測值大于100。 圖中第一個檢驗為t檢驗(Students t),需要假定變量服從正態(tài)分布,檢驗的p值為0.0105,這個檢驗在0.05水平下是顯著的,所以可認為均值與100克有顯著差異。第二

11、個檢驗(Sign)是叫做符號檢驗的非參數(shù)檢驗,其p值為0.0066,在0.05水平下也是顯著的,結(jié)論不變。第三個檢驗(Sgned Rank)是叫做符號秩檢驗的非參數(shù)檢驗,其p值為0.0048,在0.05水平下是顯著的,結(jié)論不變。3. 兩樣本總體均值的比較:成對匹配樣本 在INSIGHT中比較成對樣本均值是否顯著差異,可以計算兩變量的差值變量,再檢驗差值變量的均值是否顯著為0。【例3-3】由10名學(xué)生組成一個隨機樣本,讓他們分別采用A和B兩套試卷進行測試,結(jié)果如表3-9所示。表3-9 10名學(xué)生兩套試卷的成績試從樣本數(shù)據(jù)出發(fā),分析兩套試卷是否有顯著差異。試卷A786372899149687685

12、55試卷B71446184745155607739差值71911517-21316816 2) 然后對變量d的均值做如下假設(shè): H0:d = 0,H1:d 0。 3) 選擇菜單“Analyze”“Distribution(Y)”;在打開的“Distribution(Y)”對話框中選定分析變量:選擇變量差值d,單擊“Y”按鈕,將變量d移到右上方的列表框中; 4) 單擊“Output”按鈕,在打開的對話框中選中“Tests for Location(位置檢驗)”復(fù)選框; 5) 兩次單擊“OK”按鈕,得到變量的描述性統(tǒng)計量; 6) 選擇菜單“Tables(表)”“Tests for Location

13、(位置檢驗)”;在彈出的“Tests for Location”對話框中輸入0,單擊“OK”按鈕得到輸出結(jié)果如圖所示。 結(jié)果顯示三個檢驗的結(jié)論都是p值小于0.05,所以應(yīng)拒絕原假設(shè),即總體的均值與0有顯著差異。所以兩套試卷有顯著差異。 雖然SAS給出三個檢驗結(jié)果,其實作結(jié)論時只需其中一個。如果可以認為分析變量服從正態(tài)分布只要看t檢驗結(jié)果;否則只須看符號秩檢驗結(jié)果。只有在數(shù)據(jù)為兩兩比較的大小結(jié)果而沒有具體數(shù)值時符號檢驗才有用。 3) 在打開的“One Sample t test for a Mean”對話框中設(shè)置均值的置信區(qū)間(如圖3-6)。 結(jié)果表明(下圖),根據(jù)抽樣樣本,該倉庫中藥材的平均重

14、量以95%的可能性位于50.08千克至52.92千克之間。 2. 單樣本總體均值的假設(shè)檢驗【例3-5】使用“分析家”檢驗例3-2中食品重量是否符合要求。希望通過樣本數(shù)據(jù)檢驗變量WEIGHT均值的如下假設(shè): H0: = 100,H1: 100。 由于此時的方差未知,所以使用t檢驗法。步驟如下: 1) 在“分析家”中打開數(shù)據(jù)集Mylib.spzl; 2) 選擇菜單“Statistics(統(tǒng)計)”“Hypothesis Tests(假設(shè)檢驗)”“One Sample t test for a Mean(單樣本均值t - 檢驗)”,打開“One Sample t test for a Mean”對話框

15、; 4)按圖3-8所示設(shè)置均值檢驗,單擊“OK”按鈕,得到結(jié)果如圖左所示。; 顯示結(jié)果(圖右)表明t統(tǒng)計量的p值為0.01050.05,所以拒絕原假設(shè),即認為總體的均值不等于100。3. 兩樣本總體均值的比較:成對匹配樣本【例3-6】使用“分析家”對例3-3中兩套試卷檢驗有無顯著差異。 這是一個(成對匹配)雙樣本均值檢驗問題,若1和2分別表示兩套試卷的平均成績,則檢驗的是: H0:1 2 = 0,H1:1 2 0; 分析步驟如下: 1) 在“分析家”中打開數(shù)據(jù)集Mylib.sjdf; 2) 選擇菜單“Statistics(統(tǒng)計)”“Hypothesis Tests(假設(shè)檢驗)”“Two Sam

16、ple Paired t - Test for a Mean(均值的成對雙樣本t - 檢驗)”; 3) 在打開的“Two Sample Paired t - Test for a Mean”對話框中,按圖左所示設(shè)置雙樣本均值檢驗,單擊“OK”按鈕,得到結(jié)果如圖右所示 結(jié)果顯示,無論兩總體的方差是否相等,t統(tǒng)計量的p值 = 0.0005 0.05,所以在95%的置信水平下,拒絕原假設(shè),兩總體的均值有顯著差異。 結(jié)果表明可以95%的把握認為兩套試卷有顯著差異。4. 兩樣本總體均值的比較:獨立樣本【例3-7】為估計兩種方法組裝產(chǎn)品所需時間的差異,分別對兩種不同的組裝方法各隨機安排一些個工人進行操作試

17、驗,每個工人組裝一件產(chǎn)品所需的時間如表3-10所示。試以95%的置信水平推斷兩種方法組裝產(chǎn)品所需平均時間有無差異。表3-10 兩種方法組裝產(chǎn)品所需的時間(單位:分鐘) 這是一個(獨立)兩樣本均值檢驗問題,若1和2分別表示兩種方法組裝一件產(chǎn)品所需的平均時間,則檢驗的是:H0:1 2 = 0,H1:1 2 0;方法128.330.129.037.632.128.836.037.238.534.428.030.0方法227.622.231.033.820.030.231.726.032.031.2 假定表3-10數(shù)據(jù)存放在數(shù)據(jù)集Mylib.zzcpsj中,將兩個樣本中被比較均值的變量的觀測值記在同一

18、分析變量F下,不同的樣本用一個分類變量g的不同值加以區(qū)分,而且分類變量g只能取兩個值,否則無法進行。 分析步驟如下: 1) 在“分析家”中打開數(shù)據(jù)集Mylib.zzcpsj; 2) 選擇菜單“Statistics(統(tǒng)計)”“Hypothesis Tests(假設(shè)檢驗)”“Two Sample t - Test for Mean(兩樣本均值的t - 檢驗)”; 3) 在打開的“Two Sample t - Test for a Mean”對話框中,按圖3-12所示設(shè)置雙樣本均值檢驗,單擊“OK”按鈕,得到結(jié)果如圖3-13所示 結(jié)果顯示,由于t統(tǒng)計量的p值 = 0.0433,所以在95%的置信水平

19、下,應(yīng)該拒絕原假設(shè),即兩種方法所需時間有差異。表明有95%的把握認為兩種方法所需時間有差異。3.2.3 使用TTEST過程TTEST過程可以執(zhí)行單樣本均值的t檢驗、配對數(shù)據(jù)的t檢驗以及雙樣本均值比較的t檢驗。1. 語法格式PROC TTEST ; CLASS ; VAR ; PAIED ; BY ;RUN; 其中,PROC TTEST和RUN語句是必須的,其余語句都是可選的,而且可調(diào)換順序。 CLASS語句所指定的分組變量是用來進行組間比較的;而BY語句所指定的分組變量是用來將數(shù)據(jù)分為若干個更小的樣本,以便SAS分別在各小樣本內(nèi)進行各自獨立的處理。 VAR語句引導(dǎo)要檢驗的所有變量列表,SAS將

20、對VAR語句所引導(dǎo)的所有變量分別進行組間均值比較的t檢驗。 PAIED語句用來指定配對t檢驗中要進行比較的變量對,其后所帶的變量名列表一般形式及其產(chǎn)生的效果見表3-11。表3-11 選項及其含義變量名列表形式產(chǎn)生的效果a*ba ba*b c*da b, c d(a b)*(c d)a c, a d, b c, b d(a b)*(c b)a c, a b, b c PROC TTEST語句后可跟的選項及其表示的含義如表3-12所示。表3-12 選項及其含義選項代表的含義data =等號后為SAS數(shù)據(jù)集名,指定ttest過程所要處理的數(shù)據(jù)集,默認值為最近處理的數(shù)據(jù)集alpha =等號后為01之間

21、的任何值,指定置信水平,默認為0.05ci =等號后為“equal, umpu, none”中的一個,表示標(biāo)準差的置信區(qū)間的顯示形式,默認為ci = equalcochran有此選項時,ttest過程對方差不齊時的近似t檢驗增加cochran近似法h0 =等號后為任意實數(shù),表示檢驗假設(shè)中對兩均值差值的設(shè)定,默認值為02. 總體均值的置信區(qū)間【例3-8】仍然考慮例3-3中的樣本數(shù)據(jù)。假定其中數(shù)據(jù)使用如下數(shù)據(jù)步存放在數(shù)據(jù)集sjcj中,兩套試卷得分的變量名分別為A和B。data sjcj; input A B; cards;78 71 63 44 72 61 89 84 91 7449 51 68

22、55 76 60 85 77 55 39;run;【例3-8】仍然考慮例3-3中的樣本數(shù)據(jù)。假定其中數(shù)據(jù)使用如下數(shù)據(jù)步存放在數(shù)據(jù)集sjcj中,兩套試卷得分的變量名分別為A和B。 使用最簡代碼求均值、標(biāo)準差的置信區(qū)間:proc ttest data = sjcj;run; 代碼運行結(jié)果給出兩個變量在95%置信水平下的均值、標(biāo)準差的置信區(qū)間,以及對原假設(shè)0= 0所作的t檢驗的p值,如圖所示。3. 單樣本總體均值的假設(shè)檢驗 在例3-8中增加原假設(shè)選項以及置信水平,代碼如下:proc ttest h0=70 alpha = 0.01 data=sjcj; var A;run; 代碼運行結(jié)果除了給出變量

23、A在99%置信水平下的均值、標(biāo)準差的置信區(qū)間外,還給出對假設(shè)0 = 70,所作的t-檢驗的p值,如圖3-15所示。結(jié)果顯示t統(tǒng)計量的p值 = 0.5734,不能拒絕(57.34%的把握)原假設(shè):均值 = 70。4. 配對兩樣本均值的假設(shè)檢驗 在例3-8中檢驗兩套試卷有無顯著差異,代碼如下:proc ttest data=sjcj; paired A*B;run; 代碼運行結(jié)果給出了對原假設(shè)1 2 = 0所作的t檢驗的p值,如圖3-16所示。結(jié)果顯示t統(tǒng)計量的p值 = 0.0005 0.05,因此拒絕原假設(shè)。說明兩套試卷有顯著差異。5. 獨立兩樣本均值的假設(shè)檢驗 過程TTEST還可以用于進行獨立

24、雙樣本均值比較的t檢驗法。它的用法為PROC TTEST DATA = ; CLASS ; VAR ;RUN; 使用這一格式要求將兩個樣本中被比較均值的變量的觀測值記在同一分析變量下,不同的樣本用另一個分類變量的不同值加以區(qū)分,而且分類變量只能取兩個值,否則將報錯?!纠?-9】仍然考慮例3-7中的樣本數(shù)據(jù)。假定其中數(shù)據(jù)使用如下數(shù)據(jù)步存放在數(shù)據(jù)集zzcpsj中:data zzcpsj; input f g$; cards;28.3 1 27.6 2 30.1 1 22.2 2 29 1 31 237.6 1 33.8 2 32.1 1 20 2 28.8 1 30.2 236 1 31.7 2

25、37.2 1 26 2 38.5 1 32 234.4 1 31.2 2 28 1 30 1;run; 將兩批工人的測量結(jié)果看作兩個樣本,但其數(shù)據(jù)都放在一個數(shù)據(jù)集之中,所需的時間值是記錄在同一分析變量f之下,而兩種方法的差別是由變量g的值加以區(qū)分的,所以g可作為分類變量。檢驗代碼如下:proc ttest data=zzcpsj; class g; var f;run;檢驗結(jié)果如圖所示。在檢驗中,先看其最后關(guān)于方差等式的檢驗結(jié)果,檢驗方差相等是用的F 統(tǒng)計量,其數(shù)值為1.29,相應(yīng)的p值為0.67790.05 = ,所以不能拒絕方差相等的假設(shè)。 在方差相等的前提下,檢驗均值差異使用Pooled

26、方法,對應(yīng)統(tǒng)計量的t值為2.16,相應(yīng)的p值為0.04330.05 = ,所以兩種方法所需的時間是有顯著差異的。 在異方差的情況下,使用Satterthwaite法檢驗均值的差異。3.3 總體比例的區(qū)間估計與假設(shè)檢驗的SAS實現(xiàn)3.3.1 總體比例的置信區(qū)間3.3.2 單樣本總體比例的假設(shè)檢驗3.3.3 兩總體比例的比較3.3.1 總體比例的置信區(qū)間【例3-10】2004年底北京市私家車擁有量已達到129.8萬輛,位居全國之首,據(jù)業(yè)內(nèi)人士分析其中國產(chǎn)中低檔汽車的比例較大,為了估計目前北京市場個人購車的平均價格,調(diào)查人員于某日在北京最大的車市隨機抽取36位私人消費購車者,得到他們所購汽車的價格,

27、見下表。表3-13 年底購車價格(單位:萬元)根據(jù)以上調(diào)查數(shù)據(jù),試以95的置信水平推斷該地區(qū)購買私家車在15萬元以上的消費者占有的比例。6.8811.2819.9813.610.614.86.8811.7820.9824.412.314.86.8813.6813.630.314.614.88.2814.9814.79.614.617.49.615.6815.89.612.95.3810.1815.6820.510.614.87.38 設(shè)購車價格數(shù)據(jù)存放在數(shù)據(jù)集Mylib.gcjg中,價格變量名為price。這是一個單樣本比例的區(qū)間估計問題。由于在SAS中只能對兩水平的分類變量作比例的區(qū)間估計與

28、檢驗,所以首先要按變量price生成一個新的分類變量。步驟如下: 1) 在“分析家”中打開數(shù)據(jù)集Mylib.gcjg; 2) 選擇主菜單“Edit(編輯)”“Mode(模式)”“Edit(編輯)”,使數(shù)據(jù)集可以被編輯(修改); 3) 選擇主菜單“Data(數(shù)據(jù))”“Transform(變換)”“Recode Ranges(重編碼范圍)”,打開“Recode Ranges Information”對話框并按圖3-18(左)設(shè)置有關(guān)內(nèi)容; 4) 單擊“OK”按鈕,打開“Recode Ranges”對話框,按圖3-18右所示生成新變量price_f; 6) 選擇菜單“Statistics(統(tǒng)計)”“

29、Hypothesis Tests(假設(shè)檢驗)”“One Sample Test for a Proportion(單樣本比例檢驗)”; 7) 在打開的“One Sample Test for a Proportion”對話框中,按圖3-19設(shè)置比例的置信區(qū)間。 分析結(jié)果中包括變量的置信區(qū)間:按95%的置信水平變量price取值為“15”的比例在區(qū)間(0.109,0.391)范圍中(如圖3-20),即可以95%的概率估計該地區(qū)所購買車輛在15萬元以上的消費者所占比例在10.9%39.1%之間。3.3.2 單樣本總體比例的假設(shè)檢驗【例3-11】考慮例3-10中的數(shù)據(jù),試檢驗總體中購買車輛在15萬元

30、以上者所占比例是否超過30%。 這是一個單樣本比例檢驗問題,若表示總體中購買車輛在15萬元以上者所占比例,則檢驗的是: H0: 0.3,H1: 0.05,所以不能拒絕原假設(shè)。 結(jié)果表明購買車輛在15萬元以上者所占比例在95%的置信水平下超過30%。3.3.3 兩總體比例的比較【例3-12】2004年底很多類型的國產(chǎn)轎車價格都比年中有所下降,為了對比2004年底與年中私家購車族購車價格的差異,在年中新購車者中隨機抽取32人,調(diào)查得到的價格數(shù)據(jù)如表3-14。表3-14 年中購車價格(單位:萬元):綜合表3-13與表3-14的調(diào)查數(shù)據(jù),試以95的置信水平推斷該地區(qū)年底與年中購買私家車在15萬元以上的

31、消費者占有比例有無差異。5.3810.7812.8814.718.8830.37.3811.213.61519.9815.287.9811.7813.6515.820.59.999.3811.7814.615.920.989.3610.312.314.71724.48.9911.3810.28 這是一個雙樣本比例檢驗問題,若1和2分別表示總體中年底和年中購買私家車在15萬元以上的消費者所占的比例,則檢驗的是假設(shè): H0:1 2 = 0,H1:1 2 0;首先將3-7與表3-8的調(diào)查數(shù)據(jù)存入一個數(shù)據(jù)集Mylib.gcjgQ中,價格變量名為price,使用變量period以區(qū)別年中數(shù)據(jù)(2)與年底

32、數(shù)據(jù)(1)。按例3-10中的步驟由price生成兩水平分類變量price_F。圖3-23所示即為數(shù)據(jù)集Mylib.gcjgQ中的部分數(shù)據(jù)。然后,對上面假設(shè)進行檢驗,步驟如下: 1) 在分析家中打開數(shù)據(jù)集Mylib.gcjgQ后,選擇菜單“Statistics”“Hypothesis Tests”“Two Sample Test for Proportion(雙樣本比例檢驗)”,在對話框中,按圖左設(shè)置雙樣本比例檢驗,分析結(jié)果如圖右所示。結(jié)果顯示,由于Z統(tǒng)計量的p值為0.5664,所以在95%的置信水平下,不能拒絕原假設(shè)。即該地區(qū)2004年底與年中私家購車價格在15萬元以上者所占比例無明顯差異。3

33、.4 總體方差的區(qū)間估計與假設(shè)檢驗的SAS實現(xiàn)3.4.1 總體方差的置信區(qū)間3.4.2 單樣本總體方差的假設(shè)檢驗3.4.3 兩樣本總體方差的比較3.4.1 總體方差的置信區(qū)間【例3-13】表3-15所示為某中學(xué)1980年模擬高考數(shù)學(xué)的部分學(xué)生成績,試估計本次模擬考試成績的方差。表3-15 部分學(xué)生成績 假定表3-15數(shù)據(jù)存放在數(shù)據(jù)集Mylib.kscj中,成績變量名為score。分析步驟如下: 1) 在“分析家”中打開數(shù)據(jù)集Mylib.kscj; 2) 選擇菜單“Statistics(統(tǒng)計)”“Hypothesis Tests(假設(shè)檢驗)”“One Sample Test for a Vari

34、ance(方差的單樣本檢驗)”;100969690921001009099921009810097979594100 3) 在打開的“One Sample Test for a Variance”對話框中設(shè)置方差的置信區(qū)間(如圖3-26)。分析結(jié)果中包括方差的置信區(qū)間估計,如圖3-27所示。 結(jié)果表明,本次模擬考試成績方差在置信水平95%下的置信區(qū)間為(7.1692,28.614)。 3.4.2 單樣本總體方差的假設(shè)檢驗【例3-14】考慮例3-13中的模擬考試成績,檢驗考試成績是否太集中。 這是一個單樣本方差檢驗問題,若表示總體方差,則檢驗的是: H0:2 52,H1:2 52; 步驟如下:

35、1) 選擇菜單“Statistics”“Hypothesis Tests”“One Sample Test for a Variance(單樣本方差檢驗)”,打開“One Sample Test for a Variance”對話框并按圖設(shè)置; 2) 單擊“OK”按鈕,得到結(jié)果。 結(jié)果(圖左)顯示,樣本方差為12.732,由于2檢驗的p值 = 0.9504,所以不能拒絕方差 25的原假設(shè)。 結(jié)果表明有95%的把握可以認為該模擬考試的成績太過集中。3.4.3 兩樣本總體方差的比較【例3-15】已知兩只股票深發(fā)展(000001)和萬科A(000002)在2004年6月21個交易日的收益率如表3-1

36、6所示。試在0.05的顯著水平下判斷深發(fā)展的風(fēng)險是否高于萬科A?表3-16 深發(fā)展和萬科A在2004年6月21個交易日的收益率day深發(fā)展萬科Aday深發(fā)展萬科Aday深發(fā)展萬科A200406010.00310.009920040610-0.00220.004120040621-0.00220.0131200406020.0301-0.01372004061100.002200406220.00330.02820040603-0.0231-0.013920040614-0.0209-0.012320040623-0.0066-0.014720040604-0.00820.00620040615

37、0.04610.018620040624-0.01440.008520040607-0.0228-0.00820040616-0.0097-0.00220040625-0.0056-0.012720040608-0.02230.00220040617-0.0228-0.042820040628-0.05190.004320040609-0.0109-0.0202200406180.0111-0.0255200406290.02260.0319 這是一個雙樣本方差檢驗問題,若1和2分別表示深發(fā)展和萬科A兩只股票收益率的方差,則檢驗的是: H0:1 2,H1:1 0.15 0.05 = ,所以不能

38、拒絕原假設(shè),可以認為變量income總體分布為正態(tài)分布。3.5.3 在“分析家”中研究分布【例3-17】在“分析家”中研究例3-10例3-12中北京市場個人購車價格變量price的正態(tài)性。1. 繪制分布擬合圖和QQ圖 首先在“分析家”中打開數(shù)據(jù)集Mylib.gcjg; 選擇主菜單“Statistics” “Descriptive” “Distributions”,打開“Distributions”對話框。按圖(上圖)設(shè)置分析選項,三次單擊“OK”按鈕,得到直方圖和QQ圖如圖(下圖)所示。 2. 分布檢驗 繼續(xù)上述步驟。 在分析家窗口的項目管理器中雙擊“Fitted Distributions

39、of Gcjg”項,得到檢驗結(jié)果如圖3-443-45所示。 年底數(shù)據(jù)的分布檢驗結(jié)果如圖,其含義說明如下: 其中第一部分為檢驗擬合分布的結(jié)果。首先指明擬合的是正態(tài)分布,均值為13.60556,標(biāo)準差為5.170595;接著有三種經(jīng)驗分布的檢驗結(jié)果 三種檢驗基本上都認為變量price的分布與正態(tài)分布有差異,因此拒絕變量price為正態(tài)分布的假設(shè)。 年中數(shù)據(jù)的分布檢驗結(jié)果如圖3-45所示。結(jié)果表明: 均值為13.95031,標(biāo)準差為5.234664;三種檢驗基本上都認為變量price的分布與正態(tài)分布無顯著差異,因此不能拒絕變量price為正態(tài)分布的假設(shè)。 綜上,應(yīng)拒絕年底數(shù)據(jù)中變量price的分布為

40、正態(tài)分布的假設(shè),而不能拒絕年中數(shù)據(jù)中變量price的分布為正態(tài)分布的假設(shè)。 3.5.4 使用UNIVARIATE過程 在PROC UNIVARIATE語句中加上NORMAL選項可以進行正態(tài)性檢驗?!纠?-18】檢驗例3-1藥材倉庫中的1000箱藥材的重量是否服從正態(tài)分布。 使用如下UNIVARIATE過程:proc univariate data = Mylib.yczl normal; var weight;run;【例3-18】檢驗例3-1藥材倉庫中的1000箱藥材的重量是否服從正態(tài)分布。 結(jié)果(部分)如圖3-46所示。這里給出了weight變量的四種正態(tài)性檢驗結(jié)果,其中Shapiro-W

41、ilk檢驗是首選的。可以看到p值很大,所以在0.05水平下不能拒絕原假設(shè),即認為weight服從正態(tài)分布。第四章 相關(guān)分析與回歸分析4.1 簡單相關(guān)分析4.2 回歸分析4.3 非線性回歸4.1 簡單相關(guān)分析4.1.1 相關(guān)分析的基本概念4.1.2 用INSIGHT模塊作相關(guān)分析4.1.3 用“分析家”作相關(guān)分析4.1.1 相關(guān)分析的基本概念1. 散點圖 散點圖是描述變量之間關(guān)系的一種直觀方法。我們用坐標(biāo)的橫軸代表自變量X,縱軸代表因變量Y,每組數(shù)據(jù)(xi,yi)在坐標(biāo)系中用一個點表示,由這些點形成的散點圖描述了兩個變量之間的大致關(guān)系,從中可以直觀地看出變量之間的關(guān)系形態(tài)及關(guān)系強度。 圖4-1就

42、是不同形態(tài)的散點圖。 (a) (b) (c) (d) 就兩個變量而言,如果變量之間的關(guān)系近似地表現(xiàn)為一條直線,則稱為線性相關(guān),如圖4-1(a)和(b);如果變量之間的關(guān)系近似地表現(xiàn)為一條曲線,則稱為非線性相關(guān)或曲線相關(guān);如圖4-1(c);如果兩個變量的觀測點很分散,無任何規(guī)律,則表示變量之間沒有相關(guān)關(guān)系,如圖4-l(d)。 2. 相關(guān)系數(shù) 相關(guān)系數(shù)是對變量之間關(guān)系密切程度的度量。若相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計算的,稱為總體相關(guān)系數(shù),記為;總體相關(guān)系數(shù)的計算公式為:其中COV(X,Y)為變量X和Y的協(xié)方差,D(X)和D(Y)分別為X和Y的方差。 若相關(guān)系數(shù)是根據(jù)樣本數(shù)據(jù)計算的,則稱為樣本相關(guān)系數(shù)

43、(簡稱為相關(guān)系數(shù)),記為r。樣本相關(guān)系數(shù)的計算公式為: 一般情況下,總體相關(guān)系數(shù)是未知的,我們通常是將樣本相關(guān)系數(shù)r作為的近似估計值。 相關(guān)系數(shù)r有如下性質(zhì): 相關(guān)系數(shù)的取值范圍:1 r 1,若0 r 1,表明X與Y之間存在正線性相關(guān)關(guān)系,若1 r 0,表明X與Y之間存在負線性相關(guān)關(guān)系。 若r = 1,表明X與Y之間為完全正線性相關(guān)關(guān)系;若r = 1,表明X與Y之間為完全負線性相關(guān)關(guān)系;若r = 0,說明二者之間不存在線性相關(guān)關(guān)系。 相關(guān)系數(shù)r有如下性質(zhì): 當(dāng)1 r 1時,為說明兩個變量之間的線性關(guān)系的密切程度,通常將相關(guān)程度分為以下幾種情況:當(dāng)| r | 0.8時,可視為高度相關(guān);0.5 |

44、 r | 0.8時,可視為中度相關(guān);0.3 | r | 0.5時,視為低度相關(guān);當(dāng)| r | 0.3時,說明兩個變量之間的相關(guān)程度極弱,可視為不相關(guān)。但這種解釋必須建立在對相關(guān)系數(shù)進行顯著性檢驗的基礎(chǔ)之上。3. 相關(guān)系數(shù)的顯著性檢驗 相關(guān)系數(shù)的顯著性檢驗也就是檢驗總體相關(guān)系數(shù)是否顯著為0,通常采用費歇爾(Fisher)提出的t分布檢驗,該檢驗可以用于小樣本,也可以用于大樣本。檢驗的具體步驟如下: 1) 提出假設(shè):假設(shè)樣本是從一個不相關(guān)的總體中抽出的,即H0: = 0;H1: 0 1) 提出假設(shè):假設(shè)樣本是從一個不相關(guān)的總體中抽出的,即H0: = 0;H1: 0 2) 由樣本觀測值計算檢驗統(tǒng)計量

45、:的觀測值t0和衡量觀測結(jié)果極端性的p值:p = P| t | | t0 | = 2Pt |t0| 3) 進行決策:比較p和檢驗水平作判斷:p ,拒絕原假設(shè)H0;p ,不能拒絕原假設(shè)H0。4. 置信橢圓 可以生成兩類置信橢圓: 均值置信橢圓:預(yù)測兩變量均值的置信區(qū)域; 預(yù)測值置信橢圓:預(yù)測兩變量分布個別觀測值的置信區(qū)域。 關(guān)于預(yù)測值置信橢圓的兩點說明: 1) 作為置信曲線,表示數(shù)據(jù)以設(shè)定的百分率(置信水平)落入的橢圓區(qū)域; 2) 作為相關(guān)性指標(biāo)。若兩個變量不相關(guān),橢圓應(yīng)該為圓;兩個相關(guān)的變量有拉長的橢圓,可以用橢圓長短軸之比來衡量相關(guān)的程度。4.1.2 用INSIGHT模塊作相關(guān)分析【例4-1

46、】一家大型商業(yè)銀行在多個地區(qū)設(shè)有分行,其業(yè)務(wù)主要是進行基礎(chǔ)設(shè)施建設(shè)、國家重點項目建設(shè)、固定資產(chǎn)投資等項目的貸款。近年來,該銀行的貸款額平穩(wěn)增長,但不良貸款額也有較大比例的提高,這給銀行業(yè)務(wù)的發(fā)展帶來較大壓力。為弄清楚不良貸款形成的原因,希望利用銀行業(yè)務(wù)的為弄清楚不良貸款形成的原因,希望利用銀行業(yè)務(wù)的有關(guān)數(shù)據(jù)做些定量分析,以便找出控制不良貸款的辦法。表4-1就是該銀行所屬的25家分行2002年的有關(guān)業(yè)務(wù)數(shù)據(jù)。表4-1 某商業(yè)銀行2002年的主要業(yè)務(wù)數(shù)據(jù)銀行想知道,不良貸款是否與貸款余額、應(yīng)收貸款、貸款項目的多少、固定資產(chǎn)投資等因素有關(guān)?如果有,是一種什么樣的關(guān)系?關(guān)系強度如何?分行編號不良貸款(

47、億元)x1各項貸款余額(億元)x2本年累計應(yīng)收貸款(億元)x3貸款項目個數(shù)(個)x4本年固定資產(chǎn)投資額(億元)x510.967.36.8551.921.1111.319.81690.934.8173.07.71773.743.280.87.21014.557.8199.716.51963.2206.8139.47.22864.32111.6368.216.832163.9221.695.73.81044.5231.2109.610.31467.9247.2196.215.81639.7253.2102.212.01097.1 設(shè)表4-1中數(shù)據(jù)已經(jīng)存放在數(shù)據(jù)集Mylib.bldk中。1. 制作散

48、點圖 首先制作變量之間的散點圖,以便判斷變量之間的相關(guān)性。步驟如下: 1) 在INSIGHT模塊中,打開數(shù)據(jù)集Mylib.bldk; 2) 選擇菜單“Analyze(分析)”“Scatter Plot (Y X)(散點圖)”; 3) 在打開的“Scatter Plot (Y X)”對話框中選定Y變量:Y;選定X變量:x1、x2、x3、x4; 4) 單擊“OK”按鈕,得到變量的分析結(jié)果。 從各散點圖中可以看出,不良貸款(Y)與貸款余額(x1)、應(yīng)收貸款(x2)、貸款項目多少(x3)、固定資產(chǎn)投資額(x4)之間都具有一定的線性關(guān)系。但從各散點的分布情況看,與貸款余額(x1)的線性關(guān)系比較密切,而與

49、固定資產(chǎn)投資額(x4)之間的關(guān)系最不密切。2. 相關(guān)系數(shù)計算 1) 在INSIGHT模塊中,打開數(shù)據(jù)集Mylib.bldk; 2) 選擇菜單“Analyze(分析)”“Multivariate (Y X)(多變量)”; 3) 在打開的“Multivariate (Y X)”對話框中選定Y變量:Y;選定X變量:x1、x2、x3、x4; 4) 單擊“OK”按鈕,得到分析結(jié)果。結(jié)果顯示各變量的統(tǒng)計量和相關(guān)(系數(shù))矩陣,從相關(guān)矩陣中可以看出,在不良貸款Y與其他幾個變量的關(guān)系中,與貸款余額(x1)的相關(guān)系數(shù)最大,而與固定資產(chǎn)投資額(x4)的相關(guān)系數(shù)最小。 5) 為了檢驗各總體變量的相關(guān)系數(shù)是否為零,選擇

50、菜單:“Tables”“CORR p-values”,得到相關(guān)系數(shù)為零的原假設(shè)的p值,如圖4-6所示。 基于這些p值,拒絕原假設(shè),即不良貸款與其他幾個變量之間均存在著顯著的正相關(guān)關(guān)系。3. 置信橢圓 繼續(xù)上述步驟。 6) 選擇菜單:“Curves”“Scatter Plot Cont Ellipse”“Prediction:95”,得到不良貸款與其他幾個變量的散點圖及預(yù)測值的置信橢圓,如圖所示。變量Y和x1間散點圖上的這個橢圓被拉得很長,表明變量Y和x1之間有很強的相關(guān)性。4.1.3 用“分析家”作相關(guān)分析【例4-2】通常用來評價商業(yè)中心經(jīng)營好壞的一個綜合指標(biāo)是單位面積的營業(yè)額,它是單位時間內(nèi)

51、(通常為一年)的營業(yè)額與經(jīng)營面積的比值。對單位面積營業(yè)額的影響因素的指標(biāo)有單位小時車流量、日人流量、居民年平均消費額、消費者對商場的環(huán)境、設(shè)施及商品的豐富程度的滿意度評分。這幾個指標(biāo)中車流量和人流量是通過同時對幾個商業(yè)中心進行實地觀測而得到的。而居民年平均消費額、消費者對商場的環(huán)境、設(shè)施及商品的豐富程度的滿意度評分是通過隨機采訪顧客而得到的平均值數(shù)據(jù)。表4-2為從某市隨機抽取的20個商業(yè)中心有關(guān)指標(biāo)的數(shù)據(jù),試據(jù)此說明變量間的相關(guān)程度。表4-2 20個商業(yè)中心有關(guān)指標(biāo)的數(shù)據(jù)設(shè)表4-2數(shù)據(jù)已保存在數(shù)據(jù)集Mylib.jyzk中。商業(yè)中心編號單位面積年營業(yè)額(萬元/平方米)Y每小時機動車流量(萬輛)x

52、1日人流量 (萬人)x2居民年消費額(萬元)x3對商場環(huán)境滿意度x4對商場設(shè)施滿意度x5對商場商品豐富程度滿意度x612.50.513.901.9479623.20.264.242.8674632.50.724.541.6388743.41.236.981.926101051.80.694.210.7184760.90.362.910.62565152.61.045.531.301079162.71.185.981.28879171.40.611.271.48671183.21.055.772.167109192.91.065.711.74699202.50.584.111.857961. 相

53、關(guān)分析的設(shè)置 在“分析家”中作相關(guān)分析的步驟如下: 1) 在“分析家”中打開數(shù)據(jù)集Mylib.jyzk; 2) 選擇主菜單“Statistics”“Descriptive(描述性統(tǒng)計)”“Correlations(相關(guān))”,打開“Correlations”對話框,按圖4-8 設(shè)置分析變量及內(nèi)容。 2. 結(jié)果分析 顯示結(jié)果首先給出各個變量的描述性統(tǒng)計量,包括觀測總數(shù)、各變量的均值及標(biāo)準差等。然后給出變量的相關(guān)系數(shù)矩陣(分析變量中任兩者之間的相關(guān)系數(shù)),以及原假設(shè)為H0:Rho = 0(即H0: = 0)的檢驗結(jié)果(僅給出p值),如圖4-9所示。 從相關(guān)系數(shù)的取值來看,單位面積營業(yè)額(Y)與居民年

54、消費額(x3)、日人流量(x2)接近高度相關(guān);單位面積營業(yè)額(Y)與每小時機動車流量(x1)、對商場環(huán)境的滿意度(x4)、對商場設(shè)施的滿意度(x5)為低度相關(guān);單位面積營業(yè)額(Y)與商場商品豐富程度滿意度(x6)則屬于中度相關(guān)。 從相關(guān)系數(shù)的假設(shè)檢驗結(jié)果來看,單位面積營業(yè)額(Y)與居民年消費額(x3)、日人流量(x2)、商場商品的豐富程度滿意度(x6)、對商場設(shè)施的滿意度(x5)的相關(guān)系數(shù)顯著不為0(p 10即可認為模型有很強的共線問題。8. 利用回歸方程進行預(yù)測 (1) 點預(yù)測 假設(shè)通過檢驗的“最優(yōu)”回歸方程為當(dāng)自變量的一組新觀測值x0 = (x01,x02,x0k)對應(yīng)的因變量的預(yù)測值為(

55、2) 區(qū)間預(yù)測 區(qū)間預(yù)測分為均值的預(yù)測區(qū)間和個體的預(yù)測區(qū)間。 若將 理解為E(y0)的預(yù)測值,則在給定的顯著水平下,E(y0)的置信區(qū)間為其中, , n為觀測次數(shù),k為自變量個數(shù)。 若將 理解為個體值y0的預(yù)測值,則在給定的顯著水平下,y0的置信區(qū)間為4.2.2 用INSIGHT模塊作回歸分析【例4-3】根據(jù)例4-1的數(shù)據(jù)集Mylib.bldk,建立不良貸款的預(yù)測公式。1. 一元線性回歸 建立不良貸款對貸款余額的回歸方程。(1) 分析 1) 在INSIGHT模塊中打開數(shù)據(jù)集Mylib.bldk。選擇菜單“Analyze”“Fit(Y X)”,打開“Fit(Y X)”對話框; 2) 在“Fit(

56、Y X)”對話框中,將Y設(shè)為響應(yīng)變量,將x1設(shè)為自變量; 3) 單擊“OK”按鈕,得到分析結(jié)果。 顯示的結(jié)果分為若干張表: 第一張表提供關(guān)于擬合模型的一般信息,Y = x1表示這個分析是以Y為響應(yīng)變量,x1為自變量的線性模型; 第二張表給出回歸方程: 第三張表是帶有回歸直線的散點圖,給出了回歸的圖形表示,如圖; 圖的下面是參數(shù)回歸擬合表(圖4-14)。其中判定系數(shù)R-Square(R2)為模型平方和占總平方和的比例,反映了回歸方程能夠解釋的信息占總信息的比例;第四張表提供擬合的匯總度量(圖4-15):Mean of Response(響應(yīng)變量的均值)是變量Y的平均值,Root MSE(均方殘差

57、平方根)是對各觀測點在直線周圍分散程度的一個度量值,為隨機誤差的標(biāo)準差(也是實測值Y的標(biāo)準差)的無偏估計。 第五張方差分析表(圖4-16)包含對回歸方程的顯著檢驗:對一元線性回歸,第六張型檢驗表提供與方差分析表一樣的檢驗,如圖4-17;第七張參數(shù)估計表給出了回歸直線截距和斜率的估計值及其顯著性檢驗等內(nèi)容。在這個例子里,截距的p值 = 0.05,表示模型還有改進的余地,可以考慮擬合截距為0的回歸直線。斜率的t檢驗p值 .150.05,應(yīng)接受原假設(shè),認為殘差為正態(tài)性分布。所以,模型 是合適的,用其對不良貸款進行預(yù)測會更符合實際。2. 多元線性回歸【例4-4】引入數(shù)據(jù)集Mylib.BLDK中的所有4

58、個自變量對不良貸款建立多元線性回歸。 (1) 分析步驟 在INSIGHT模塊中打開數(shù)據(jù)集Mylib.BLDK。 1) 選擇菜單“Analyze”“Fit(Y X)(擬合)”,打開“Fit(Y X)”對話框; 2) 在“Fit(Y X)”對話框中,選擇變量Y,單擊“Y”按鈕,將Y設(shè)為響應(yīng)變量;選擇變量x1、x2、x3、x4,單擊“X”按鈕,將x1、x2、x3、x4設(shè)為自變量; 3) 單擊“OK”按鈕,得到分析結(jié)果。 在顯示的結(jié)果中可以看到,多元回歸分析的輸出類似于一元線性回歸的輸出,同樣分為七張表: 第一張表提供關(guān)于擬合模型的一般信息; 第二張表給出模型方程(即回歸方程),如圖4-26。 可知回

59、歸方程為: 第三張模型擬合匯總表(圖4-27)表明R-Square為0.7976,比一元線性回歸模型有一定提高,但不足以說明模型優(yōu)于一元回歸模型,因為在模型中增加自變量總能提高R-Square。Adj R-Sq(修正R2)考慮了加入模型的變量數(shù),在比較不同多元模型時用Adj R-Sq更合適。如在這里它為0.7571,而在簡單模型中為0.6991,說明這一模型比一元線性模型更多地說明變量Y的變化。 第四張方差分析表中(下圖左),看到p值0.0001,拒絕原假設(shè)并可作出至少有一個回歸系數(shù)不為零的結(jié)論,說明所建模型的線性關(guān)系是顯著的。III型檢驗表(上圖右)與參數(shù)估計表(下圖)給出各個自變量的回歸系

60、數(shù)為零的假設(shè)檢驗,各自變量的回歸系數(shù)的F檢驗與t檢驗在這里是一致的。參數(shù)估計表(上圖右)包括截距的顯著性檢驗,還給出了容差(Tolerance)和方差膨脹因子(VIF)。兩表中自變量x2、x3、x4的回歸系數(shù)假設(shè)檢驗的p值較大,說明這些自變量對Y的影響不顯著,這種情況可能是這些變量對預(yù)測Y值作用不大,也可能是由于這些變量之間的高度相關(guān)性所引起的共線問題。如果自變量之間具有高度的共線關(guān)系,則它們所提供的預(yù)測信息就是重復(fù)的,在參數(shù)(回歸系數(shù))檢驗中這些變量的顯著性就可能被隱蔽起來,故應(yīng)考慮剔除一些自變量,重新擬合回歸方程。(本例中x1的方差膨脹系數(shù)較大,說明x1與其余自變量有一定的線性關(guān)系)(2)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論