版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
統計學期末復習題要點統計學期末復習題要點PAGE27/27PAGE27統計學期末復習題要點PAGE__________________________________________統計學___________________________________________
統計學
解答題局部
1、一組數據的散布特點可以從哪幾個方面進行描述?答:數據散布的特點可以從三個方面進行測度和描述:〔1〕散布的集中趨勢,反響各數據向其中心值靠攏或齊聚的程度;〔2〕散布的離散程度,反響各數據遠離其中心值的趨勢;〔3〕散布的形狀,反響數據散布的偏態(tài)和峰態(tài)。2、影響樣本量大小的因素有哪些?簡述這些因素與樣本量的關系。答:(1)研究對象的變化程度;(2)所要求或允許的誤差大小〔即精度要求〕;(3)要求推斷的置信程度。關系:當所研究的現象越復雜,差別越大時,樣本量要求越大;當要求的精度越高,可推斷性要求越高時,樣本量越大。3、簡述統計數據的種類和特點。答:一、種類:1〕按計量尺度:分類數據、序次數據和數值型數據;2〕按收集方法:察看數據和實驗數據;3〕按被描述的現象與時間的關系:截面數據和時間序列數據。二、特點:1〕按計量尺度分時:分類數據中各種類之間是同樣的并列關系,各種類之間的序次是可以任意改變的;序次數據的種類之間是可以比較序次的;數值型數據其結果表現為詳盡的數值。2〕按收集方法分時:察看數據是在沒有對事物進行人為控制的條件下等到的;實驗數據的在實驗中控制實驗對象而收集到的數據。3〕按被描述的對象與時間關系分時:截面數據所描述的是現象在某一時刻的變化情況;時間序列數據所描述的是現象隨時間而變化的情況。4、在假設查驗中,當不拒絕原假準時,為什么不采取“接受原假設〞的表示方式?答:〔1〕從假設查驗的原理看,不拒絕原假設意味著我們所組成的與原假設相矛盾的小概率事件沒有發(fā)生,但可能還有好多其他的與原假設矛盾的小概率事件,我們沒有也無法證實所有的這些小概率事件不會發(fā)生?!?〕在假設查驗中平時先確定顯著性水平,這就等于控制了第I類錯誤的概率,但是犯第Ⅱ類錯誤的概率卻是不確定的?!?〕綜上,我們把假設查驗中出現接受H0的結果解釋為“沒有發(fā)現充分的憑據反對H0〞,也許更嚴格的解釋為“在顯著性水平α下沒有發(fā)現充分的憑據反對H0〞,而不用“接受原假設H0〞的表示方式,因為我們無法證明原假設是真的。
5、什么是判斷系數?它在回歸解析中的主要作用是什么?
答:①判斷系數是回歸平方和占總平方和的比率,記為R2,其計算公式為:
R2=SSR/SST。
②在回歸解析中,R2主若是用于測度回歸直線對察看數據的擬合程度。取值范圍為[0,1]。
R2越湊近于1,回歸直線的擬合程度就越好;R2越湊近于0,回歸直線的擬合程度就越差。
假設所有的察看點都落在直線上,R2=1,擬合是完全的;如果R2=0,那么回歸直線對數據
完全沒有擬合。
①__________________________________________統計學___________________________________________
6、解釋95%的置信區(qū)間。
答:如果用某種方法構造的所有區(qū)間中有95%的區(qū)間包含總體參數的真值,5%的區(qū)間不
包含總體參數的真值,那么,用該方法構造的區(qū)間稱為置信水平為95%的置信區(qū)間。
7、說明區(qū)間估計的根本源理?
答:區(qū)間估計是在點估計的基礎上給出總體參數估計的一個估計區(qū)間,該區(qū)間平時是
由樣本統計量加減估計誤差獲得的。與點估計不同,進行區(qū)間估計時,根據樣本統計量
的抽樣散布,可以對統計量與總體參數的湊近程度給出一個概率胸襟。
8、測度兩個分類變量相關性的統計量有哪些?他們有什么不同?
答:測度兩個分類變量相關性的統計量有以下幾個:Φ相關系數、列聯相關系數〔c系
數〕相關系數、v〔1〕Φ相關系數:描述2×2列聯表數據相關程度最常用的一種相
關系數且Φ系數沒有上限。〔2〕列聯相關系數〔c系數〕:主要用于大于2×2列聯表
的情況且c系數小于1.〔3〕v相關系數:取值在0-1之間,當兩個變量相互獨馬上,
v=0;當兩個變量完全相關時,v=1.假設列聯表中有一維為2,v相關系數=Φ相關系數。
9、什么是方差解析?它研究的是什么?
答:〔1〕方差解析:就是經過查驗各總體的均值是否相等來判斷分種類自變量對數值型因變量是否有顯著影響?!?〕本質上來說它所研究的是分種類自變量對數值型因變量的影響。
10、方差解析中有哪些根本假設?
答:方差解析有三個根本假設:〔1〕每個總體都應聽從正態(tài)散布。也就是說,關于因素的每一個水平,其察看值是來自正態(tài)散布總體的簡單隨機樣本。2〔2〕各個總體的方差σ必須相同。也就是說,各組察看數據是從擁有相同方差的正態(tài)總體中抽取的?!?〕察看值是獨立的。也就是說,每個樣本數據是來自因子各水平的獨立樣本。11、相關解析主要解決哪些問題?答:相關解析就是對兩個變量之間線性關系的描述與變量,它要解決的問題包括:1.變量之間是否存在關系?2.如果存在關系,它們之間是什么樣的關系?3.變量之間的關系強度怎樣?4.樣本所反響的變量之間的關系能否代表總體變量之間的關系?為解決這些問題,在進行相關解析時,對總體主要有以下兩個假設:1.兩個變量之間是線性關系。2.兩個變量都是隨機變量。12、在回歸解析中,F查驗和t查驗各有什么作用?答:一元線性回歸中,自變量只有一個,t查驗和F查驗是等價的。被t查驗拒絕,它也被F查驗拒絕。在多元回歸解析中,F查驗只是用來查驗總體回歸關系的顯著性,而t查驗那么是用來查驗各個回歸系數的顯著性。13、解釋回歸模型和估計的回歸方程的含義答(1)回歸模型:描述因變量y怎樣依賴于自變量x和誤差項的方程。只涉及一個自變量的一元線性回歸模型可表示為:y=β0+β1x+ε(2)估計的回歸方程:回歸模型中的參數β0和β1是未知數,必須利用樣本數據去估計他們。用樣本統計量^β0和^β1代替回歸方程中的未知數β0和β1,就獲得了估計的回歸方程。它是根據樣本數據求出的回歸方程的估計。關于一元線性回歸,估計的回歸方程形式是:^y=^β0+^β1x14、解釋多重判斷系數和調整的多重判斷系數的含義和作用?答:多重判斷系數:是多元回歸中的回歸平方和占總平方和的比率,它是胸襟多元回歸方程擬合程度的一個統計量,反響了在因變量y的變差中被估計的回歸方程所解釋的比率。調整的多重判斷系數:用樣本容量n和自變量的個數k去調整R獲得作用:防備增加自變量而高估R22
②__________________________________________統計學___________________________________________
15、解釋多重共線性的含義。
答:當回歸模型中兩個或兩個以上的自變量彼此相關時,稱回歸模型中存在多重共線性。
16、多重共線性的鑒識方法主要有哪些?
答:〔1〕模型中各對自變量之間顯著相關。〔2〕當模型的線性關系查驗〔F查驗〕顯
著時,幾乎所有回歸系數βi的t查驗卻不顯著。〔3〕回歸系數的正負號與預期的相反。
〔4〕容忍度與方差擴大因子〔VIF〕。容忍度越小,多重共線性越嚴重,當小于0.1時,
存在嚴重多重共線性。VIF越大,多重共線性越嚴重,一般認為VIF大于10時,存在嚴
重多重共線性。
17、時間序列由哪幾個要素組成?
答:時間序列由4要素組成,即趨勢〔T〕、季節(jié)性或季節(jié)變動〔S〕、周期性或循
環(huán)轉動〔C〕、隨機性或不規(guī)那么波動〔I〕。①趨勢是時間序列在長時期內體現出來的某
種持續(xù)向上或持續(xù)下降的變動,也稱長久趨勢。②季節(jié)性也稱季節(jié)變動,它是時間序列在
一年內重復出現的周期性波動。③周期性也稱循環(huán)波動,它是時間序列中體現出來的圍繞
長久趨勢的一種波浪形或振蕩變動。④時間序列除掉趨勢、周期性和季節(jié)性之后的偶然性
波動,稱為隨機性,也稱不規(guī)那么波動。
18、解釋時間序列的預測程序。
答:在對時間序列進行預測時,平時包括以下幾步驟:第一步:確準時間序列所包含
的成分,也就是確準時間序列的種類。第二步:找出適合此類時間序列的預測方法。第三
步:對可能的預測方法進行評估,以確定最正確預測方案。第四步:利用最正確預測方案進行
預測。
計算題局部
第四章統計數據的概括性描述
4.1一家汽車零售店的10名銷售人員5月份銷售的汽車數量(單位:臺)排序后如下:
24710101012121415
要求:
1〕計算汽車銷售量的眾數、中位數和平均數。
根據定義公式計算四分位數。
計算銷售量的標準差。
說明汽車銷售量散布的特點。
解:〔1〕眾數:M010。中位數:中位數地址n11015.5,Me101010。222nxi24141596平均數:xi19.6。n1010〔2〕QL地址n102.5,QL475.5。442QU地址3n3107.5,Q121212。44U2
③__________________________________________統計學___________________________________________
nx)2(xi(49.6)2(149.6)2(159.6)2〔3〕si1(29.6)2n1101156.44.29〔4〕由于平均數小于中位數和眾數,所以汽車銷售量為左偏散布。
4.2隨機抽取25個網絡用戶,獲得他們的年齡數據如下:單位:周歲19152925242321382218302019191623272234244120311723要求;
(1)計算眾數、中位數:
(2)根據定義公式計算四分位數。
(3)計算平均數和標準差;
(4)計算偏態(tài)系數和峰態(tài)系數:
〔5〕對網民年齡的散布特點進行綜合解析。
解:〔1〕從表中數據可以看出,年齡出現頻數最多的是19和23,所以有兩個眾數,即M019和M023。將原始數據排序后,計算的中位數的地址為:中位數地址n1251,第13個地址2132上的數值為23,所以中位數Me23?!?〕QL地址n256.25,QL190.25(1919)19。4432518.75,QU250.75〔27-25〕26.5。QU地址4nxi19151723600〔3〕平均數xi124。n2525nx)2(xi(1924)2(1524)2(1724)2(2324)2si1n1251〔4〕偏態(tài)10626.65251
④__________________________________________統計學___________________________________________
25xi2431.08。系數:SK2)6.653(251)(2525(251)(xi24)43(xi24)22(251)峰態(tài)系數:K(251)(252)(253)6.6540.77。5〕解析:從眾數、中位數和平均數來看,網民年齡在23~24歲的人數占多數。由于標準
差較大,說明網民年齡之間有較大差別。從偏態(tài)系數來看,年齡散布為右偏,由于偏態(tài)系數大于1,所以偏斜程度很大。由于峰態(tài)系數為正當,所以為尖峰散布。
4.3某銀行為縮短顧客到銀行辦理業(yè)務等待的時間。準備采用兩種排隊方式進行試驗:一
種是所有頤客都進入一個等待隊列:另—種是顧客在三千業(yè)務窗口處排隊3排等待。
為比較哪一種排隊方式使顧客等待的時間更短.兩種排隊方式各隨機抽取9名顧客。得
到第一種排隊方式的平均等待時間為7.2分鐘,標準差為1.97分鐘。第二種排隊
方式的等待時間(單位:分鐘)如下:
5.56.66.76.87.17.37.47.87.8
要求:
(1)畫出第二種排隊方式等待時間的莖葉圖。
(2)計算第二種排隊時間的平均數和標準差。
(3)比較兩種排隊方式等待時間的離散程度。
(4)如果讓你選擇一種排隊方式,你會選擇哪—種?試說明原因。
解:〔1〕莖葉圖如下:莖葉數據個數551667837134885
〔2〕x5.56.67.87.8637。99(5.57)2(6.67)2(7.87)2(7.87)24.08s910.714。8
〔3〕由于兩種排隊方式的平均數不同,所以用離散系數進行比較。
第一種排隊方式:v11.970.7140.274;v20.102。由于v1v2,說明第一種排7.27隊方式的離散程度大于第二種排隊方式。
4〕選方法二,因為第二種排隊方式的平均等待時間較短,且離散程度小于第一種排隊方式。
⑤__________________________________________統計學___________________________________________
4.4某百貨企業(yè)6月份各天的銷售額數據如下:單位:萬元257276297252238310240236265278271292261281301274267280291258272284268303273263322249269295要求:(1)計算該百貨企業(yè)日銷售額的平均數和中位數。(2)按定義公式計算四分位數。(3)計算日銷售額的標準差。nxi8223解:〔1〕xi1n274.1。30301272273272.5。中位數地址15.5,Me22〔2〕QL地址307.5258261259.5。4,QL233022.5284291287.5。QU地址4,QU2nx)2(xi13002.7〔3〕si121.17。n13014.5甲乙兩個企業(yè)生產三種產品的單位本錢和總本錢資料如下:產品單位本錢總本錢(元)名稱(元)甲企業(yè)乙企業(yè)A1521003255B2030001500C3015001500要求:比較兩個企業(yè)的總平均本錢,哪個高,并解析其原因??偙惧X210030001500660019.41。解:〔1〕甲企業(yè)的平均本錢總產量210030001500340152030總本錢325515001500625518.29.乙企業(yè)的平均本錢總產量325515001500342152030原因:只管兩個企業(yè)的單位本錢相同,但單位本錢較低的產品在乙企業(yè)的產量中所占比重較大,因此拉低了總平均本錢。
⑥__________________________________________統計學___________________________________________
4.6在某地區(qū)抽取120家企業(yè),按收益額進行分組,結果如下:按收益額分組(萬元)企業(yè)數(個)200~30019300~40030400~50042500~60018600以上11合計120要求:(1)計算120家企業(yè)收益額的平均數和標準差。
(2)計算散布的偏態(tài)系數和峰態(tài)系數。
解:〔1〕平均數計算過程見下表:組中值企業(yè)數按收益額分組MifiMifi200~300250194750300~4003503010500400~5004504218900500~600550189900600以上650117150合計—12051200kMifi51200xi1426.67。n120標準差計算過程見下表:按收益額分組組中值Mi企業(yè)數fi(Mix)2(Mix)2fi200~3002501931212.3593033.5300~400350305878.3176348.7400~50045042544.322860.1500~6005501815210.3273785.2600以上6501149876.3548639.2合計—120102721.51614666.7kx)2(Mifi1614666.7si1n1116.48。1201
〔2〕偏態(tài)系數和峰態(tài)系數的計算過程見下表:
⑦__________________________________________統計學___________________________________________
按收益額分組組中值Mi企業(yè)數fi(Mix)3fi(Mix)4fi200~30025019-104771226.518509932589.2300~40035030-13520652.31036628411.8400~50045042533326.912442517.1500~6005501833765928.74164351991.6600以上65011122527587.627364086138.8合計—12038534964.451087441648.4kx)3fi(Mi38534964.4偏態(tài)系數:SKi10.203。ns3120216.483kx)4fi(Mi51087441648.4峰態(tài)系數:Ki1330.688。ns4120216.484
4.7為研究少年兒童的成長發(fā)育狀況,某研究所的一位檢查人員在某城市抽取100名7~
17歲的少年兒童作為樣本,另一位檢查人員那么抽取了1000名7~17歲的少年兒童作為樣本。
請答復下面的問題,并解釋其原因。
(1)兩位檢查人員所獲得的樣本的平均身高是否相同?如果不同,哪組樣本的平均身高較
大?
(2)兩位檢查人員所獲得的樣本的標準差是否相同?如果不同,哪組樣本的標準差較大?
(3)兩位檢查人員獲得這l100名少年兒童身高的最高者或最低者的時機是否相同?如果
不同,哪位檢查研究人員的時機較大?
解:〔1〕兩位檢查人員所獲得的平均身高應該差不多相同,因為均值的大小根本上不受樣本大小的影響。
2〕兩位檢查人員所獲得的身高的標準差應該差不多相同,因為標準差的大小根本上不受樣本大小的影響。
3〕擁有較大樣本的檢查人員有更大的時機取到最高或最低者,因為樣本越大,變化的范圍便可能越大。
4.8一項關于大學生體重狀況的研究發(fā)現.男生的平均體重為60kg,標準差為5kg;女生的平均體重為50kg,標準差為5kg。請答復下面的問題:
(1)是男生的體重差別大仍是女生的體重差別大?為什么?
解:女生,因為標準差同樣,而均值男生大,所以,離散系數是男生的小,離散程度是男生的小。
(2)以磅為單位(1ks=2.2lb),求體重的平均數和標準差。
解:都是各乘以2.21,男生的平均體重為60kg×2.21=132.6磅,標準差為5kg×
2.21=11.05磅;女生的平均體重為50kg×2.21=110.5磅,標準差為5kg×2.21=11.05磅。
(3)大概地估計一下,男生中有百分之幾的人體重在55kg一65kg之間?
⑧__________________________________________統計學___________________________________________
解:計算標準分數:
xx5560xx6560Z1===-1;Z2===1,根據經驗規(guī)那么,男生大體有68%s5s5的人體重在55kg一65kg之間。
(4)大概地估計一下,女生中有百分之幾的人體重在40kg~60kg之間?
解:計算標準分數:
xx4050xx6050Z1===-2;Z2===2,根據經驗規(guī)那么,女生大體有95%s5s5的人體重在40kg一60kg之間。
4.9一家企業(yè)在招收職員時,首先要經過兩項能力測試。在A項測試中,其平均分數是
100分,標準差是15分;在B項測試中,其平均分數是400分,標準差是50分。一
位應試者在A項測試中得了115分,在B項測試中得了425分。與平均分數相比,該
應試者哪一項測試更為理想?
解:應用標準分數來考慮問題,該應試者標準分數高的測試理想。
xx115100xx425400ZA===1;ZB===0.5s15s50因此,A項測試結果理想。
4.10一條產品生產線平均每天的產量為3700件,標準差為50件。如果某一天的產量低于或高于平均產量,并落人士2個標準差的范圍之外,就認為該生產線“失去控制〞。下面是一周各天的產量,該生產線哪幾天失去了控制?時間周一周二周三周四周五周六周日產量(件)3850367036903720361035903700解:經過標準分數來判斷,各天的標準分數如下表:日期周一周二周三周四周五周六周日標準分數Z3-0.6-0.20.4-1.8-2.20周一和周六兩天失去了控制。
4.11對10名成年人和10名幼兒的身高進行抽樣檢查,結果如下:
成年組166169l72177180170172174168173幼兒組686968707l7372737475要求:解:〔1〕如果比較成年組和幼兒組的身高差別,你會采用什么樣的統計量?為什么?
答:應該采用離散系數,因為它除掉了不同組數據水平上下的影響。
〔2〕比較解析哪一組的身高差別大?
答:成年組身高的離散系數:vs4.20.024;172.12.50.035;幼兒組身高的離散系數:vs71.3由于幼兒組身高的離散系數大于成年組身高的離散系數,說明幼兒組身高的離散程度相對較大。
4.12一種產品需要人工組裝,現有三種可供選擇的組裝方法。為查驗哪一種方法更好,隨
⑨__________________________________________統計學___________________________________________
機抽取15個工人,讓他們分別用三種方法組裝。下面是15個工人分別用三種方法在相同的時間內組裝的產品數量:單位:個方法A方法B方法C164129125167130126168129126165130127170131126165]30128164129127168127126164128127162128127163127125166128126167128116166125126165132125
要求:
(1)你準備采用什么方法來評論組裝方法的優(yōu)劣?
(2)如果讓你選擇一種方法,你會作出怎樣的選擇?試說明原因。
解:〔1〕應該從平均數和標準差兩個方面進行評論。在對各種方法的離散程度進行比較時,應該采用離散系數。
〔2〕下表給出了用Excel計算一些主要描述統計量。方法A方法B方法C平均165.6平均128.73平均125.53中位數165中位數129中位數126眾數164眾數128眾數126標準差2.13標準差1.75標準差2.77極差8極差7極差12最小值162最小值125最小值116最大值170最大值132最大值128從三種方法的集中趨勢來看,方法A的平均產量最高,中位數和眾數也都高于其他兩種方法。從離散程度來看,三種方法的離散系數分別為:vA2.130.013,165.61.752.770.014,vC0.022。方法A的離散程度最小。因此應選擇方法vB125.53128.73A。
4.13在金融證券領域,一項投資的預期收益率的變化平時用該項投資的風險來權衡。預
⑩__________________________________________統計學___________________________________________
期收益率的變化越小,投資風險越低;預期收益率的變化越大,投資風險就越高。下
面的兩個直方圖,分別反響了200種商業(yè)類股票和200種高科技類股票的收益率散布。
在股票市場上,高收益率往往陪同著高風險。但投資于哪一種股票,往往與投資者的類
型有一定關系。
(1)你認為該用什么樣的統計量來反響投資的風險?
用方差或標準差來評論投資的風險。
(2)如果選擇風險小的股票進行投資,應入選擇商業(yè)類股票仍是高科技類股票?
選擇離散系數小的股票,那么選擇商業(yè)股票。
(3)如果進行股票投資,你會選擇商業(yè)類股票仍是高科技類股票?
考慮高收益,那么選擇高科技股票;考慮風險,那么選擇商業(yè)股票。
第十章方差解析10.3一家牛奶企業(yè)有4臺機器裝填牛奶,每桶的容量為4L。下面是從4臺機器中抽取的樣本數據:機器l機器2機器3機器44.053.993.974.004.014.023.984.024.024.013.973.994.043.993.954.0l4.004.004.00取顯著性水平a=0.01,查驗4臺機器的裝填量是否相同?
解:
ANOVA
每桶容量〔L〕
平方和df均方F顯著性組間0.00730.0028.7210.001組內0.004150.000總數0.01118不相同。
10.7某企業(yè)準備用三種方法組裝一種新的產品,為確定哪一種方法每小時生產的產品數量
11__________________________________________統計學___________________________________________
最多,隨機抽取了30名工人,并指定每個人使用其中的一種方法。經過對每個工人生產的產品數進行方差解析獲得下面的結果;
方差解析表差別源SSdfMSFP-valueFcrit組間42022101.478102190.2459463.354131組內383627142.0740741———總計425629————要求:
完成上面的方差解析表。
(2)假設顯著性水平a=0.05,查驗三種方法組裝的產品數量之間是否有顯著差別?
解:〔2〕P=0.025>a=0.05,沒有顯著差別。
10.9有5種不同品種的種子和4種不同的施肥方案,在20塊同樣面積的土地上,分別采用5各種子和4種施肥方案搭配進行試驗,取得的收獲量數據如下表:品種施肥方案1234112.09.510.49.7213.711.512.49.6314.312.311.411.1414.214.012.512.0513.014.013.111.4查驗種子的不同品種對收獲量的影響是否有顯著差別?不同的施肥方案對收獲量的影響是否有顯著差別(a=0.05)?
解:這線圖:
均施肥方法值15.00收獲量
14.00
施肥方法1
施肥方法2
施肥方法3
施肥方法4
13.00
12.00
11.00
10.00
9.00
品種1品種2品種3品種4品種5
品種
__
似乎交互作用不顯然:
〔1〕考慮無交互作用下的方差解析:
12__________________________________________統計學___________________________________________
主體間效應的查驗
因變量:收獲量源III型平方和df均方FSig.校正模型37.249(a)75.3218.0820.001截距2,930.62112,930.6214,451.0120.000Fertilization_Methods18.18236.0619.2050.002Variety19.06744.7677.2400.003誤差7.901120.658總計2,975.77020校正的總計45.15019a.R方=.825〔調整R方=.723〕
結果說明施肥方法和品種都對收獲量有顯著影響。
〔2〕考慮有交互作用下的方差解析:
主體間效應的查驗
因變量:收獲量源III型平方和df均方FSig.校正模型45.150(a)192.376..截距2,930.62112,930.621..Fertilization_Methods18.18236.061..Variety19.06744.767..Fertilization_Methods*Variety7.901120.658..誤差0.0000.總計2,975.77020校正的總計45.15019a.R方=1.000〔調整R方=.〕
由于察看數太少,得不到結果!
10.11一家超市連鎖店進行一項研究,確定超市所在的地址和競爭者的數
量對銷售額是否有顯著影響。下面是獲得的月銷售額數據(單位:萬元)。超市地址競爭者數量0123個以h位于市內4138594730314840居民小區(qū)45395139位于寫字2529444331354842樓2230505318722924位于郊區(qū)2917282733252632取顯著性水平a=0.01,查驗:(1)競爭者的數量對銷售額是否有顯著影響?(2)超市的地址對銷售額是否有顯著影響?
13__________________________________________統計學___________________________________________
(3)競爭者的數量和超市的地址對銷售額是否有交互影響?
解:畫折線圖:
均55.00超市地址值位于市內居民小區(qū)月位于寫字樓銷位于郊區(qū)售額50.00〔萬元〕45.0040.0035.0030.0025.000個競爭者1個競爭者2個競爭者3個以上競爭者競爭者數量交互作用不十清楚顯?!?〕進行無交互方差解析:主體間效應的查驗因變量:月銷售額〔萬元〕源III型平方和df均方FSig.校正模型2814.556(a)5562.91115.2050.000截距44,802.778144,802.7781,210.1590.000Location_SuperMaket1,736.2222868.11123.4480.000Amount_competitors1,078.3333359.4449.7090.000誤差1,110.6673037.022總計48,728.00036校正的總計3,925.22235a.R方=.717〔調整R方=.670〕看到超市地址有顯著影響,而競爭者數量沒有顯著影響,且影響強度僅為0.327,因此考慮是否存在交互作用。2〕有交互方差解析:
看到超市地址有顯著影響,而競爭者數量和交互作用均無顯著影響。
主體間效應的查驗因變量:月銷售額〔萬元〕源III型平方和df均方FSig.校正模型3317.889(a)11301.62611.9190.000截距44,802.778144,802.7781,770.4720.000Location_SuperMaket1,736.2222868.11134.3050.000Amount_competitors1,078.3333359.44414.2040.000Location_SuperMaket*683.8893.3150.016Amount_competitors503.333
14__________________________________________統計學___________________________________________
誤差607.3332425.306總計48,728.00036校正的總計3,925.22235a.R方=.845〔調整R方=.774〕
第十一章一元線性回歸
11.5一家物流企業(yè)的管理人員想研究貨物的運輸距離和運輸時間的關系,為此,他抽出了
企業(yè)最近10個卡車運貨記錄的隨機樣本,獲得運送距離(單位:km)和運送時間(單位:天)
的數據如下:
運送距離x825215107055048092021503256701215
運送時間y3.51.04.02.01.03.04.51.53.05.0
要求:
繪制運送距離和運送時間的散點圖,判斷二者之間的關系形態(tài):
計算線性相關系數,說明兩個變量之間的關系強度。
利用最小二乘法求出估計的回歸方程,并解釋回歸系數的實際意義。
解:〔1〕
y運
送
時間〔天〕
x運送距離〔km〕__可能存在線性關系。
2〕
相關性
x運送距離〔km〕y運送時間〔天〕x運送距離〔km〕Pearson相關性1.949( )顯著性〔雙側〕0.000N1010y運送時間〔天〕Pearson相關性.949( )1顯著性〔雙側〕0.000N1010.在.01水平〔雙側〕上顯著相關。
有很強的線性關系。
3〕
系數(a)
15__________________________________________統計學___________________________________________
非標準化系數標準化系數模型B標準誤Betat顯著性1〔常量〕0.1180.3550.3330.748x運送距離〔km〕0.0040.0000.9498.5090.000因變量:y運送時間〔天〕
回歸系數的含義:每公里增加0.004天。
11.6下面是7個地區(qū)2000年的人均國內生產總值〔GDP〕和人均消費水平的統計數據:地區(qū)人均GDP(元)人均消費水平(元)北京224607326遼寧112264490上海3454711546江西48512396河南54442208貴州26621608陜西45492035要求:
人均GDP作自變量,人均消費水平作因變量,繪制散點圖,并說明二者之間的關系
形態(tài)。
計算兩個變量之間的線性相關系數,說明兩個變量之間的關系強度。
利用最小二乘法求出估計的回歸方程,并解釋回歸系數的實際意義。
計算判斷系數,并解釋其意義。
查驗回歸方程線性關系的顯著性(a=0.05)。
如果某地區(qū)的人均GDP為5000元,預測其人均消費水平。
(7)求人均GDP為5000元時,人均消費水平95%的置信區(qū)間和預測區(qū)間。
解:〔1〕
人均12000消費水
〔元〕
8000
6000
4000
2000
0
010000200003000040000
人均GDP〔元〕__
可能存在線性關系。
〔2〕相關系數:
相關性
16__________________________________________統計學___________________________________________
人均GDP〔元〕人均消費水平〔元〕人均GDP〔元〕Pearson相關性1.998( )顯著性〔雙側〕0.000N77人均消費水平〔元〕Pearson相關性.998( )1顯著性〔雙側〕0.000N77.在.01水平〔雙側〕上顯著相關。
有很強的線性關系。
〔3〕回歸方程:
系數(a)
非標準化系數標準化系數模型B標準誤Betat顯著性1〔常量〕734.693139.5405.2650.003人均GDP〔元〕0.3090.0080.99836.4920.000a.因變量:人均消費水平〔元〕回歸系數的含義:人均GDP沒增加1元,人均消費增加0.309元?!?〕模型大綱模型RR方調整的R方估計的標準差1.998(a)0.9960.996247.303a.預測變量:(常量),人均GDP〔元〕。人均GDP對人均消費的影響到達99.6%?!?〕F查驗:ANOVA(b)模型平方和df均方F顯1回歸81,444,968.680181,444,968.6801,331.692殘差305,795.034561,159.007合計81,750,763.7146a.預測變量:(常量),人均GDP〔元〕。b.因變量:人均消費水平〔元〕回歸系數的查驗:t查驗系數(a)非標準化系數標準化系數模型B標準誤Betat顯著性1〔常量〕734.693139.5405.2650.003人均GDP〔元〕0.3090.0080.99836.4920.000a.因變量:人均消費水平〔元〕〔6〕某地區(qū)的人均GDP為5000元,預測其人均消費水平為2278.10657元。〔7〕
17__________________________________________統計學___________________________________________
人均GDP為5000元時,人均消費水平95%的置信區(qū)間為[1990.74915,2565.46399],預測區(qū)間為[1580.46315,2975.74999]。
11.9某汽車生產商欲認識廣告費用(x)對銷售量(y)的影響,收集了過去12年的相關數據。
經過計算獲得下面的相關結果:
方差解析表
變差本源dfSSMSFSignificanceF
回歸11602708.61602708.6399.10000652.17E—09
殘差1040158.074015.807——
總計111642866.67———
參數估計表Coefficients標準誤差tStatP—valueIntercept363.689162.455295.8231910.000168XVariable11.4202110.07109119.977492.17E—09要求:
完成上面的方差解析表。
汽車銷售量的變差中有多少是由于廣告費用的變動引起的?
銷售量與廣告費用之間的相關系數是多少?
寫出估計的回歸方程并解釋回歸系數的實際意義。
(5)查驗線性關系的顯著性(a=0.05)。2,汽車銷售量的變差中有97.56%是由于廣告費用的變動引起的。解:〔2〕R=0.97563〕r=0.9877。
〔4〕回歸系數的意義:廣告費用每增加一個單位,汽車銷量就增加1.42個單位。
5〕回歸系數的查驗:p=2.17E—09<α,回歸系數不等于0,顯著?;貧w直線的查驗:p=2.17E—09<α,回歸直線顯著。
11.11從20的樣本中獲得的相關回歸結果是:SSR=60,SSE=40。要查驗x與y之間的線
性關系是否顯著,即查驗假設:H0:10。
(1)線性關系查驗的統計量F值是多少?
給定顯著性水平a=0.05,Fa是多少?
是拒絕原假設仍是不拒絕原假設?
(4)假設x與y之間是負相關,計算相關系數r。(5)查驗x與y之間的線性關系是否顯著?
解:〔1〕SSR的自由度為k=1;SSE的自由度為n-k-1=18;
18__________________________________________統計學___________________________________________
SSR60因此:F=k=1=27SSE40nk1182〕F1,18=F0.051,18=4.41
3〕拒絕原假設,線性關系顯著。
〔4〕r=SSR=0.6=0.7746,由于是負相關,因此r=-0.7746SSRSSE〔5〕從F查驗看線性關系顯著。
11.15隨機抽取7家超市,獲得其廣告費支出和銷售額數據如下:超市廣告費支出(萬元)銷售額(萬元)Al19B232C444D640E1052F1453G2054要求:
用廣告費支出作自變量x,銷售額作因變量y,求出估計的回歸方程。
查驗廣告費支出與銷售額之間的線性關系是否顯著(a=0.05)。
(3)繪制關于x的殘差圖,你感覺關于誤差項的假設被知足了嗎?(4)你是采用這個模型,仍是另尋找一個更好的模型?解:〔1〕系數(a)非標準化系數標準化系數模型B標準誤Betat顯著性1〔常量〕29.3994.8076.1160.002廣告費支出〔萬元〕1.5470.4630.8313.3390.021a.因變量:銷售額〔萬元〕
〔2〕回歸直線的F查驗:ANOVA(b)模型平方和df均方F顯著性1回歸691.7231691.72311.147.021(a)殘差310.277562.055合計1,002.0006a.預測變量:(常量),廣告費支出〔萬元〕。
b.因變量:銷售額〔萬元〕
顯著。
19__________________________________________統計學___________________________________________
回歸系數的t查驗:
系數(a)
非標準化系數標準化系數模型B標準誤Betat顯著性1〔常量〕29.3994.8076.1160.002廣告費支出〔萬元〕1.5470.4630.8313.3390.021a.因變量:銷售額〔萬元〕
顯著。
〔3〕未標準化殘差圖:
10.00000
5.00000laudiseRdezidradnatsnU
0.00000
-5.00000
-10.00000
-15.00000
05101520
廣告費支出〔萬元〕__
標準化殘差圖:
lau
diseRdezidr
ad
natS
1.00000
0.00000
-1.00000
-2.00000
05101520
廣告費支出〔萬元〕
學生氏標準化殘差圖:
20__________________________________________統計學___________________________________________
la
duiesRdzetindetuS
2.00000
1.00000
0.00000
-1.00000
-2.00000
05101520
廣告費支出〔萬元〕
看到殘差不全相等。
4〕應考慮其他模型??煽紤]對數曲線模型:y=b0+b1ln(x)=22.471+11.576ln(x)。
第十二章多元線性回歸
12.2根據下面Excel輸出的回歸結果,說明模型中涉及多少個自變量、少個察看值?寫出回歸方程,并根據F,se,R2及調整的Ra2的值對模型進行議論。
SUMMARYOUTPUT
回歸統計MultipleR0.842407RSquare0.709650AdjustedRSquare0.630463標準誤差109.429596察看值15方差解析dfSSMSFSignificanceF回歸3321946.8018107315.60068.9617590.002724殘差11131723.198211974.84總計14453670Coefficients標準誤差tStatP-valueIntercept657.0534167.4595393.9236550.002378XVariable15.7103111.7918363.1868490.008655XVariable2-0.4169170.322193-1.2939980.222174XVariable3-3.4714811.442935-2.4058470.034870
解:自變量3個,察看值15個。
回歸方程:?-0.416917X2-3.471481X3y=657.0534+5.710311X1
擬合優(yōu)度:判斷系數R2=0.70965,調整的Ra2=0.630463,說明三個自變量對因變量的影
21__________________________________________統計學___________________________________________
響的比率占到63%。
估計的標準誤差Syx=109.429596,說明隨即變動程度為109.429596
回歸方程的查驗:F查驗的P=0.002724,在顯著性為5%的情況下,整個回歸方程線性關系顯著?;貧w系數的查驗:1的t查驗的P=0.008655,在顯著性為5%的情況下,y與X1線性關系顯著。2的t查驗的P=0.222174,在顯著性為5%的情況下,y與X2線性關系不顯著。3的t查驗的P=0.034870,在顯著性為5%的情況下,y與X3線性關系顯著。因此,可以考慮采用逐步回回去除X2,從頭成立線性回歸模型。12.3根據兩個自變量獲得的多元回歸方程為?2.01x14.74x2,并且n=10,y18.4SST=6724.125,SSR=6216.375,s?0.0813,s?=0.0567。要求:12(1)在a=0.05的顯著性水平下,x1,x2與y的線性關系是否顯著?(2)在a=0.05的顯著性水平下,1是否顯著?(3)在a=0.05的顯著性水平下,2是否顯著?解〔1〕回歸方程的顯著性查驗:假設:H0:1=2=0H1:1,2不全等于0SSE=SST-SSR=6724.125-6216.375=507.75SSRp6724.1252=42.85F==21SSEnp1507.7510
2,7=4.74,F>F2,7,認為線性關系顯著?!?〕回歸系數的顯著性查驗:
假設:H0:1=0H1:1≠0t=1=2.01=24.72S10.0813t2np1=2.36,t>t27,認為y與x1線性關系顯著。〔3〕回歸系數的顯著性查驗:
22__________________________________________統計學___________________________________________
假設:H0:2=0H1:2≠0t=2=4.74=83.6S20.0567t2np1=2.36,t>t27,認為y與x2線性關系顯著。
12.4一家電器銷售企業(yè)的管理人員認為,每個月的銷售額是廣告費用的函數,并想經過
廣告費用對月銷售額作出估計。下面是近8個月的銷售額與廣告費用數據:
月銷售收入y(萬元)電視廣告費用工:x1(萬元)報紙廣告費用x2(萬元)965.01.5902.02.0954.01.5922.52.5953.03.3943.52.3942.54.2943.02.5要求:
用電視廣告費用作自變量,月銷售額作因變量,成立估計的回歸方程。
用電視廣告費用和報紙廣告費用作自變量,月銷售額作因變量,成立估計的回歸方
程。
上述(1)和(2)所成立的估計方程,電視廣告費用的系數是否相同?對其回歸系數分別進行解釋。
根據問題(2)所成立的估計方程,在銷售收入的總變差中,被估計的回歸方程所解釋的比率是多少?
(5)根據問題(2)所成立的估計方程,查驗回歸系數是否顯著(a=0.05)。
解:〔1〕回歸方程為:y?88.64+1.6x
2〕回歸方程為:y?83.232.29x11.3x2
〔3〕不相同,〔1〕中說明電視廣告費用增加1萬元,月銷售額增加1.6萬元;〔2〕中說明,在報紙廣告費用不變的情況下,電視廣告費用增加1萬元,月銷售額增加2.29萬元。22〔4〕判斷系數R=0.919,調整的Ra=0.8866,比率為88.66%。〔5〕回歸系數的顯著性查驗:Coefficients標準誤差tStatP-valueLower95%Upper95%下限95.0%上限95.0%Intercept83.230091.57386952.882484.57E-0879.1843387.2758579.1843387.27585電視廣告費用工:x1(萬元)2.2901840.3040657.5318990.0006531.5085613.0718061.5085613.071806報紙廣告費用x2(萬元)1.3009890.3207024.0566970.0097610.4765992.1253790.4765992.125379
23__
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 父子之間不動產房產贈與合同書
- 公司辦公室裝飾裝修施工合同
- 團體購房合同范文
- 商品混凝土供貨合同協議
- 民間親人之間住宅贈與合同
- 企業(yè)汽車租賃合同范本(2024版)
- 羽毛球館全包裝修合同樣本
- 跨國食品加工居間合同
- 環(huán)保建材生產與銷售合同
- 飲水機租賃合同
- 【牛客網】2024秋季校園招聘白皮書
- 圖像識別領域自適應技術-洞察分析
- 個體戶店鋪租賃合同
- 禮盒業(yè)務銷售方案
- 術后肺炎預防和控制專家共識解讀課件
- 二十屆三中全會精神學習試題及答案(100題)
- 中石化高級職稱英語考試
- 小學五年級英語閱讀理解(帶答案)
- 2024二十屆三中全會知識競賽題庫及答案
- 仁愛版初中英語單詞(按字母順序排版)
- 2024年全國統一考試高考新課標Ⅱ卷語文+數學+英語試題(真題+答案)
評論
0/150
提交評論