




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1中國人民大學接受同等學歷人員申請碩士學位考試試題招生專業(yè):統(tǒng)計學考試科目:統(tǒng)計思想綜述課程代碼:123201考題卷號:1(20分)隨機抽取20塊手機電池,測得其使用壽命數(shù)據(jù)如下(單位:小時):10089939981007101110021013999100899598399510009771015101099810051011996列出描述上述數(shù)據(jù)所適用的統(tǒng)計圖形,并說明這些圖形的用途。直方圖:直觀的展示一組數(shù)據(jù)(電池使用壽命)的分布情況。箱線圖:直觀反映原始數(shù)據(jù)(電池壽命)的數(shù)據(jù)分布的特征,如偏態(tài),是否有離群點。(20分)方差分析中有哪些基本假定?這些假定中對哪個假定的要求比較嚴格?1、方差分析有3個基本假定:(1)正態(tài)性:每個總體都應服從正態(tài)分布,即對于因子的每一個水平,其觀測值是來自正態(tài)分布總體的簡單隨機樣本;(2)方差齊性:各個總體的方差必須相同;(3)獨立性:每個樣本數(shù)據(jù)是來自因子各水平的獨立樣本2、對獨立性要求比較嚴格,獨立性得不到滿足會對方差分析結(jié)果有較大影響,對正態(tài)性和方差齊性的要求相對比較寬松。(20分)某種食品每袋的標準重量是100克,從該批食品中抽取一個隨機樣本,檢驗假設(shè),。如果拒絕,你的結(jié)論是什么?,如果不拒絕,你的結(jié)論是什么?能否得到一個樣本能夠證明該食品的平均重量是100克?請說明理由。如果由該樣本得到的檢驗的,你的結(jié)論是什么?0.03這個值是犯第Ⅰ類錯誤的概率,是實際算出來的顯著性水平,你怎樣解釋這個值?(1)拒絕:該種食品每袋的平均重量不是100g不拒絕:提供的樣本不能證明該種食品每袋的平均重量不是100g(2)不能,樣本得出的結(jié)論只能是拒絕或不拒絕原假設(shè),并不能直接確定原假設(shè)為真(3)結(jié)論:若給定顯著性水平為0.05,則可以拒絕原假設(shè),認為該食品每袋的平均重量不是100克;但若給定顯著性水平為0.01,則不能拒絕原假設(shè)P值:如果該種食品每袋的平均重量是100g,樣本結(jié)果會像實際觀測那樣極端或更極端的概率僅為0.03(20分)在建立多元線性回歸模型時,通常需要對自變量進行篩選。請談談你對變量篩選的必要性的看法。列出變量篩選的方法,請簡要說明這些方法的特點。(1)若將所有的自變量都引入回歸模型,往往會導致所建立的模型不能進行有效的解釋,也可能會導致多重共線性,增加自變量還會導致判定系數(shù)增大,從而高估模型擬合優(yōu)度。(2)變量篩選有向前選擇、向后剔除、逐步回歸等方法。特點如下:向前選擇:從沒有自變量開始,不停向模型中增加自變量,直到增加不能導致SSE顯著增加為止。向后剔除:從所有自變量開始,不停從模型中剔除自變量,直到剔除不能導致SSE顯著減小為止。逐步回歸:結(jié)合向前選擇和向后剔除,從沒有自變量開始,不停向模型中增加自變量,每增加一個自變量就對所有現(xiàn)有的自變量進行考察,若某個自變量對模型的貢獻變得不顯著就剔除。如此反復,直到增加變量不能導致SSE顯著減少為止。(20分)如果一個時間序列包含趨勢、季節(jié)成分、隨機波動,適用的預測方法有哪些?對這些方法做檢驗說明。可以使用Winter指數(shù)平滑模型、引入季節(jié)啞變量的多元回歸和分解法等進行預測。(1)Winter指數(shù)平滑模型包含三個平滑參數(shù),即α、β、γ(取值均在0~1),以及平滑值St、趨勢項更新TL為季節(jié)周期的長度,對于季度數(shù)據(jù),L=4,對于月份數(shù)據(jù),L=12;I為季節(jié)調(diào)節(jié)因子。平滑值消除季節(jié)變動,趨勢項更新是對趨勢值得修正,季節(jié)項更新是t期的季節(jié)調(diào)整因子,F(xiàn)t+k使用Winter模型進行預測,要求數(shù)據(jù)至少是按季度或月份收集的,而且需要有四個以上的季節(jié)周期(4年以上的數(shù)據(jù))。使用Winter模型進行預測,要求數(shù)據(jù)至少是按季度或月份收集的,而且需要有四個以上的季節(jié)周期(4年以上的數(shù)據(jù))。(2)引入季節(jié)啞變量的多元回歸對于以季度記錄的數(shù)據(jù),引入3個啞變量
Q2、QY其中b0是常數(shù)項,b1是趨勢成分的系數(shù),表示趨勢給時間序列帶來的影響,b2、b3、b4表示每一季度與參照的第1季度的平均差值。(3)分解預測第1步,確定并分離季節(jié)成分。計算季節(jié)指數(shù),然后將季節(jié)成分從時間序列中分離出去,即用每一個時間序列觀測值除以相應的季節(jié)指數(shù)以消除季節(jié)性。第2步,建立預測模型并進行預測。對消除了季節(jié)成分的時間序列建立適當?shù)念A測模型,并根據(jù)這一模型進行預測。第3步,計算出最后的預測值。用預測值乘以相應的季節(jié)指數(shù),得到最終的預測值。2中國人民大學接受同等學歷人員申請碩士學位考試試題招生專業(yè):統(tǒng)計學考試科目:統(tǒng)計思想綜述課程代碼:123201考題卷號:2(20分)在某小學隨機抽取35名小學生,調(diào)查他們每周購買零食的花費情況,得到的數(shù)據(jù)如下(單位:元):24172629386284439830172632401020274333154283526472517264516362937
5列出描述上述數(shù)據(jù)所適用的統(tǒng)計量,并說明這些統(tǒng)計量的用途。平均數(shù):用于度量對象的一般水平。中位數(shù)(分位數(shù)):用中間(某個)位置上的值代表數(shù)據(jù)水平,也用于度量對象的一般情況,且不受極值的影響具有穩(wěn)定性。方差(標準差):用于描述一組數(shù)據(jù)的差異水平,越大說明數(shù)據(jù)的分布越分散不穩(wěn)定。偏態(tài)系數(shù):用于描述數(shù)據(jù)分布的不對稱性,越接近0越對稱。峰度系數(shù):用于描述數(shù)據(jù)分布峰值高低,大于0為尖峰,小于0為扁平分布。(20分)簡要說明分布和分布在推斷統(tǒng)計中應用。t分布:當正態(tài)總體標準差未知時,在小樣本的條件下對總體均值的估計和檢驗要用到t分布。描述樣本均值分布,用于對兩個樣本均值差異進行顯著性測試、估算置信區(qū)間等。F分布:通常用于比較不同總體的方差是否有顯著差異。應用于方差分析、協(xié)方差分析和回歸分析等,還可用于似然比檢驗。(20分)什么是值?要證明原假設(shè)不正確,如何確定合理的值?P值:犯第I類錯誤的真實概率,也稱觀察到的顯著性水平。是當原假設(shè)為真時,得到的樣本結(jié)果會像實際觀測結(jié)果這樣極端或者更極端的概率。若要證明原假設(shè)不正確,則由樣本得到的P值應小于給定的顯著性水平。(20分)某企業(yè)準備用三種方法組裝一種新的產(chǎn)品,為確定哪種方法每小時生產(chǎn)的產(chǎn)品數(shù)量最多,隨機抽取了30名工人,并指定每個人使用其中的一種方法。通過對每個工人生產(chǎn)的產(chǎn)品數(shù)進行方差分析得到下面的結(jié)果:方差分析表差異源SSdfMSFP-value組間2100.245946組內(nèi)3836——總計2
———完成上面的方差分析表。組裝方法與組裝產(chǎn)品數(shù)量之間的關(guān)系強度如何?若顯著性水平,檢驗三種方法組裝的產(chǎn)品數(shù)量之間是否有顯著差異?(1)差異源SSdfMSFP-value組間2*210=420I-1=22102100.245946組內(nèi)383630-3=27383627——總計420+3836=425629———(2)從P值來看,組裝方法與組裝產(chǎn)品數(shù)量之間的關(guān)系強度較弱。(3)原假設(shè):三種方法每小時組裝的產(chǎn)品數(shù)量沒有差異若顯著性水平為0.05,則P>0.05,因此不能拒絕原假設(shè),即不能證明三種方法組裝的產(chǎn)品數(shù)量之間有顯著差異。(20分)簡要說明分解預測的基本步驟。第1步,確定并分離季節(jié)成分。計算季節(jié)指數(shù),然后將季節(jié)成分從時間序列中分離出去,即用每一個時間序列觀測值除以相應的季節(jié)指數(shù)以消除季節(jié)性。第2步,建立預測模型并進行預測。對消除了季節(jié)成分的時間序列建立適當?shù)念A測模型,并根據(jù)這一模型進行預測。第3步,計算出最后的預測值。用預測值乘以相應的季節(jié)指數(shù),得到最終的預測值。3中國人民大學接受同等學歷人員申請碩士學位考試試題招生專業(yè):統(tǒng)計學考試科目:統(tǒng)計思想綜述課程代碼:123201考題卷號:3(20分)在2008年8月10日舉行的第29屆北京奧運會女子10米氣手槍決賽中,進入決賽的8名運動員的預賽成績和最后10槍的決賽成績?nèi)缦卤恚阂獙Ω髅\動員進行綜合評價,使用的統(tǒng)計量有哪些?簡要說明這些統(tǒng)計量的用途。(1)集中趨勢:指一組數(shù)據(jù)向某一中心值靠攏的程度,它可以反映選手射擊成績中心點的位置平均數(shù):一組數(shù)據(jù)相加后除以數(shù)據(jù)的個數(shù)得到的結(jié)果。若各組數(shù)據(jù)在組內(nèi)是平均分布的,則計算的結(jié)果還是比較準確的,否則誤差會比較大。(如中國選手發(fā)揮很穩(wěn)定,適合使用平均數(shù)判斷其成績)中位數(shù):一組數(shù)據(jù)排序后處于中間位置上的變量值,但不受極端值的影響。(如波蘭選手大多數(shù)成績比較平均,但有一槍打到8.1,會嚴重影響其平均值,但不會影響中位數(shù))(2)離散程度:各變量值遠離其中心值的程度,它可以反映選手發(fā)揮的穩(wěn)定性標準差:方差的平方根,能夠很好的反映出數(shù)據(jù)的離散程度,若選手的平均成績差異不大,可以通過直接比較標準差的方式進行衡量離散系數(shù):一組數(shù)據(jù)的標準差與其相應的平均數(shù)之比,離散系數(shù)越大則數(shù)據(jù)的離散程度也大,若選手的平均成績差異很大,則需要計算離散系數(shù)比較穩(wěn)定性極差:一組數(shù)據(jù)的最大值與最小值之差,它容易受極端值的影響,不能反映中間數(shù)據(jù)的分散情況,但可從另一方面選手是否存在發(fā)揮異常(3)分布形狀峰態(tài):峰態(tài)是對數(shù)據(jù)分布平峰或尖峰程度的測度,當K>0時為尖峰分布,數(shù)據(jù)的分布更集中;當K<0時為扁平分布,數(shù)據(jù)的分布越分散。通過對選手的峰態(tài)分布情況分析,可看出成績分布是否平均。偏態(tài):偏態(tài)是對數(shù)據(jù)分布對稱性的測量,若偏態(tài)系數(shù)明顯不等于0,表明分布是非對稱的,偏態(tài)系數(shù)的數(shù)值越大,表示偏斜的程度越大。通過對選手的偏態(tài)分布情況情況分析,可看出選手成績分布是否對稱,是否受比賽時長影響。(20分)為什么說假設(shè)檢驗不能證明原假設(shè)正確?(1)假設(shè)檢驗的目的主要是收集證據(jù)拒絕原假設(shè),而支持你所傾向的備擇假設(shè)。因為假設(shè)檢驗只提供不利于原假設(shè)的證據(jù)(證據(jù)的強弱取決于P值的大小)。因此,當拒絕原假設(shè)時,表明樣本提供的證據(jù)證明它是錯誤的;當沒有拒絕原假設(shè)時,我們也沒法證明它是正確的,因為假設(shè)檢驗的程序沒有提供它正確的證據(jù)。(2)假設(shè)檢驗得出的結(jié)論都是根據(jù)原假設(shè)進行闡述的。我們要么拒絕原假設(shè),要么不拒絕原假設(shè)。當不能拒絕原假設(shè)時,我們也不能說“接受原假設(shè)”,因為沒有足夠的證據(jù)拒絕原假設(shè)并不等于你已經(jīng)證明了原假設(shè)時真的,它僅僅意味著目前我們還沒有足夠的證據(jù)證明原假設(shè),只表示目前的樣本提供的證據(jù)還不足以拒絕原假設(shè)。(3)假設(shè)檢驗通常是先確定顯著性水平α,這等于控制了第Ⅰ類錯誤的概率;但犯第Ⅱ類錯誤的概率β卻是不確定的。在拒絕H0時,犯第Ⅰ類錯誤的概率不超過給定的顯著性水平α;當樣本結(jié)果顯示沒有充分理由拒絕原假設(shè)時,也難以確定第Ⅱ類錯誤發(fā)生的概率。因此,在假設(shè)檢驗中采用“不拒絕H0”而不采用“接受H0”的表述方法,這樣在多數(shù)場合下便避免了第Ⅱ類錯誤發(fā)生的風險。(20分)為估計公共汽車從起點到終點平均行駛的時間,一家公交公司隨機抽取36班公共汽車,得到平均行駛的時間為26分鐘,標準差為8分鐘。說明樣本均值服從什么分布?依據(jù)是什么?計算平均行駛時間95%的置信區(qū)間。解釋95%的置信水平的含義。(,,,)(1)樣本均值服從正態(tài)分布。通過中心極限定理:設(shè)從均值為μ,方差為σ2(有限)的任意一個總體中抽取樣本量為n的樣本,當n充分大時,樣本均值的抽樣分布近似服從均值μ、方差σ2n的正態(tài)分布。一般統(tǒng)計學中的n≥30為大樣本,本題中抽取了36個(2)已知n=36,x=26,s=8,置信區(qū)間95%所以zα2=z平均行駛時間95%的置信區(qū)間為:x±zα2sn=26±1.96x836=26±2.61(3)一般地,如果將構(gòu)造置信區(qū)間的步驟重復多次,置信區(qū)間中包含總體參數(shù)真值的次數(shù)所占的比例稱為置信水平。如果用某種方法構(gòu)造的所有區(qū)間中有95%的區(qū)間包含總體參數(shù)的真值,5%的區(qū)間不包含總體參數(shù)的真值,那么用該方法構(gòu)造的區(qū)間稱為置信水平為95%的置信區(qū)間。(20分)設(shè)單因素方差分析的數(shù)學模型為:。解釋這一模型的含義,并說明對這一模型的基本假定。單因素方差分析指的是只有一種處理因素在影響結(jié)果,或者說只有一個自變量在影響因變量的情況。(1)設(shè)任何一次實驗結(jié)果都可以表示成如下形式:Yi=μ+εi其中Yi是第i次實驗的實際結(jié)果,μ是該結(jié)果的最佳估計值,其實就是總體均值,εi是均值和實際結(jié)果的偏差也就是隨機誤差(2)假定εi服從均值為0,標準差為某個定值的正態(tài)分布,把以上形式按照方差分析進行推廣,假設(shè)我們要研究幾種水平之間的差異,每種水平抽取一定樣本并收集相關(guān)數(shù)據(jù),那么模型公式可以表示為:Yij=μi+εij其中Yij是第i組水平的第j個樣本的實際結(jié)果,μi是第i組的均值,εij是第i組第j個樣本相對于實際結(jié)果的偏差。同樣假定εi服從均值為0,標準差為某個定值的正態(tài)分布,如果這i組水平?jīng)]有差異,則Yij應等于總體均值加上隨機誤差項。(3)為了方便統(tǒng)計推斷,模型公式改為如下形式:Yij=μ+αi+εij其中μ表示不考慮分組時的總體均值,αi表示第i組的附加效應,即在第i組時的均值改變情況,例如αi=10,表示第i組的均值要比總體均值多10,如果這i組均值并無差異,那么α1=α2=α3=.....=αi,反之則不等,據(jù)此我們可以建立假設(shè):H0:i取任意值時,αi=0H1:i取任意值時,至少有一個αi<>0結(jié)合差異分解的方差分析思路,我們發(fā)現(xiàn)αi實際上就是處理因素導致的差異。(20分)在多元回歸中,判斷共線性的統(tǒng)計量有哪些?簡要解釋這些統(tǒng)計量。(1)自變量間的相關(guān)系數(shù)矩陣:如果相關(guān)系數(shù)超過0.9的變量在分析時將會存在共線性問題。在0.8以上可能會有問題。但這種方法只能對共線性作初步的判斷,并不全面。(2)容忍度(Tolerance):以每個自變量作為應變量對其他自變量進、行回歸分析時得到的殘差比例,大小用1減決定系數(shù)來表示。該指標越小,則說明該自變量被其余變量預測的越精確,共線性可能就越嚴重。(3)方差膨脹因子(Varianceinflationfactor,VIF):其中為與其余(m-1)個自變量線性回歸的決定系數(shù)。值越大,多元共線程度越嚴重。4、特征根(Eigenvalue):主要包括條件指數(shù)和方差比。條件指數(shù)是最大特征根與每個特征根之比的平方根。當對應的方差比大于0.5時,可認為多元共線性嚴重存在4中國人民大學接受同等學歷人員申請碩士學位考試試題招生專業(yè):統(tǒng)計學考試科目:統(tǒng)計思想綜述課程代碼:123201考題卷號:4(20分)在2008年8月10日舉行的第29屆北京奧運會男子10米氣手槍決賽中,最后獲得金牌和銀牌的兩名運動員10槍的決賽成績?nèi)缦卤硭荆哼\動員決賽成績龐偉9.310.310.510.310.410.310.710.410.79.3秦鐘午9.59.910.610.39.49.99.8根據(jù)上表計算的韓國運動員秦鐘午的平均環(huán)數(shù)是10.05環(huán),標準差是0.445環(huán)。比較分析哪個運動員的發(fā)揮更穩(wěn)定。(1)平均數(shù)、標準差:龐偉的平均環(huán)數(shù)=10.22環(huán),標準差是0.507;秦鐘午的平均環(huán)數(shù)=10.05環(huán),標準差是0.445環(huán),由于龐偉的平均環(huán)數(shù)明顯大于秦鐘午,因此只比較標準差不能說明二人的穩(wěn)定性(2)中位數(shù):龐偉的中位數(shù)=10.35,秦鐘午的中位數(shù)=10,同樣可以看出龐偉的成績更優(yōu)秀一些(3)極差:龐偉的極差=1.4,秦鐘午的極差=1.4,兩者極差相同(4)離散系數(shù):龐偉的離散系數(shù)=0.0496,秦鐘午的離散系數(shù)=0.0443綜上所述,選手龐偉的成績更優(yōu)秀,但秦鐘午的發(fā)揮更穩(wěn)定。(20分)什么是統(tǒng)計意義上的顯著性?為什么說統(tǒng)計上顯著不一定就有現(xiàn)實意義?(1)在假設(shè)檢驗中,拒絕原假設(shè)稱樣本結(jié)果在“統(tǒng)計上是顯著的”;不拒絕原假設(shè)則稱結(jié)果是“統(tǒng)計上不顯著的”?!帮@著的”在這里的意思是指非偶然的,它表示這樣的樣本結(jié)果不是偶然得到的,同樣,結(jié)果是不顯著的則表明這樣的樣本結(jié)果很可能是偶然得到的。(2)在進行決策時,我們只能說P值越小,拒絕原假設(shè)的證據(jù)就越強,檢驗的結(jié)果也就越顯著。當P值很小而拒絕原假設(shè)時,并不一定意味著檢驗的結(jié)果就有實際意義。因為在假設(shè)檢驗中的“顯著”僅僅是“統(tǒng)計意義上的顯著”。P值與樣本的大小密切相關(guān),樣本量越大,檢驗統(tǒng)計量的值也就越大,P值就越小,就越可能拒絕原假設(shè)。因此,當樣本量很大時,解釋假設(shè)檢驗的結(jié)果需要小心,因為在大樣本情況下,總能把與假設(shè)值的任何細微差別查出來,即使這種差別幾乎沒有任何實際意義。因此,在實際檢驗中,不能把“統(tǒng)計意義上的顯著性”與“實際意義上的顯著性”混同起來。(20分)簡要說明判斷一組數(shù)據(jù)是否服從正態(tài)分布的統(tǒng)計方法。(1)圖示法1.P-P圖以樣本的累計頻率作為橫坐標,以按照正態(tài)分布計算的相應累計概率作為縱坐標,以樣本值表現(xiàn)為直角坐標系的散點。如果數(shù)據(jù)服從正態(tài)分布,則樣本點應圍繞第一象限的對角線分布。2.Q-Q圖以樣本的分位數(shù)作為橫坐標,以按照正態(tài)分布計算的相應分位點作為縱坐標,把樣本表現(xiàn)為直角坐標系的散點。如果數(shù)據(jù)服從正太分布,則樣本點應圍繞第一象限的對角線分布。3.直方圖(頻率直方圖)判斷方法:是否以鐘型分布,同時可以選擇輸出正態(tài)性曲線。4.箱線圖判斷方法:觀察矩形位置和中位數(shù),若矩形位于中間位置且中位數(shù)位于矩形的中間位置,則分布較為對稱,否則是偏態(tài)分布。5.莖葉圖判斷方法:觀察圖形的分布狀態(tài),是否是對稱分布。(2)偏度、峰度檢驗法峰態(tài):峰態(tài)是對數(shù)據(jù)分布平峰或尖峰程度的測度,當K>0時為尖峰分布,數(shù)據(jù)的分布更集中;當K<0時為扁平分布,數(shù)據(jù)的分布越分散。偏態(tài):偏態(tài)是對數(shù)據(jù)分布對稱性的測量,若偏態(tài)系數(shù)明顯不等于0,表明分布是非對稱的,偏態(tài)系數(shù)的數(shù)值越大,表示偏斜的程度越大。(3)非參數(shù)檢驗非參數(shù)檢驗方法包括Kolmogorov-Smirnov檢驗(D檢驗)和Shapiro-Wilk(W檢驗)。當樣本數(shù)N<2000時,shapiro-wilk的W統(tǒng)計量檢驗正態(tài)性;當樣本數(shù)N>2000時,Kolmogorov-Smirnov的D統(tǒng)計量檢驗正態(tài)性;檢驗時,根據(jù)樣本計算一個統(tǒng)計量即檢驗統(tǒng)計量D。它把樣本分布的形狀和正態(tài)分布相比較,比較得出一個數(shù)值p(0<p<1,即實際的顯著性水平)來描述對這個想法的懷疑程度。如果p值小于給定的顯著性水平,則拒絕原假設(shè),認為數(shù)據(jù)不是來自正態(tài)分布,反之則認為數(shù)據(jù)來自正態(tài)分布。正態(tài)分布的擬合優(yōu)度檢驗
如Pearsonχ2檢驗、對數(shù)似然比檢驗
(20分)國家統(tǒng)計局目前對地區(qū)的劃分中,將我國31個省市自治區(qū)劃分為東部地區(qū)、中部地區(qū)、西部地區(qū)、東北地區(qū)。要分析四個地區(qū)的平均消費水平是否存在顯著差異,所用的統(tǒng)計方法有哪些?這些方法的區(qū)別是什么?你會選擇什么方法進行分析?你的假設(shè)是什么?(1)可兩兩之間進行t檢驗或4組數(shù)據(jù)進行方差分析。T檢驗:兩獨立樣本t檢驗(twoindependentsamplest-test),又稱成組t檢驗。適用于完全隨機設(shè)計的兩樣本均數(shù)的比較,其目的是檢驗兩樣本所來自總體的均數(shù)是否相等。完全隨機設(shè)計是分別從不同總體中隨機抽樣進行研究,即本項目中從不同地區(qū)隨機抽樣進行研究相符合。單因素方差分析:研究一個分類型自變量對一個數(shù)值型因變量的影響,如本項目中就是研究四個不同地區(qū)對平均消費水平的影響。區(qū)別:T檢驗屬于均值分析,它是用來檢驗兩類母體均值是否相等。均值分析是來考察不同樣本之間是否存在差異,即兩個不同地區(qū)之間消費水平是否存在顯著差異;而方差分析則是評估不同樣本之間的差異是否由某個因素起主要作用,即消費水平的顯著差異是否是由地區(qū)不同引起的。并且通過單因素方差分析只能得出4組數(shù)據(jù)是否存在顯著差異,并不能得出具體是哪幾個地區(qū)之間有顯著差異。Kruskal-Wallis檢驗。用于檢驗多個獨立總體是否相同的一種非參數(shù)檢驗方法。原假設(shè):四個地區(qū)平均消費水平相等,備擇假設(shè):四個地區(qū)平均消費水平不全相等。不需要方差分析的正態(tài)分布且方差相等的
假設(shè)。該檢驗可用于順序數(shù)據(jù)也可用于數(shù)值型數(shù)據(jù)(2)我選擇用單因素方差分析,因為本項目共分為4組數(shù)據(jù),只要求分析他們之間是否存在顯著差異,并不用確定具體差異如何存在的。原假設(shè)為:四個地區(qū)之間的平均消費水平?jīng)]有顯著差異。若最終拒絕原假設(shè),則說明四個地區(qū)之間的平均水平存在顯著差異。即證明了題目中的要求。因為對四個地區(qū)的分布和方差未知,選擇非參數(shù)方法。(20分)一家房地產(chǎn)評估公司想對某城市的房地產(chǎn)銷售價格(元/m2)與地產(chǎn)的評估價值(萬元)、房產(chǎn)的評估價值(萬元)和使用面積(m2)建立一個模型,以便對銷售價格作出合理預測。為此,收集了20棟住宅的房地產(chǎn)評估數(shù)據(jù),由統(tǒng)計軟件給出的部分回歸結(jié)果如下(顯著性水平為95%):方差分析dfSSMSFSig.回歸387803505.4629267835.1546.703.879E-08殘差1610028174.54626760.91總計1997831680Coefficients標準誤差tStatP-valueIntercept148.7005574.42130.25890.799XVariable10.81470.5121.59130.1311XVariable20.8210.21123.88760.0013XVariable30.1350.06592.05030.0571對所建立的回歸模型進行綜合評價。(1)線性回歸方程為y其中第個回歸系數(shù)的意義是,在其它自變量保持不變時,每變動一個單位,就平均變動個單位。例如在房產(chǎn)的評估價值和使用面積都不變的情況下,地產(chǎn)的評估價值每上升1萬元,房地產(chǎn)銷售價格就上升8147元。(2)設(shè)=0.05,由值=3.879*10-8<知,回歸方程的線性關(guān)系是顯著的。(3)第1,2,3個回歸系數(shù)顯著性檢驗值分別是0.1311>,0.0013<,0.0571>故第2個回歸系數(shù)顯著,第1、3個回歸系數(shù)不顯著。(4)多重判定系數(shù)R它反映了因變量變異中能用自變量解釋的比例,描述了回歸直線擬合樣本觀測值的優(yōu)劣程度。此處R2(5)估計標準誤差s是的標準差的估計,反映了(房地產(chǎn)銷售價格)的波動程度。(6)有用。雖然該變量的部分系數(shù)沒通過顯著性檢驗,但并不意味著該變量沒用,它在經(jīng)濟解釋上可能還是有一定意義的,方程總體顯著,說明方程包含該變量總體上是有用的。也可能是多重共線性造成了不顯著。5中國人民大學接受同等學歷人員申請碩士學位考試試題招生專業(yè):統(tǒng)計學考試科目:統(tǒng)計思想綜述課程代碼:123201考題卷號:5(20分)為研究大學生的逃課情況。隨機抽取350名大學生進行調(diào)查,得到的男女學生逃課情況的匯總表如下。是否逃課男女合計逃過課8488172未逃過課78100178合計=SUM(ABOVE)162=SUM(ABOVE)188=SUM(ABOVE)350這里涉及的變量有哪些?這些變量屬于什么類型?涉及的變量有性別、是否逃課。是否逃課及性別為分類型變量,不同性別的逃課和非逃課人數(shù),為數(shù)值變量。描述上述數(shù)據(jù)所適用的統(tǒng)計圖形有哪些?可以用條形圖、復式條形圖,餅圖、復式餅圖,環(huán)形圖。(20分)現(xiàn)從一批零件中隨機抽取16只,測得其長度(單位:厘米)如下:15.114.514.814.615.214.814.914.614.815.115.314.715.015.
15.114.7如果要使用分布構(gòu)建零件平均長度的置信區(qū)間,基本的假定條件是什么?在小樣本(n<30)情況下,對鐘體均值得估計都是建立在總體服從正太分布假設(shè)前提下。當正態(tài)總體的未知,樣本均值經(jīng)過標準化后服從自由度為n-1的t分布,用樣本方差s2代替總體方差。構(gòu)建該批零件平均長度的95%的置信區(qū)間。樣本均值平均長度為=14.9,95%的置信區(qū)間為,即(14.77,15.03)(3)能否確定該批零件的實際平均長度就在你所構(gòu)建的區(qū)間內(nèi)?為什么?(注:)不能。因為該樣本所構(gòu)造的是一個特定的區(qū)間,不再是隨機區(qū)間。只能說在95%置信水平下,該區(qū)間是大量包含真值的區(qū)間中的一個。也可能是少數(shù)幾個不包含參數(shù)真值的區(qū)間中的一個。(20分)在假設(shè)檢驗中,當不拒絕原假設(shè)時,為什么一般不采取“接受原假設(shè)”的表示方式?1、假設(shè)檢驗的目的主要是收集證據(jù)拒絕原假設(shè),而支持你所傾向的備擇假設(shè)。因為假設(shè)檢驗只提供不利于原假設(shè)的證據(jù)2.假設(shè)檢驗得出的結(jié)論都是根據(jù)原假設(shè)進行闡述的。當不能拒絕原假設(shè)時,我們也從來不說“接受原假設(shè)”,因為沒有證明原假設(shè)是真的。沒有足夠的證據(jù)拒絕原假設(shè)并不等于你已經(jīng)“證明”了原假設(shè)是真的,它僅僅意為著目前還沒有足夠的證據(jù)拒絕原假設(shè),只表示手頭上這個樣本提供的證據(jù)還不足以拒絕原假設(shè)?!安痪芙^”的表述方式實際上意味著沒有得出明確的結(jié)論3.假設(shè)檢驗中通常是先確定顯著性水平,這就等于控制了第Ι類錯誤的概率,但犯第Ⅱ類錯誤的概率卻是不確定的。(20分)簡要說明分布在統(tǒng)計中的應用??ǚ椒植紤煤軓V,常用于假設(shè)檢驗和置信區(qū)間的計算,比如應用到獨立性檢驗中,同質(zhì)性檢驗、適合性檢驗等等獨立性檢驗:主要用于兩個或兩個以上因素多項分類的計數(shù)資料分析,也就是研究兩類變量之間的關(guān)聯(lián)性和依存性問題擬合優(yōu)度檢驗:檢驗單個多項分類名義型變量各分類間的實際觀測次數(shù)與理論次數(shù)之間是否一致的問題同質(zhì)性檢驗:檢驗兩個或兩個以上總體的某一特性分布,也就是各“類別”的比例是否統(tǒng)一或相近適合性檢驗:檢驗某一類分類資料所在總體的分布是否符合某個假設(shè)或理論的分布【感覺簡答題可以適當寫多點,也可以只說檢驗名字】(20分)簡要說明解決多元回歸中共線性的方法。1:變量的選擇方法:向前選擇、向后剔除、逐步回歸。2:嶺回歸方法:有偏估計3:主成分分析:降維,提取信息4:偏最小二乘回歸法:原理與主成分方法相似6中國人民大學接受同等學歷人員申請碩士學位考試試題招生專業(yè):統(tǒng)計學考試科目:統(tǒng)計思想綜述課程代碼:123201考題卷號:6(20分)一家電視臺為了解觀眾對某檔娛樂節(jié)目的喜歡程度,對不同年齡段的男女觀眾進行了調(diào)查,得到喜歡該檔娛樂節(jié)目的觀眾比例(單位:%)如下:年齡段男性女性20歲以下5620—30歲253230—40歲161540—50歲121250歲以上68這里涉及的變量有哪些?這些變量屬于什么類型?有分類變量和數(shù)量變量。分類變量有性別,年齡段。數(shù)量變量有各年齡段的男女人數(shù)。描述上述數(shù)據(jù)所適用的統(tǒng)計圖形有哪些?可以用條形圖和餅圖【直方圖用于連續(xù)變量的這里最好不用】(20分)假定總體共有1000個個體,均值,標準差。從中抽取容量為100的所有簡單隨機樣本。樣本均值的期望值和標準差各是多少?得出上述結(jié)論所依據(jù)的是統(tǒng)計中的哪一個定理?請簡要敘述這一定理。樣本均值的期望值為32,標準差為0.5是中心極限定理,定理如下設(shè)從均值為μ、方差為σ^2;(有限)的任意一個總體中抽取樣本量為n的樣本,當n充分大時,樣本均值的抽樣分布近似服從均值為μ、方差為σ^2/n的正態(tài)分布(20分)在假設(shè)檢驗中,利用決策與利用統(tǒng)計量決策有什么不同?P值:如果能把犯第Ⅰ類錯誤的真實概率算出來,就可以直接用這個概率做出決策。而不需要管什么事先給定的顯著性水平α,這個犯第Ⅰ類錯誤的真實概率就是P值。統(tǒng)計量檢驗是根據(jù)事先確定的顯著性水平α圍成的拒絕域作出決策,不論檢驗統(tǒng)計量的值是大是小,只要把它落入拒絕域就拒絕原假設(shè)H。否則就不拒絕H。這樣,無論統(tǒng)計量落在拒絕域的什么位置,你也只能說犯第一錯誤的概率為α,而用P值檢驗則能把犯第Ⅰ類錯誤的真實概率算出來。P值決策優(yōu)于統(tǒng)計量決策。P值決策提供了更多的信息。(20分)簡要說明方差分析的基本原理。方差分析被解釋為檢驗多個總體均值是否相等的統(tǒng)計方法,這種解釋側(cè)重于方差分析的過程和形式。本質(zhì)上,方差分析研究的是分類自變量對數(shù)值因變量的影響方差分析總的思想是通過計算來比較因某一特定因素帶來的樣本值的差異與隨機偶然因素對樣本值的差異的大小,從而判斷該因素對總體是否有統(tǒng)計意義(20分)比較說明指數(shù)曲線和直線的異同。一、相同點:指數(shù)曲線模型和直線模型都可以對時間序列進行擬合;都可以進行參數(shù)估計和假設(shè)檢驗;都可以對于未來的時點進行預測。二、不同點:1、直線為線性的,指數(shù)曲線為非線性的。2、兩者適用于不同特點的時間序列;線性趨勢是時間序列按一個固定的常數(shù)(不變的斜率)增長或下降,指數(shù)曲線是時間序列各期觀察值按一定的增長率增長或衰減;3、兩者的模型表達式不同;4、系數(shù)的求解方法不同。直線用最小二乘法求得。指數(shù)曲線,需先采取線性化手段將其化為對數(shù)直線形式,根據(jù)最小二乘法,求解出系數(shù)的對數(shù),再取其反對數(shù)。5、兩者的預測方法不同,直線趨勢可以用Holt指數(shù)平滑和一元線性回歸法預測,指數(shù)曲線可以用指數(shù)模型來預測。7中國人民大學接受同等學歷人員申請碩士學位考試試題招生專業(yè):統(tǒng)計學考試科目:統(tǒng)計思想綜述課程代碼:123201考題卷號:7(20分)一項關(guān)于大學生體重狀況的研究發(fā)現(xiàn),男生的平均體重為60kg,標準差為5kg;女生的平均體重為50kg,標準差為5kg。請回答下面的問題是男生的體重差異大還是女生的體重差異大?為什么?粗略地估計一下,男生中有百分之幾的人體重在55kg到65kg之間?粗略地估計一下,女生中有百分之幾的人體重在40kg到60kg之間?(1)女生的體重差異大。男生體重的離散系數(shù)是V1=5/60=0.083女生體重的離散系數(shù)是V2=5/50=0.1離散系數(shù)大的離散程度也就大,V2>V1,因此,女生的體重差異大(2)設(shè)男生的體重為X1,X1~N(60,52)設(shè)Z1=(X1-60)/5男生體重在55kg到65kg之間的概率為P,則P()=P(-1Z11)=68%因此,男生有68%的體重在55~65kg之間。(3)設(shè)女生的體重為X2,則X2~N(50,52),設(shè)Z2=(X2-50)/5,則Z2~N(0,1)P(40X260)=P(-2Z22)=95%故女生有95%的體制在40~60kg之間。(20分)敘述評價估計量的標準。評價估計量的標準主要有3個。<1>無偏性。無偏性是指估計量抽樣分布的期望值等于被估計的總體參數(shù)。設(shè)總體參數(shù)為,所選擇的估計量為,如果E()=,則稱為的無偏估計量。<2>有效性。有效性是指估計量的方差盡可能小。一個無偏估計量并不意味著它就非常接近被估計的總體參數(shù),估計量與參數(shù)的接近程度是用估計量的方差來度量的。對同一總體參數(shù)的兩個無偏估計量,有更小方差的估計量更有效。<3>一致性。一致性是指隨著樣本量的增大,點估計量的值越接近總體參數(shù)。一個大樣本給出的估計量要比一個小樣本給出的估計量更接近總體的參數(shù)。樣本均值的標準誤差x=/與樣本量的大小有關(guān),樣本量越大,x的值就越小。因此,大樣本量給出的估計量更接近總體均值u,從這個意義上來說,樣本均值是總體均值的一個一致估計量。(20分)一家房地產(chǎn)開發(fā)公司準備購進一批燈泡,公司打算在兩個供貨商之間選擇一家購買,兩家供貨商生產(chǎn)的燈泡使用壽命的方差大小基本相同,價格也很相近,房地產(chǎn)公司購進燈泡時考慮的主要因素就是使用壽命。其中一家供貨商聲稱其生產(chǎn)的燈泡平均使用壽命在1500小時以上。如果在1500小時以上,在房地產(chǎn)公司就考慮購買。由36只燈泡組成的隨機樣本表明,平均使用壽命為1510小時,標準差為193小時。如果是房地產(chǎn)開發(fā)公司進行檢驗,會提出怎樣的假設(shè)?請說明理由。如果是燈泡供應商進行檢驗,會提出怎樣的假設(shè),請說明理由。(1)設(shè)燈泡的平均使用壽命為uH0:u1500(使用壽命符合標準)H1:u<1500(使用壽命不符合標準)房地產(chǎn)開發(fā)公司傾向于證明燈泡的使用壽命小于1500個小時。因為這會損害公司的利益(如果房地產(chǎn)公司非常相信燈泡的使用壽命在1500小時以上,也就沒有必要抽檢了)通常備擇假設(shè)用于表達研究者傾向于支持的看法,因此,備擇假設(shè)為u<1500小時,原假設(shè)為u1500。(2)設(shè)燈泡的平均使用壽命為u.H0:u1500H1:u>1500燈泡供應商傾向于支持燈泡的使用壽命大于1500小時,所以備擇假設(shè)為:u>1500;原假設(shè)為:u1500(20分)什么是判定系數(shù)?它在回歸分析中的主要作用是什么?1.判定系數(shù)是對估計的回歸方程擬合優(yōu)度的度量。引起y值變化的這種波動稱為變差。變差主要有兩種:一是自變量x的變化引起y變化,這部分的平方和稱為回歸平方和;二是除x以外的其他隨機因素導致y變化,這部分變差的平方和稱為殘差平方和。變差的平方和=回歸的平方和+殘差的平方和判定系數(shù)(R2)=回歸的平方和(SSR)/變差的平方和(SST)2.判定系數(shù)測度了回歸直線對觀測數(shù)據(jù)的擬合程度?;貧w直線擬合的好壞取決于SSR/SST比值的大小。各觀測點越靠近直線,值越大,直線擬合的越好;值越小,直線擬合的越差。(20分)說明分布的適用條件,如何判斷某個過程產(chǎn)生的數(shù)據(jù)滿足這一條件?1.當正態(tài)總體的標準差未知時,在小樣本的條件下對總體均值的估計和檢驗要用到t分布2.正態(tài)性:可以劃出樣本數(shù)據(jù)的直方圖和莖葉圖或者P-P圖,Q-Q圖檢驗數(shù)據(jù)的正態(tài)性小樣本:當樣本的數(shù)量小于30個,當成小樣本處理8中國人民大學接受同等學歷人員申請碩士學位考試試題招生專業(yè):統(tǒng)計學考試科目:統(tǒng)計思想綜述課程代碼:123201考題卷號:8(20分)在金融證券領(lǐng)域,一項投資的的預期收益率的變化通常用該項投資的風險來衡量。預期收益率的變化越小,投資風險越低,預期收益率的變化越大,投資風險就越高。下面的兩個直方圖,分別反映了200種商業(yè)類股票和200種高科技類股票的收益率分布。在股票市場上,高收益率往往伴隨著高風險。但投資于哪類股票,往往與投資者的類型有一定關(guān)系。你認為該用什么樣的統(tǒng)計量來反映投資的風險?如果選擇風險小的股票進行投資,應該選擇商業(yè)類股票還是高科技類股票?如果你進行股票投資,你會選擇商業(yè)類股票還是高科技類股票?(1)方差或標準差(2)風險小的股票應選商業(yè)類股票(3)如果選擇風險小的股票,選擇商業(yè)類股票,如果選擇高收益的股票,選擇高科技類股票。(20分)某種感冒沖劑規(guī)定每包重量為12克,超重或過輕都是嚴重問題。從過去的生產(chǎn)數(shù)據(jù)得知克,質(zhì)檢員抽取25包沖劑稱重檢驗,平均每包的重量為11.85克。假定產(chǎn)品重量服從正態(tài)分布。根據(jù)上述檢驗計算出的,感冒沖劑的每包重量是否符合標準要求()?說明上述檢驗中可能犯哪類錯誤?該錯誤的實際含義是什么?不符合標準P=0.02<0.05點評人:原假設(shè)為H0:產(chǎn)品符合標準要求,由于P值小于0.05,因此拒絕原假設(shè),即,每包重量不符合標準要求?!綪為犯第一類錯誤的概率,即原假設(shè)正確,實際拒絕的概率為0.02,位于拒絕域內(nèi),推翻H0】(2)可能犯第Ⅰ類錯誤(錯誤)。原假設(shè)是正確的,實際確拒絕了原假設(shè)。(20分)簡述方差分析的基本假定。正態(tài)性:每種處理所對應的總體都應服從正態(tài)分布。方差齊性:各個總體的方差必須相等。獨立性:每個樣本數(shù)據(jù)都來自不同處理的獨立樣本。方差分析對獨立性的要求比較嚴格,若該假設(shè)得不到滿足,方差分析的結(jié)果會受到較大影響。而對正態(tài)性和方差齊性的要求相對較寬松,當正態(tài)性不滿足和方差略有不齊時,對分析的結(jié)果影響不是很大。(20分)怎樣自相關(guān)圖和偏自相關(guān)圖來識別ARIMA()模型中的參數(shù)?第一步:將序列平穩(wěn)化。只有平穩(wěn)序列才能建立ARIMA模型,當原始序列不平穩(wěn)時,通過差分可以將其平穩(wěn)化。第二步:識別模型的階數(shù)。如果原始序列(或差分序列)的偏自相關(guān)系數(shù)有p個明顯的峰值,在p個值后截尾,而它的自相關(guān)函數(shù)呈現(xiàn)出指數(shù)衰減或正弦衰減,呈現(xiàn)出拖尾,為AR(p)序列,模型為ARIMA(p,0,0).如果序列的自相關(guān)函數(shù)有q個明顯的峰值,在q個值后截尾,而它的偏自相關(guān)函數(shù)呈指數(shù)或正弦衰減,呈現(xiàn)出拖尾,為MA(q)序列,模型為ARIMA(0,0,q).如果序列的自相關(guān)圖和偏自相關(guān)圖的前p個條和前q個條沒有固定規(guī)律,其后都是趨漸于0而不是突然變?yōu)?,都呈現(xiàn)出拖尾,模型為ARMA(P,Q),“I”的取值取決于差分的階數(shù)。第三步:模型診斷。如果模型正確,模型預測產(chǎn)生的誤差是白噪聲序列,殘差序列的自相關(guān)圖沒有什么固定模式。書上245頁(20分)什么是回歸中的置信區(qū)間估計和預測區(qū)間估計?兩個區(qū)間的寬度是否一樣?取何值時兩個區(qū)間寬度最窄?平均值的置信區(qū)間估計:是對x的一個給定值x0,求出y的平均值的估計區(qū)間。個別值的預測區(qū)間估計:是對x的一個給定值x0,求出y的一個個別值的估計區(qū)間。兩個區(qū)間的寬度是不一樣的。預測區(qū)間要比置信區(qū)間寬一些。當x=x時,兩個區(qū)間的寬度最窄,此時,兩個區(qū)間也都是最準確的。9國人民大學接受同等學歷人員申請碩士學位考試試題招生專業(yè):統(tǒng)計學考試科目:統(tǒng)計思想綜述課程代碼:123201考題卷號:9(20分)為研究少年兒童的成長發(fā)育狀況,某研究所的一位調(diào)查人員在某城市抽取100名7~17歲的少年兒童作為樣本,另一位調(diào)查人員則抽取了1000名7~17歲的少年兒童作為樣本。請回答下面的問題,并解釋其原因。哪一位調(diào)查研究人員在其所抽取的樣本中得到的少年兒童的平均身高較大?或者這兩組樣本的平均身高相同?哪一位調(diào)查研究人員在其所抽取的樣本中得到的少年兒童身高的標準差較大?或者這兩組樣本的標準差相同?哪一位調(diào)查研究人員有可能得到這1100名少年兒童的最高者或最低者?或者對兩位調(diào)查研究人員來說,這種機會是相同的?解:(1)、如果抽樣是隨機的,抽樣樣本數(shù)目對樣本平均值沒有決定作用,答案是不確定的;(2)、如果抽樣是隨機的,抽樣樣本數(shù)目對樣本方差、標準差沒有決定作用,答案是不確定的;(3)、不確定,都有可能。(20分)在參數(shù)統(tǒng)計分析中,應用分布、分布和分布的假定條件是什么?如何判斷樣本數(shù)據(jù)是否滿足假定條件。解:(1)分布:設(shè)X1服從標準正態(tài)分布N(0,1),X2服從自由度為n的分布,且X1與X2相互獨立,則稱變量t=服從的分布為自由度為n的分布。期望E(T)=0方差D(T)=n/(n-2),n>2;分布:設(shè)X1,X2,......Xn相互獨立,都服從標準正態(tài)分布N(0,1),則稱隨機變量X2=X12+X22+....+Xn2服從自由度為n的分布。期望E(X2)=n,D(X2)=2n;分布:設(shè)X1服從自由度為n的分布,X2服從自由度為m的分布,且X1與X2相互獨立,則稱變量F=服從分布。(2)正態(tài)性檢驗及獨立性檢驗。(20分)由于時間和成本對產(chǎn)量變動的影響很大,所以在一種新的生產(chǎn)方式投入使用之前,生產(chǎn)廠家必須確信其所推薦新的生產(chǎn)方法能降低成本。目前生產(chǎn)中所用的生產(chǎn)方法成本均值為每小時200元。對某種新的生產(chǎn)方法,測量其一段樣本生產(chǎn)期的成本。在該項研究中,建立適當?shù)脑僭O(shè)和備擇假設(shè)。當不能拒絕時,試對所做的結(jié)論進行評述。當可以拒絕時,試對所做的結(jié)論進行評述。解:(1)、原假設(shè)::新的生產(chǎn)方法成本的均值不低于200元/每小時;備擇假設(shè)::新的生產(chǎn)方法成本的均值低于200元/每小時。(2)、當不能拒絕時,說明并沒有把握說明新的生產(chǎn)方法能降低生產(chǎn)成本;(3)、當可以拒絕時,說明新的生產(chǎn)方法可以降低生產(chǎn)成本,可以采用新的方法生產(chǎn)。(20分)列出度量下述測度變量間的關(guān)系所使用的統(tǒng)計量。兩個分類變量。兩個數(shù)值變量。兩個順序變量。一個分類變量與一個數(shù)值變量。解:分類變量分為有序變量、無序變量及二分類,在差別性檢驗中二分類變量和無序變量都可以用卡方統(tǒng)計量檢驗,不過一個是四方格、一個是R×C列聯(lián)卡方,有序變量也即等級資料得用秩和檢驗。有序變量中可用多元回歸來檢驗假設(shè),對于無序變量使用logistics回歸。(1)統(tǒng)計量;(2)、相關(guān)系數(shù);(3)、等級相關(guān)系數(shù);(4)、F統(tǒng)計量。(20分)在多元線性回歸分析中,檢驗和檢驗有何不同?解:(1)、F檢驗是對模型整體顯著性水平的檢驗,而t檢驗只是對單獨變量的顯著性水平的檢驗。(2)、F檢驗顯著,說明模型擬合效果顯著,但并不能說明每個變量都顯著。10中國人民大學接受同等學歷人員申請碩士學位考試試題招生專業(yè):統(tǒng)計學考試科目:統(tǒng)計思想綜述課程代碼:123201考題卷號:10(20分)在2008年8月北京舉辦的第29屆奧林匹克運動會上,獲得金牌總數(shù)前三名的國家及獎牌數(shù)如下。要描述這一數(shù)據(jù),可以使用的圖形有哪些?說明它們在描述這一數(shù)據(jù)中的用途。排名國家金銀銅總1中國5121281002美國3638361103俄羅斯23212872列出適合展示上述數(shù)據(jù)的圖形并說明這些圖形的用途。解:(1)、直方圖或者條形圖:能夠直觀的表明各個國家在金、銀、銅牌上的獎牌數(shù)量。如果以國家為橫坐標,以獎牌數(shù)為縱坐標,能夠直觀的比較不同國家或得獎牌總數(shù)的情況;如果以獎牌種類為橫坐標,以國家為縱坐標,能夠直觀的看到每個國家獲得各種獎牌的情況;(2)、餅圖或者環(huán)形圖:能夠清楚的比較各個國家獲得金、銀、銅獎牌的比例。(20分)某企業(yè)生產(chǎn)的產(chǎn)品需用紙箱進行包裝,按規(guī)定供應商提供的紙箱用紙的厚度不應低于5毫米。已知用紙的厚度服從正態(tài)分布,一直穩(wěn)定在0.5毫米。企業(yè)從某供應商提供的紙箱中隨機抽查了100個樣品,得樣本平均厚度毫米。在的顯著顯著性水平上,是否可以接受該批紙箱?該檢驗中會犯哪類錯誤?該錯誤的含義是什么?抽查的100個樣本的平均厚度為多少時可以接收這批紙箱?此時可能會犯哪類?該錯誤的含義是什么?(注:,)解:(1)、由題可知,紙箱的厚度服從,,n=100,建立假設(shè):::<,則在時,拒絕原假設(shè)。在該類檢驗中犯了第一類錯誤,即原假設(shè)正確,但實際上卻拒絕了原假設(shè)的錯誤。(2)、當時,解得,即當紙箱的厚度在4.902毫米與5.098毫米之間時,可以接受原假設(shè),即可以接受這些紙箱。此時,可能犯第二類錯誤,即原假設(shè)錯誤,但是實際上卻接受了原假設(shè)的錯誤。三、(20分)簡要說明分布在統(tǒng)計中的的應用。解:分布常應用于假設(shè)檢驗及置信區(qū)間的計算中,由卡方分布延伸出來皮爾森卡方檢定常用于:(1)樣本某性質(zhì)的比例分布與總體理論分布的擬合優(yōu)度;(2)同一總體的兩個隨機變量是否獨立;(3)二或多個總體同一屬性的同素性檢定即,獨立性檢驗、同質(zhì)性檢驗、適合性檢驗等。(20分)在多元線性回歸分析中,如果某個回歸系數(shù)的檢驗不顯著,是否就意味著這個自變量與因變量之間的線性回歸不顯著?為什么?當出現(xiàn)這種情況時應如何處理?解:(1)、不是。因為在多元線性回歸模型中,如果多個自變量之間存在較強的相關(guān)性,或者因為數(shù)據(jù)收集的基礎(chǔ)不夠?qū)?,造成多個自變量之間存在相關(guān)性時,此時在進行單個變量的t檢驗時,有可能會通不過檢驗,即該多元線性回歸模型存在多重共線性。(2)、當模型檢驗不顯著時,需要進行判別(1、系數(shù)估計值的符號是否不對2、是否存在某些重要的自變量t值低,而R方不低3、是否出現(xiàn)當一不太重要的解釋變量被刪除后,回歸結(jié)果顯著變化)、檢驗(相關(guān)性檢驗)模型中是否出現(xiàn)多重共線性,需要通過:1、增加數(shù)據(jù);2、對模型施加某些約束條件;3、刪除一個或幾個共線變量;4、將模型適當變形;5、主成分回歸;6、向前選擇、向后剔除、逐步回歸等方法去除共線性,選出合適的自變量來反應因變量的變化情況。而在處理多重共線性的時候需要注意:1、多重共線性是普遍存在的,輕微的多重共線性問題可不采取措施;2、嚴重的多重共線性問題,一般可根據(jù)經(jīng)驗或通過分析回歸結(jié)果發(fā)現(xiàn)。如影響系數(shù)符號,重要的解釋變量t值很低。要根據(jù)不同情況采取必要措施。3、如果模型僅用于預測,則只要擬合程度好,可不處理多重共線性問題,存在多重共線性的模型用于預測時,往往不影響預測結(jié)果;五、(20分)下表是某貿(mào)易公司近幾年的出口額數(shù)據(jù):年份出口額(萬美元)200213200319200424200535
006582007882008145從圖形上判斷,出口額時間序列含有什么成分?要預測該公司的出口額,應采用哪種趨勢線?該趨勢線的特點是什么?根據(jù)上面的數(shù)據(jù)擬合的指數(shù)曲線方程為:,這里的0.4909的具體含義是什么?解:(1)、,由圖可以看出,出口額隨著時間的增長,成曲線增長趨勢。(2)、如下圖所示,用指數(shù)方程擬合出口額的增長趨勢,擬合的R值高達0.9896。(3)、方程中的0.4904的含義是:出口額增長率。11中國人民大學接受同等學歷人員申請碩士學位考試試題招生專業(yè):統(tǒng)計學考試科目:統(tǒng)計思想綜述課程代碼:123201考題卷號:11(20分)A、B兩個班各有50名學生,統(tǒng)計學考試成績的描述統(tǒng)計量如下:統(tǒng)計量A班B班平均數(shù)74.468.5中位數(shù)756725%四分位數(shù)675675%四分位數(shù)8083標準差10.617.4最小值4435最大值96100畫出兩個班考試成績的箱線圖,并比較分布的特征。根據(jù)統(tǒng)計量對兩個班考試成績的特點進行分析。兩個班考試成績的最低分和最高分是否屬于離群點?解:(1)從圖中可以看出,A班學生各科的平均考試成績較高,且各學科成績之間離散程度也較小,B班學生各科的平均考試成績相對較低,且各學科成績之間離散程度也較大;圖中用“O”標出的最小值是A班同學考試成績的最低分,被視為A班學生考試成績的離群點。(2)A班學生各科的平均考試成績較高,B班學生各科的平均考試成績相對較低;兩個班成績平均數(shù)和中位數(shù)基本相等,說明兩個班級考試成績分布接近對稱;A班學生各科成績的極差和四分位差均小于B班,說明B班學生各科成績中間的數(shù)據(jù)及兩端的數(shù)據(jù)均比A班學生成績分散;A班學生考試成績的離散系數(shù)小于B班學生考試成績的離散系數(shù),故A班學生考試成績的離散程度小于B班。(3)A班學生考試成績最低分屬于離群點。(20分)談談你對方差分析的理解。解:方差分析是分析各分類自變量對數(shù)值因變量影響的一種統(tǒng)計方法。自變量對因變量的影響也稱為自變量效應,而影響效應的大小則體現(xiàn)為因變量的誤差里有多少是由于自變量造成的。因此,方差分析是通過對數(shù)據(jù)誤差的分析來檢驗這種效應是否顯著?!緩秃搜a充】方差分析(AnalysisofVariance,簡稱ANOVA),又稱“變異數(shù)分析”或“F檢驗”,用于兩個及兩個以上樣本均數(shù)差別的顯著性檢驗。由于各種因素的影響,研究所得的數(shù)據(jù)呈現(xiàn)波動狀。造成波動的原因可分成兩類,一是不可控的隨機因素,另一是研究中施加的對結(jié)果形成影響的可控因素。方差分析是從觀測變量的方差入手,研究諸多控制變量中哪些變量是對觀測變量有顯著影響的變量,其基本思想是通過分析研究中不同來源的變異對總變異的貢獻大小,從而確定可控因素對研究結(jié)果影響力的大小。一個復雜的事物,其中往往有許多因素互相制約又互相依存。方差分析的目的是通過數(shù)據(jù)分析找出對該事物有顯著影響的因素,各因素之間的交互作用,以及顯著影響因素的最佳水平等。方差分析是在可比較的數(shù)組中,把數(shù)據(jù)間的總的“變差”按各指定的變差來源進行分解的一種技術(shù)。對變差的度量,采用離差平方和。方差分析方法就是從總離差平方和分解出可追溯到指定來源的部分離差平方和。(20分)某廠產(chǎn)品的優(yōu)質(zhì)品率一直保持在40%,近期質(zhì)檢部門來廠抽查,共抽查了50件產(chǎn)品,其中優(yōu)質(zhì)品為9件。在的顯著顯著性水平上,能否認為其優(yōu)質(zhì)品率仍保持在40%?該檢驗中可能犯哪類錯誤?其含義是什么?根據(jù)上述檢驗計算出的,解釋這個值的具體含義。(注:,)解:依題意建立的原假設(shè)和備擇假設(shè)為:;根據(jù)抽樣結(jié)果計算得:。檢驗統(tǒng)計量為:利用Excel中的NORMSDIST函數(shù)得到雙尾檢驗的P=0.001498。顯著性水平為0.05時不拒絕H0,沒有證據(jù)表明優(yōu)質(zhì)品率不是40%?!緩秃烁摹扛鶕?jù)顯著性水平α=0.05,zα2=1.96,|z|=3.175>1.96,因此拒絕原假設(shè),優(yōu)品率沒有保持在(2)可能犯第II類錯誤,是指原假設(shè)是錯誤的,卻沒有拒絕它?!緩秃烁摹靠赡芊傅贗類錯誤,是指原假設(shè)是正確的卻拒絕了原假設(shè):即優(yōu)品率保持為40%,卻認為不是,犯這個錯誤的可能性為5%。(3)P=0.564的實際含義是:如果該企業(yè)優(yōu)質(zhì)品率是40%,檢驗結(jié)果卻認為不是40%,犯這一錯誤的概率為0.564。(20分)設(shè)因變量為,個自變量分別為,則多元線性回歸模型可表示為:。對這一模型的假設(shè)有哪些?如果模型中存在多重共線性,會對結(jié)果產(chǎn)生哪些影響?解決多重共線性的方法有哪些?對各方法進行簡要評述。解:(1)在多元線性回歸模型中,對誤差項ε有三個基本假定:正態(tài)性。ε是一個服從正態(tài)分布的隨機變量,且期望值為0,即E(ε)=0.意味著對于給定的的值,的期望值為。方差齊性。對于自變量的所有值,ε的方差都相同。獨立性。對于自變量一組特定值,他所對應的ε與任意一組其他值所對應的ε不相關(guān)。同樣,對于給定的的值,因變量y也是一個服從正態(tài)分布的隨機變量。(2)首先,變量之間高度相關(guān)時,可能會給回歸的結(jié)果造成混亂,甚至會把分析引入歧途。其次,多重共線性可能對參數(shù)估計值的正負號產(chǎn)生影響,特別是的正負號有可能同預期的正負號相反。逐步回歸是避免多重共線性的有效方法之一,先通過向前選擇法選擇變量,不過在新增加一個自變量后,它會對模型中所有的變量重新進行考察,看有沒有可能剔除某個自變量。如果在新增加一個自變量后,前面增加的某個自變量對模型的貢獻變得不顯著,這個變量就會被剔除。按此方法不停的增加變量并考慮剔除以前增加的變量的可能性,直至增加變量已經(jīng)不能導致SSE顯著減少(這個過程可以通過F檢驗來完成)。逐步回歸法的特點是:在前面步驟中增加的自變量在后面的步驟中有可能被剔除,而在前面步驟中被剔除的自變量在后面的步驟中也可能重新進入模型中。(20分)使用主成分分析和因子分析時應注意哪些問題?首先,只有當原始變量之間有較強的相關(guān)關(guān)系是,降維的效果才回明顯,否則不適合進行主成分分析和因子分析。其次,主成分和因子的選擇標準應基于定量分析的結(jié)果,并結(jié)合具體問題而定,在某種程度上取決于研究者的知識和經(jīng)驗,而不是方法本身。再次,即使得到了滿意的主成分或因子,在運用它們對實際問題進行評價、排序等分析師,仍然要保持謹慎,因為主成分和因子比較是高度抽象的量,無論如何,它們的含義都不如原始變量清晰。最后,因子分析可以看做主成分分析的推廣和拓展,而主成分分析則可以看作因子分析的一個特例。目前因子分析在實踐中應用廣泛,而主成分分析通常只作為大型統(tǒng)計分析的中間步驟,幾乎不再單獨使用。12中國人民大學接受同等學歷人員申請碩士學位考試試題招生專業(yè):統(tǒng)計學考試科目:統(tǒng)計思想綜述課程代碼:123201考題卷號:12(20分)下表是2006年北京、上海和天津按收入法計算的地區(qū)生產(chǎn)總值(按當年價格計算)數(shù)據(jù)。地區(qū)勞動者報酬生產(chǎn)稅凈額固定資產(chǎn)折舊營業(yè)盈余北京3496.571161.551251.091961.07天津1383.36775.09595.091605.61上海3756.561623.361730.513255.94描述上述數(shù)據(jù)的圖形有哪些?簡要說明這些圖形的用途。解:可以用帕累托圖,按各類別出現(xiàn)的頻數(shù)多少排序后繪制的條形圖,可以看出哪類頻數(shù)出現(xiàn)的多,哪類出現(xiàn)的少??梢杂铆h(huán)形圖,每個樣本用一個環(huán)來表示,樣本中每一類別的頻數(shù)比例用環(huán)中的一段表示。因此環(huán)形圖可顯示多個樣本各類別頻數(shù)所占的相應比率。(20分)一家超市某種牛奶的日銷售量服從正態(tài)分布,未知。根據(jù)已往經(jīng)驗,其銷售量均值為60箱。該超市在最近一周進行了一次促銷活動,以促進銷售。一周的日銷量數(shù)據(jù)(單位:箱)分別為:64,57,49,73,76,70,59。檢驗促銷活動是否有效()。該檢驗中可能犯哪類錯誤?其含義是什么?根據(jù)上述檢驗計算出的,解釋這個值的具體含義。(注:,)解:a)促銷活動是否有效,即是否大于60,因此屬于右側(cè)檢驗,假設(shè)為:,【復核補充】檢驗統(tǒng)計量為:t=t=2.899<所以不拒絕H0,沒有證據(jù)表明促銷活動無效。b)可能犯第1類錯誤,是指原假設(shè)是正確的卻拒絕了原假設(shè):即促銷活動有效卻判斷為無效,犯這個錯誤的可能性為5%。c)P=0.1576的實際含義是:如果該促銷活動無效,檢驗結(jié)果卻沒有認為其無效,犯這一錯誤的概率為0.1576。(20分)一家電視臺為了解觀眾對某檔娛樂節(jié)目的喜歡程度,對不同年齡段的男女觀眾進行了調(diào)查,得到喜歡該檔娛樂節(jié)目的觀眾比例(單位:%)如下:年齡段男性女性20歲以下6820—30歲253230—40歲161540—50歲121250歲以上56要分析男性觀眾喜歡該檔娛樂節(jié)目的比例和女性是否一致,使用的統(tǒng)計方法是什么?簡要說明分析的基本步驟。兩個獨立樣本的Man-Whitney檢驗,具體步驟如下:提出如下假設(shè):;先把兩組數(shù)據(jù)混合在一起,得到m+n=N個數(shù)據(jù),將N個數(shù)據(jù)按從小到大排列,找到他們的秩。最小的數(shù)據(jù)秩為1,第二個最小的數(shù)秩為2,依此類推,最大的數(shù)據(jù)秩為N,若兩個數(shù)據(jù)相同,取其秩的平均數(shù)。分別對兩個樣本的秩求出平均秩和,并對其差距進行比較,如果差距較大,意味著一組樣本的秩普遍偏小,另一組樣本的秩普遍偏大,此時原假設(shè)可能不成立。計算樣本一中每個秩大于樣本二的每個秩的個數(shù),并對和進行比較:如果和相差較大,則原假設(shè)就有可能不成立。根據(jù)和計算WilcoxonW統(tǒng)計量和Man-WhitneyU統(tǒng)計量,先分別求出兩個樣本的秩和,設(shè)樣本一的秩和為,樣本二的秩和為,若m<n,檢驗統(tǒng)計量W=;若m>n,檢驗統(tǒng)計量W=;若m=n,檢驗統(tǒng)計量W為第一個變量值所在樣本租的W值。Mann=WhitneyU統(tǒng)計量定義為:U=式中,k為W對應樣本組的樣本數(shù)據(jù)個數(shù)。5、計算出統(tǒng)計量P值并做出決策。若P<a,則拒絕【復核補充】使用列聯(lián)檢驗法1、提出假設(shè)H0:男性與女性喜好一致H1:男性與女性喜好不一致2、計算卡方值3、設(shè)定α水平,進行顯著性水平檢驗4、若卡方<卡方α,故拒絕H0,即男性與女性喜歡該檔娛樂節(jié)目的比例不一致(20分)在因子分析中,因子數(shù)量的確定通常需要考慮哪些因素?解:因子數(shù)量的確定與主成分分析類似,可以根據(jù)因子方差的貢獻率來選擇。一般情況下,累計貢獻率達到80%以上的前幾個因子可以作為最后的公因子。從特征根角度看,一般要求因子對應的特征根要大于1,因為特征根小于1說明該公因子的解釋力度太弱,還不如使用原始變量的解釋力度大。實際應用中,因子的提取要結(jié)合具體問題而定,在某種程度上,取決于研究者自身的知識和經(jīng)驗。(20分)在多元線性回歸中,選擇自變量的方法有哪些?向前選擇法、向后剔除法、逐步回歸法。向前選擇法是從模型中沒有自變量開始,分別擬合因變量y對k個自變量()的一元線性回歸模型,共有k個,然后找出F統(tǒng)計量的值最大的(或P值最小的)模型及其自變量,并將該自變量首先引入模型(如果所有模型均無統(tǒng)計上的顯著性,則運算過程終止,沒有模型被擬合)。其次,在模型已經(jīng)引入的基礎(chǔ)上,在分別擬合引入模型外的k-1個自變量()的回歸模型,即自變量組合為的k-1個回歸模型,分別考察這k-1個模型,大的(或者P值最小的)自變量引入模型,如果除之外的k-1個自變量中沒有一個是統(tǒng)計上顯著的,則運算終止。如此反復,直至模型外的自變量均無統(tǒng)計顯著性為止。向后剔除法,擬合因變量對所有k歌自變量的線性回歸模型。考察p(p<k)個去掉一個自變量的模型(這些模型中的每一個都有k-1個自變量),使模型的SSE值減少最少的自變量(F統(tǒng)計量的值最小或其p值最大)被挑選出來并從模型中剔除。其次考察p-1個去掉一個自變量的模型(這些模型中的每一個都有k-2個自變量),使模型的SSE值減少最少的自變量被挑選出來并從模型中剔除)。如此反復,直至剔除一個自變量不會使SSE顯著減小為止。這時,這個變量就不會再進入模型中。逐步回歸法將上述兩種方法結(jié)合起來篩選自變量,前兩步與向前選擇法相同。不過在新增加一個自變量后,它會對模型中所有變量重新進行考察,看有沒有可能剔除某個自變量。如果新增加的自變量后,前面增加的某個自變量對模型的貢獻變得不顯著,這個變量就會被剔除按此方法不停的增加變量并考慮剔除以前增加的變量的可能性,直至增加變量已經(jīng)不能導致SSE顯著減少(這個過程可通過F檢驗來完成)13中國人民大學接受同等學歷人員申請碩士學位考試試題招生專業(yè):統(tǒng)計學考試科目:統(tǒng)計思想綜述課程代碼:123201考題卷號:13(20分)下面是測量的30袋食品重量的絕對誤差數(shù)據(jù)(單位:克):6.14.76.56.27.76.45.57.16.15.35.76.15.34.04.83.23.91.94.93.85.32.65.35.55.82.76.87.45.63.3適合描述該組數(shù)據(jù)分布的圖形有哪些?說明這些圖形的主要特點。直方圖,用矩形的寬度和高度來表示頻數(shù)分布箱線圖,可以方便的看出數(shù)據(jù)的分布特征莖葉圖,不僅可以看到分布,還能保留原始數(shù)據(jù)適合描述該組數(shù)據(jù)分布特征的統(tǒng)計量主要有哪些?說明這些統(tǒng)計量的特點。均值:反映了測量的30袋食品的平均重量水平情況;中位數(shù):反映了測量的30袋食品的重量的中間水平情況;四分位數(shù):反映了測量的30袋食品的重量按照大小順序排列后處于25%、50%及75%的水平情況;眾數(shù):反映了測量的30袋食品的重量出現(xiàn)最多次水平情況;極差:反映了測量的30袋食品的重量中最重與最輕間差異水平情況;四分位差:反映了測量的30袋食品的重量按照大小順序排列后中間50%的數(shù)據(jù)的離散水平情況;方差:反映了測量的30袋食品的重量與均值間的離散程度;(20分)從3個總體中各抽取容量不同的樣本數(shù)據(jù),檢驗3個總體的均值之間是否有顯著差異,得到的方差分析表如下():差異源SSdfMSFP-value組間A2388C0.011組內(nèi)4509B總計122611計算出表中A、B、C三個單元格的數(shù)值。A=776B=50C=7.76A、B兩個單元格中的數(shù)值被稱為什么?它們所反映的信息是什么?A代表組間平方和,反映了組間各水平間均值的差異B代表組內(nèi)均方誤差,反映了組內(nèi)估值與真值間差異程度在0.05的顯著性水平下,檢驗的結(jié)論是什么?組間差異顯著,拒絕H0F0.95(2,9)=4.26,F(xiàn)>4.26,故拒絕原假設(shè),認為3個總體的均值之間有顯著性差異。(20分)談談那個置信水平和置信區(qū)間的理解。置信水平:在重復構(gòu)造的總體參數(shù)的多個置信區(qū)間中包含總體參數(shù)真值的次數(shù)所占的比例(真值落入置信區(qū)間的概率,即顯著性水平)置信區(qū)間:由樣本統(tǒng)計量構(gòu)造出的總體參數(shù)在一定置信水平下的估計區(qū)間(20分)要建立一個多元線性回歸模型,談談你的建模思路。(處理數(shù)據(jù))、確定變量間的關(guān)系建立多元線性回歸模型對模型進行檢驗(模型及自變量顯著性的檢驗)、用估計方程預測殘差分析:檢驗模型假定(預測效果的檢驗)。5、模型的解釋。(20分)聚類分析時對變量或數(shù)據(jù)有哪些基本要求?要選擇與分類目標有關(guān)的變量各變量的取值不應該有數(shù)量級上的過大差異各變量之間不應該有強的相關(guān)關(guān)系14中國人民大學接受同等學歷人員申請碩士學位考試試題招生專業(yè):統(tǒng)計學考試科目:統(tǒng)計思想綜述課程代碼:123201考題卷號:14(20分)為分析不同地區(qū)的消費者與所購買的汽車價格是否有關(guān),一家汽車企業(yè)的銷售部門對東部地區(qū)、中部地區(qū)和西部地區(qū)的400個消費者作了抽樣調(diào)查,得到如下結(jié)果:汽車價格東部地區(qū)中部地區(qū)西部地區(qū)10萬元以下20404010—20萬元50605020—30萬元30202030萬元以上402010列出描述上述數(shù)據(jù)所適用的統(tǒng)計圖形,并說明這些圖形的用途。環(huán)形圖顯示多個樣本各類別所占的相應的比例復式餅圖是簡單餅圖的嵌套,展示多個分類變量的構(gòu)成比較復式條形圖顯示不同類別的頻數(shù)或者分布情況(20分)從一批零件中隨機抽取16只,測得其評價長度為14.9cm,標準差為0.25cm。如果要使用分布構(gòu)建零件平均長度的置信區(qū)間,基本的假定條件是什么?總體服從正態(tài)分布。構(gòu)建該批零件平均長度的95%的置信區(qū)間。14.9±2.131*0.25/√16=14.9±0.133=[14.767,15.033]能否確定該批零件的實際平均長度就在你所構(gòu)建的區(qū)間內(nèi)?為什么?不能確定。因為這個95%的置信區(qū)間是根據(jù)目前的樣本計算的,是一個常數(shù)區(qū)間,實際零件長度要么在這一區(qū)間內(nèi),要么不在這一區(qū)間內(nèi),但是否在其中并不知道。(置信水平)(注:)(20分)某汽車制造公司想了解廣告費用()對銷售量()的影響,收集了過去10年有關(guān)廣告費用(單位:萬元)和銷售量(單位:輛)的數(shù)據(jù),希望建立二者之間的線性回歸方程,并通過廣告費用來預測汽車的銷售量。通過計算得到下面的部分結(jié)果:回歸平方和(SSR)755456殘差平方和(SSE)37504回歸方程的截距348.94回歸方程的斜率14.41寫出銷售量與廣告費用的直線回歸方程,并解釋回歸系數(shù)的實際意義。Y=14.14X+348.94,廣告費用每增加1萬元,汽車銷售量平均增加14.41輛計算判定系數(shù),說明汽車銷售量的變差中有多少是由于廣告費用的變動引起的?=95.27%,在汽車銷售量的總變差中,有95.27%是由銷售量與廣告費用之間的線性關(guān)系引起的。計算估計標準誤差,并解釋其實際意義。=68.47它表示,用廣告費用預測汽車銷售量時,平均的預測誤差為68.47輛(20分)簡述分解法預測的基本步驟。(1)確定并分離季節(jié)成分。計算季節(jié)指數(shù),以確定時間序列中的季節(jié)成分。然后將季節(jié)成分從時間序列中分離出去,即用每一個時間序列觀測值除以相應的季節(jié)指數(shù),以消除季節(jié)成分(2)建立預測模型并進行預測。對消除季節(jié)成分的時間序列建立適當?shù)念A測模型,并根據(jù)這一模型進行預測。(3)計算出最后的預測值。將回歸預測值乘以相應的季節(jié)系數(shù)得到最終的預測值。(20分)對于聚類分析回答下面的問題:解釋Q型聚類和R型聚類的含義Q型聚類:根據(jù)變量對所觀察樣本進行分類的聚類方法R型聚類:根據(jù)樣本對多個變量進行分類的聚類方法聚類分析與判別分析有何不同?聚類分析是無監(jiān)督分類,不知道數(shù)據(jù)點的類別標簽,需要自己自動分出來;判別分析是有監(jiān)督的,本身已經(jīng)知道每個數(shù)據(jù)點屬于哪個類,它的任務是找到最佳的分類方法。聚類分析又稱群分析、點群分析。根據(jù)研究對象特征對研究對象進行分類的一種多元分析技術(shù),把性質(zhì)相近的個體歸為一類,使得同一類中的個體都具有高度的同質(zhì)性,不同類之間的個體具有高度的異質(zhì)性。根據(jù)分類對象的不同分為樣品聚類和變量聚類。判別分析是一種進行統(tǒng)計判別和分組的技術(shù)手段。根據(jù)一定量案例的一個分組變量和相應的其他多元變量的已知信息,確定分組與其他多元變量之間的數(shù)量關(guān)系,建立判別函數(shù),然后便可以利用這一數(shù)量關(guān)系對其他未知分組類型所屬的案例進行判別分組。判別分析中的因變量或判別準則是定類變量,而自變量或預測變量基本上是定距變量。依據(jù)判別類型的多少與方法不同,分為多類判別和逐級判別。判別分析的過程是通過建立自變量的線性組合(或其他非線性函數(shù)),使之能最佳地區(qū)分因變量的各個類別。15中國人民大學接受同等學歷人員申請碩士學位考試試題招生專業(yè):統(tǒng)計學考試科目:統(tǒng)計思想綜述課程代碼:123201考題卷號:15(20分)為研究上市公司對其股價波動的關(guān)注程度,一家研究機構(gòu)對在主板、中小板和創(chuàng)業(yè)板上市的200家公司進行了調(diào)查,得到如下信息:上市公司的類型關(guān)注不關(guān)注主板企業(yè)5070中小板企業(yè)3515創(chuàng)業(yè)板企業(yè)255列出分析上述數(shù)據(jù)所適用的統(tǒng)計方法。答:上述數(shù)據(jù)可采用列聯(lián)表與獨立性檢驗進行分析。如題中表格所示,行變量為“上市公司類型”,列變量為“是否關(guān)注”,這是一個2×2(2×3)列聯(lián)表。通過獨立性檢驗來證明兩個變量是否相關(guān)。假設(shè)::上市公司類型與其對股價波動是否關(guān)注無關(guān):上市公司類型與其對股價波動是否關(guān)注有關(guān)設(shè)RT是給定單元格(如第i行第j列的單元格)所在行的合計頻數(shù),CT是所在列的合計頻數(shù),n是上市公司數(shù)量200,根據(jù)以下公式:為任意打印格的期望頻數(shù),為第一個單元格的期望頻數(shù)以此類推,可得出如下期望頻數(shù)計算表(括號給出的為期望頻數(shù)):上市公司的類型關(guān)注不關(guān)注合計主板企業(yè)50(66)70(54)120中小板企業(yè)35(27.5)15(22.5)50創(chuàng)業(yè)板企業(yè)25(16.5)5(13.5)30合計11090200根據(jù)獨立性檢驗的統(tǒng)計量(為觀察頻數(shù),為期望頻數(shù),該統(tǒng)計量服從自由度為(r-1)(c-1)的分布,r為行數(shù),c為列數(shù)),得出:自由度為2。Excel中使用【CHIDIST】函數(shù)CHIDIST(22.9,2)計算的右尾概率為0.0000106,小于0.05,拒絕原假設(shè),表明
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 供貨合同買賣合同范本
- 礦資源贈送合同范本
- 2025年多翼式鼓風機項目合作計劃書
- 單位長期包車合同范本
- 寫轉(zhuǎn)賬合同范本
- 買賣介紹居間合同范本
- 2025年單相電能表項目建議書
- 農(nóng)村基建安全施工合同范本
- 個體企業(yè)轉(zhuǎn)讓合同范本
- 模具加工報價合同范本
- 2024年10月自考00149國際貿(mào)易理論與實務試題及答案
- 2024年下半年教師資格考試《中學教育知識與能力》真題及答案解析
- 物業(yè)保潔常用藥劑MSDS
- 《跨文化溝通》課件
- (一模)長春市2025屆高三質(zhì)量監(jiān)測(一)數(shù)學試卷
- 2024-2025學年湖北省武漢市華中師大一附中高三上學期10月檢測英語試題及答案
- DB11T 1607-2018 建筑物通信基站基礎(chǔ)設(shè)施設(shè)計規(guī)范
- 化工生產(chǎn)設(shè)備安全檢查表
- 2024-2025學年小學信息技術(shù)(信息科技)第六冊電子工業(yè)版(2022)教學設(shè)計合集
- 干部考察談話記錄范文
- 面館合作伙伴合同協(xié)議書
評論
0/150
提交評論