人大統(tǒng)計學(xué)考研歷年真題(03-09)參考答案_第1頁
人大統(tǒng)計學(xué)考研歷年真題(03-09)參考答案_第2頁
人大統(tǒng)計學(xué)考研歷年真題(03-09)參考答案_第3頁
人大統(tǒng)計學(xué)考研歷年真題(03-09)參考答案_第4頁
人大統(tǒng)計學(xué)考研歷年真題(03-09)參考答案_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、統(tǒng)計之都 COSCapital Of Statistics 人大統(tǒng)計學(xué)考研歷年真題參考解答精華版(03-09)2009年人大統(tǒng)計學(xué)專業(yè)課初試題參考解答一、設(shè)第一、二個總體均值分別為與,樣本均值分別為與,樣本方差分別為與。1.構(gòu)造原假設(shè)和備擇假設(shè)2.構(gòu)造統(tǒng)計量。由于兩總體方差相等,且均為正態(tài)總體,則可以構(gòu)造如下檢驗統(tǒng)計量:其中則3.計算臨界值。給定顯著性水平,如,計算臨界值,由于50>30,則。4.做出決策。由于,故拒絕原假設(shè),即認(rèn)為。二、1.對于回歸模型,的最小二乘估計為:。現(xiàn)在來看它的期望從上面可以看出,要使為無偏估計,則必須滿足,所以只有當(dāng)時,才為有偏估計。2.使的原因: 遺漏了關(guān)鍵

2、自變量,即全模型正確時,而我們誤用了選模型。用選模型建模時,使得誤差項中含有遺漏自變量的信息,從而期望不為零。證明過程如下證明:假設(shè)正確模型為,令,。而我們選用了模型來估計,得到,則從上式可以看出是的有偏估計。加入了無關(guān)緊要的自變量,即選模型正確,而我們誤用了全模型,這樣會過度提取誤差項信息,使得估計量有偏。證明過程和上式差不多。這里省略。3.解決辦法:在選擇自變量時,對因變量有重要影響的自變量盡量考慮全面,但自變量又不是越多越好,應(yīng)該去掉那些對因變量沒有影響或者影響很小的自變量。具體實施辦法有前進(jìn)法、后退法、逐步回歸法等。三、是平穩(wěn)過程,證明如下 即協(xié)方差函數(shù)只與有關(guān)。由平穩(wěn)過程的定義知,題

3、中所定義的過程為平穩(wěn)過程。四、1.先來估計各層總體的方差。在比例估計中定義則可得如下關(guān)于總體方差的式子 從上式我們可以估計出各層的方差(由于很大,故省略系數(shù)。)2.考慮樣本容量為600的簡單隨機抽樣的方差。在簡單隨機抽樣下總體比例的估計量為估計量方差的估計值為 3.考慮奈曼分配的情形。設(shè)抽取的樣本容量為,樣本量在各層的分配公式為代入數(shù)據(jù)得到則奈曼分配的估計量方差的估計為4.計算。要使奈曼分層抽樣與簡單隨機抽樣有相同估計量方差,則必須滿足即 解得 五、略。六、1.來看的性質(zhì)由上可看出,該模型違背古典線性回歸模型的方差一致性假設(shè),殘差存在異方差性。2.加權(quán)最小二乘法。當(dāng)殘差存在異方差時,如果還是用

4、最小二乘法估計參數(shù),會帶來嚴(yán)重的后果,如下參數(shù)估計值雖是無偏的,但不是最小方差線性無偏估計;參數(shù)的顯著性檢驗失效;回歸方差的應(yīng)用效果極不理想。鑒于此,我們必須尋求適當(dāng)?shù)姆椒▽υ瓉淼墓烙嫹椒ㄟM(jìn)行變換,使變換后的估計方法滿足同方差性假設(shè)。由于異方差性導(dǎo)致離差平方和中的各項的比重不一樣,地位不平等,導(dǎo)致使用普通最小二乘法時,回歸線就被拉向方差大的項。而在此題中,殘差系列與自變量觀測值的平方成正比,即因此當(dāng)我們在平方和各項前面加入一個權(quán)重時,各項的地位就平等了。從而克服了普通最小二乘法的弊端,這就是加權(quán)最小二乘法。它實施起來簡單,原理清晰,是解決本題最好的方法。 七、1.數(shù)據(jù)分析。在本題中有三個影響因

5、素:時間、活動空間、安眠藥。因變量是老鼠的活動狀態(tài),可以把它看成數(shù)值型變量。要研究的是時間、活動空間、安眠藥對老鼠活動狀態(tài)是否有顯著的影響。我的分析思路是:首先,我把數(shù)據(jù)列成如下的表格吃藥后立即記錄的數(shù)據(jù)吃藥不吃藥關(guān)在一起分開喂養(yǎng)吃藥后一小時記錄的數(shù)據(jù)吃藥不吃藥關(guān)在一起分開喂養(yǎng)吃藥后兩小時記錄的數(shù)據(jù)吃藥不吃藥關(guān)在一起分開喂養(yǎng)其中表示老鼠的編號,每個組有10只老鼠。代表時間。其次,對每個表格的數(shù)據(jù)進(jìn)行有交互作用的方差分析,通過分析得到活動空間、安眠藥是否對老鼠活動狀態(tài)有顯著的影響,也可得到它們的交互作用是否對老鼠活動狀態(tài)有顯著的影響。通過在三個觀測時間上各自的分析,最后得到安眠藥在那個時間點上的

6、效果最好。2.分析步驟。(和第八題的步驟差不多,這里就不寫了。)注:上述問題屬于有重復(fù)測量的方差分析問題,它與一般方差分析的不同之處在于它的時間觀測值數(shù)據(jù)之間不是獨立的、是相關(guān)的。這里將時間分開來處理,似乎有所不妥,特此說明,僅供參考。八、1.本題中職稱和性別都是屬性變量,滿意度是數(shù)值型變量,要研究屬性變量對數(shù)值型的影響,很自然會想到用方差分析方法,而本題中我們用無交互作用的雙因素方差分析方法。問題提出:在分析一個屬性變量對一個數(shù)值型變量的影響時,我們把屬性變量的各個水平各看成一個總體,然后比較這幾個總體的均值,看它們是否有顯著的差異,如果有顯著的差異,則說明在各個水平下得到的數(shù)據(jù)之間是有差異

7、的,即認(rèn)為屬性變量對數(shù)值型變量有顯著影響。在本題中,比如我們要研究性別對滿意度有無顯著影響,我們的思路是把男、女兩個水平各看成一個總體,然后根據(jù)數(shù)據(jù)設(shè)計一種方法檢驗它們的均值有無顯著的差異,如果沒有差異,那么我們認(rèn)為兩總體間的數(shù)據(jù)沒有什么區(qū)別,即滿意度差異不大,也即性別對滿意度沒有影響?;舅枷耄涸诜讲罘治鲋形覀兗俣ㄒ蛩氐母鱾€水平服從方差相等正態(tài)分布,這樣在每個總體下抽取樣本,由于抽樣的隨機性,會導(dǎo)致數(shù)據(jù)的不同,且各水平之間數(shù)據(jù)也會不同,我們現(xiàn)在要研究的各水平數(shù)據(jù)的差異性能完全由抽樣的隨機性解釋嗎?如果可以,我們認(rèn)為個水平均值沒有差異;否則,就有差異。具體的做法是,我們引進(jìn)組內(nèi)誤差和組間誤差兩

8、個概念,它們分別用組內(nèi)平方和與組間平方和詮釋。如果組間平方和與組內(nèi)平方和經(jīng)過平均后的數(shù)值相接近,則說明數(shù)據(jù)間的差異是由抽樣的隨機性引起的,不存在系統(tǒng)性差異,即屬性變量對數(shù)值型變量沒有影響。分析步驟a.提出假設(shè)b.構(gòu)造檢驗的統(tǒng)計量總誤差平方和 行因素誤差平方和,均方誤差 列因素誤差平方和,均方誤差 剩余因素誤差平方和,均方誤差 F統(tǒng)計量 c.統(tǒng)計決策。給定顯著性水平,如果,則拒絕原假設(shè),說明行因素對觀測值有顯著的影響;如果,則拒絕原假設(shè),說明列因素對觀測值有顯著的影響。2.假定:各個水平對應(yīng)的總體都服從正態(tài)分布; 各個總體的方差相同; 各觀測值是獨立的; 性別和職稱對滿意度的影響是獨立的,即它們

9、之間沒有交互作用。2008年人大統(tǒng)計學(xué)專業(yè)課初試題參考解答一、用中位數(shù)來描述家庭收入數(shù)據(jù)的集中趨勢有優(yōu)點亦有不足。 1.中位數(shù)是指一組數(shù)據(jù)排序后處于中間位置的變量值,不受極端值影響,對偏斜程度較大的順序或數(shù)值型數(shù)據(jù)代表性較好,所以它能夠排除過高收入或過低收入帶來的不良影響。 2.作為描述數(shù)據(jù)集中趨勢的指標(biāo),中位數(shù)的應(yīng)用遠(yuǎn)不及平均值廣泛,中位數(shù)只是一組數(shù)據(jù)中的一個值,因而對整個香港家庭收入信息有較大浪費;而平均值能包含所有收入信息,而且具有優(yōu)良的數(shù)學(xué)性質(zhì),不過它易受極端值的影響,主要適用于測度偏斜度不大的數(shù)據(jù)。 3.用中位數(shù)作為判別低收入的指標(biāo),那么低收入的比例一直都是50%,這顯然與“比例在增

10、長”相矛盾。二、方差分析表面上是檢驗多總體均值是否相等,本質(zhì)上是研究變量間的關(guān)系,即通過各總體均值是否相等來判斷分類型自變量對數(shù)值型因變量是否有顯著影響,其中需要分析數(shù)據(jù)變異的來源,所以叫做方差分析。觀察到的數(shù)據(jù)一般是參差不齊的,我們用SST(總平方和)度量數(shù)據(jù)總的變異,將它分解為可追溯到來源的部分變異SSE(組內(nèi)平方和)與SSA(組間平方和)之和,若后者的平均MSA(組間均方)明顯比前者的平均MSE(組內(nèi)均方)大,就認(rèn)為自變量對因變量有顯著影響。在方差分析的基本假定下,上述問題形式上就轉(zhuǎn)化為檢驗各總體均值是否相等的問題。所謂基本假定就是,各總體服從正態(tài)分布;各總體方差相同;各觀測值相互獨立。

11、三、有多種預(yù)測模型可供選擇:1.時間序列分解模型 加法模型:;乘法模型:;混合模型:,。其中為時刻的序列值,分別表示趨勢、季節(jié)性、隨機波動,下同。2.季節(jié)多元回歸模型 其中為0-1虛擬變量。3. ARIMA(p,q,d,T)模型(求和自回歸移動平均模型) 符號說明 a. 為一階延遲算子();b. 為自回歸系數(shù)多項式;c. 為移動平均系數(shù)多項式;d. 為階差分算子,用于消除趨勢成分;e. 為步長為周期的步差分算子,用于消除季節(jié)成分。四、(1)廠家從自身利益出發(fā),當(dāng)然希望每袋平均重量,這樣有利于提高產(chǎn)品銷量,于是可以把放在“被保護(hù)”的位置,而原假設(shè)正具有“被保護(hù)”的特性,于是可提出如下檢驗假設(shè):

12、(2)從消費者利益出發(fā),我們擔(dān)心每袋平均重量,如果要我們相信,那么廠家就得拿出充分的證據(jù)來證明,所以應(yīng)放在“不利”的位置,即放在備擇假設(shè)中,于是有: (3)在的顯著性水平和(2)中的檢驗假設(shè)下,意味著是顯著不成立的,即拒絕原假設(shè),我們可以相信廠家所言。 值的含義是當(dāng)原假設(shè)為真時,檢驗統(tǒng)計量取其實現(xiàn)值以及更極端值的概率,它是檢驗的真實顯著性水平。 (4)這里的區(qū)間(241.1,257.5)是一個確定的區(qū)間,而食品的實際平均重量要么在其中,要么不在其中,無概率可言。該區(qū)間是95%的隨機置信區(qū)間的一個實現(xiàn),后者的意思是食品的實際平均重量以95%的概率落入其中。五、經(jīng)典多元線性回歸模型為 其中是維隨機

13、向量,是設(shè)計矩陣,是維系數(shù)向量,是維隨機誤差向量。 關(guān)于自變量的假設(shè)主要有:1.自變量都是確定性變量?;貧w分析中的自變量與因變量地位是不等的,其中后者是隨機的,這與相關(guān)分析二者都是隨機的不同。從而自變量與隨機誤差(以及因變量)也就不相關(guān),保證了回歸分析理論的順利進(jìn)行。2.自變量不存在多重共線性。這就要求設(shè)計矩陣列滿秩,進(jìn)而觀測次數(shù)(樣本量)必須大于自變量個數(shù)。該假設(shè)保證了的普通最小二乘估計可表示為 并且具有良好的數(shù)學(xué)性質(zhì),更方便了進(jìn)一步的假設(shè)檢驗和回歸分析的實際操作與應(yīng)用。否則出現(xiàn)多重共線性,就會帶來上述諸多方面的麻煩。六、常見的(概率)抽樣方式有簡單隨機抽樣、分層抽樣、整群抽樣、多階段抽樣和

14、系統(tǒng)抽樣,其中簡單隨機抽樣是最基本的,是其他抽樣方式的基礎(chǔ)。所謂基本抽樣方式,我覺得以不同的標(biāo)準(zhǔn)或不同的思維角度會得出不同的分類方式,比如: 1.如果將整群抽樣(通常指一階)看作特殊的二階段抽樣(二階段抽樣比100%),則有四種基本抽樣方式。 2.如果又將分層抽樣視為特殊的二階段抽樣(一階段抽樣比100%),則有三種基本抽樣方式。 3.如果將系統(tǒng)抽樣看作特殊的分層抽樣(每層抽一個單元)或者特殊的整群抽樣(只抽一個群),則有四種基本抽樣方式。七、貝葉斯判別分析的原理是將貝葉斯統(tǒng)計思想用于判別分析。具體說來,設(shè)有個總體,分別有密度函數(shù)(一般假定總體都服從正態(tài)分布,協(xié)方差陣都相等,各均值有顯著差異)

15、,已知出現(xiàn)這個總體的先驗概率為。我們希望給出一種判別法,也就是給出空間的一種劃分:,當(dāng)落入時,將其判給,使得在該判別法下所帶來的平均損失達(dá)到最小。其中為樣品來自而被判給的錯判損失,為錯判概率。(1)與聚類分析數(shù)據(jù)都是未知類別的相比,貝葉斯判別分析的數(shù)據(jù)結(jié)構(gòu)中有一部分?jǐn)?shù)據(jù)是已知類別的,還有一部分屬于待判別歸類的未知類別的。(2)貝葉斯判別法最終是將樣品判給平均損失最小的總體。而其他判別法,比如距離判別法是將樣品判給相距最小的總體;逐步判別法是先選擇最優(yōu)判別變量,再結(jié)合其它判別法進(jìn)行判別等等。八、(1)建造大壩是一項復(fù)雜的工程,要綜合水利、建筑、地質(zhì)、數(shù)學(xué)、統(tǒng)計等多學(xué)科的知識,要考慮方方面面的因素

16、。就其中壩高設(shè)計這一點來說,要考慮的主要因素我認(rèn)為有河流寬度與兩岸高度、周圍地質(zhì)構(gòu)造、河水各季度平均流量、地域旱澇特征,還有建壩的預(yù)估資金和時間等等。 (2)具體步驟如下: 制定計算壩高的詳細(xì)計劃;確定影響壩高的主要指標(biāo);充分收集整理指標(biāo)數(shù)據(jù);綜合利用各學(xué)科知識建立壩高數(shù)學(xué)模型;檢驗優(yōu)化模型;利用模型計算壩高估計值,給出置信度和置信區(qū)間。流程圖如下:2007年人大統(tǒng)計學(xué)專業(yè)課初試題參考解答一、(1)需假定總體是正態(tài)總體。 不能用數(shù)據(jù)證明。數(shù)據(jù)至多只能檢驗該數(shù)據(jù)的分布是否接近正態(tài)分布,而不能從理論上證明或肯定它一定就來自正態(tài)分布總體,即正態(tài)性檢驗不能提供不拒絕正態(tài)性原假設(shè)的結(jié)論。不是。該區(qū)間是確

17、定的區(qū)間,要么覆蓋真實總體均值,要么不覆蓋,沒有概率可言。它是置信度為95%的隨機置信區(qū)間的一個樣本實現(xiàn),后者才是以95%的概率覆蓋真實總體均值。 (2)需假定:總體服從正態(tài)分布;總體方差未知;樣本量較?。ㄒ话?0)。 不能?!敖邮芰慵僭O(shè)”的說法是不妥的,否則就得負(fù)責(zé)任的給出犯第二類錯誤的概率,而該檢驗的備選假設(shè)是“總體均值>4.8克”,據(jù)此是無法算出此概率的。所以只能說,在顯著水平為0.05時利用該數(shù)據(jù)進(jìn)行檢驗不足以拒絕零假設(shè),不拒絕不等同于接受。二、(1)不是。因為只有員工看到并愿意答復(fù)電子郵件時才有機會進(jìn)入樣本,所以每個員工入樣的概率并不一樣,這其實是一種非概率抽樣。 (2)不對。

18、不說實話只是產(chǎn)生響應(yīng)誤差的原因之一,而被調(diào)查者與調(diào)查者兩方面的因素,都有可能導(dǎo)致響應(yīng)誤差。調(diào)查者不當(dāng)?shù)囊龑?dǎo)或者問卷設(shè)計不科學(xué)或者被調(diào)查者知識的局限性,都可能使被調(diào)查者對要回答的問題的理解產(chǎn)生偏差,這時候即使他(她)說了“實話”,也會產(chǎn)生響應(yīng)誤差,因為這不是我們想要的“實話”。另外,拒絕回答也是一種重要原因。隨機誤差是不可以避免的,因為它是由抽樣的隨機性造成的,是客觀的。 (3)整體來說是不獨立的。因為同一個網(wǎng)絡(luò)公司員工加班時間一般是不獨立的,而不同網(wǎng)絡(luò)公司員工加班時間一般是獨立的。三、(1)令自駕車上班人數(shù)比例為,由于不能輕易否定原結(jié)論,則檢驗假設(shè)為: (2)令樣本量為,其中駕車上班人數(shù)為,假

19、定服從二項分布,的樣本值為,則檢驗統(tǒng)計量。 假定:大樣本();每人駕車上班與否相互獨立且服從同參數(shù)0-1分布。 (3)統(tǒng)計上顯著并不意味著實際上顯著,要具體問題具體分析。比如,某箱牛奶經(jīng)統(tǒng)計檢驗,含三聚氰胺的概率顯著低于5%,但人們未必敢要這箱牛奶;統(tǒng)計上0.1與0.01有顯著差異的時候,實際中未必有多大意義。不過統(tǒng)計顯著與實際顯著很多時候是一致的。四、不負(fù)責(zé)。一個負(fù)責(zé)任的調(diào)查報告應(yīng)該給出較詳盡的內(nèi)容,主要如下:主題; 調(diào)查時間與地點; 調(diào)查主題、客體、對象; 數(shù)據(jù)搜集方法、抽樣框、抽樣單元、樣本量、抽樣方法、估計方法;結(jié)論描述; 精度、質(zhì)量評估; 責(zé)任; 參考文獻(xiàn)。五、無道理。如果進(jìn)行第二次

20、主成分分析,那么它處理的變量是第一次主成分分析得到的互不相關(guān)的主成分,這樣得到的“新”的主成分其實跟第一次得到的主成分是完全一樣的,這可以通過矩陣運算進(jìn)行驗證,所以做的是無用功。變量之間相關(guān)系數(shù)多數(shù)較?。ㄒ话阒?lt;0.3)的數(shù)據(jù)不宜進(jìn)行主成分分析。不總是適用。要具體問題具體分析,不能拘泥于某些固有的準(zhǔn)則,有時候還要根據(jù)問題的實際意義或?qū)I(yè)理論知識來分析。六、不一定。只有當(dāng)所有對因變量產(chǎn)生影響的自變量都考慮進(jìn)來了而且不存在自相關(guān)、異方差等情況時,才是隨機誤差。不需要。如果要研究最小二乘估計量性質(zhì)的話,就得假定滿足Guass-Markov條件;若還要進(jìn)行回歸系數(shù)區(qū)間估計和有關(guān)假設(shè)檢驗,則要進(jìn)一

21、步假定。七、(1)需要選擇度量樣品或指標(biāo)相似性的統(tǒng)計量,通常是距離(歐式距離、馬氏距離等)或相似系數(shù)(夾角余弦、相關(guān)系數(shù)等)。然后還要定義樣品間、類與類間的距離或相似系數(shù)。 (2)計算n個樣品兩兩間的距離;構(gòu)造n個類,每個類只包含1個樣品;合并距離最近的兩類為1新類;計算新類與其它類之間的距離;判斷類的個數(shù)是否為1,是則進(jìn)入第步,否則返回第步;畫譜系聚類圖;決定分類個數(shù)和各類成員。 (3)把樣品粗略分成K類;以上述K類的均值為種子,按照到它們距離的遠(yuǎn)近把所有點分成新的K類;反復(fù)進(jìn)行第步,直至收斂,得到最終的K類。八、(1)可能是前進(jìn)法或逐步回歸法。由表可知,選元進(jìn)行了兩步,第一步選了自變量Be

22、ginning Salary,第二步增加了另一自變量Employment Category。前進(jìn)法顯然解釋得通。至于逐步回歸法,因為只進(jìn)行了兩步,而它的第二步不考慮剔除,故可以得到與前進(jìn)法完全一樣的結(jié)果。 (2)就是通常所說的值,其計算公式為 這里的是原假設(shè)成立時服從分布的檢驗統(tǒng)計量,是的樣本值,即表中的1622.118和997.312。 的意義就是,原假設(shè)為真時,統(tǒng)計量取其樣本實現(xiàn)值以及更極端值的概率,是檢驗的真實顯著性水平。 (3)假定:;原假設(shè)成立。 證明:可知。 由數(shù)理統(tǒng)計知識,在假定成立時,有 在假定成立時,有 且與是相互獨立的,故 證畢。2006年人大統(tǒng)計學(xué)專業(yè)課初試題參考解答一、

23、(1)圖略。 (2)第二種排隊方式平均等待時間 其中為第一種排隊方式平均等待時間。 第二種排隊方式的方差 其中為第一種排隊方式的方差。 可知第二種排隊方式比第一種排隊方式離散程度小。 (3)我會選擇第二種排隊方式。以為它的平均等待時間較短,等待時間也較穩(wěn)定。二、(1)樣本量為50,可認(rèn)為是大樣本,由中心極限定理知 其中為樣本均值,為總體均值,為樣本標(biāo)準(zhǔn)差。 由 得到95%的置信區(qū)間代入樣本數(shù)據(jù)計算得 所求置信區(qū)間為 即 (2)由表可知樣品中超過的食品包數(shù)占大多數(shù),廠家的觀點似乎有一定的可信度,故令檢驗假設(shè)為 (3)P值是當(dāng)原假設(shè)為真時,得到所觀測結(jié)果或更極端結(jié)果的概率,是檢驗的真實顯著性水平,

24、可利用P值直接決策或?qū)值與顯著性水平進(jìn)行比較,不需要查表,具有可比性;統(tǒng)計量檢驗是先確定一個顯著性水平從而獲得一個否定域,進(jìn)行決策的界限清晰但面臨的風(fēng)險是籠統(tǒng)的,確定臨界值要查表,檢驗統(tǒng)計量一般與自由度有關(guān)因而可比性較差。三、(1)這是無交互作用雙因素方差分析問題,由行、列自由度可知行因素是供應(yīng)商,列因素是車速。 列的F檢驗值97.68>F臨界值8.65,P值0.000002<<顯著性水平=0.01,故拒絕原假設(shè),即認(rèn)為車速對磨損程度有顯著影響。 (2)同(1)之理,可知不同供應(yīng)商的輪胎之間的磨損程度有顯著差異。 (3)假設(shè):車速與供應(yīng)商對輪胎的磨損程度無交互作用;車速與供

25、應(yīng)商不同水平組合形成的總體都是正態(tài)總體;上述總體方差都相同;各觀測數(shù)據(jù)相互獨立;行因素原假設(shè);列因素原假設(shè)。四、簡單隨機抽樣是從單元數(shù)為N的總體中逐個不放回等概率抽取n個單元或者一次性隨機抽出n個單元,得到簡單隨機樣本。它是最簡單的概率抽樣方法。適用于總體總量較小或總體方差與任意局部方差基本相當(dāng)?shù)膱龊稀H绻傮w總量較大或總體各單元差異較大,就不宜單獨使用,因為此時擁有完整的抽樣框是困難的,抽樣單元也比較分散,會增加調(diào)查費用,而且會使總體目標(biāo)量的估計產(chǎn)生較大誤差。所以一般是與其他方法結(jié)合使用,比如分層抽樣各層內(nèi)科采用簡單隨機抽樣,整群抽樣抽取群、多階段抽樣各階的抽樣也都可采用它。五、回歸模型:。

26、 假設(shè):解釋變量為非隨機變量;解釋變量不存在多重共線性(即要求設(shè)計矩陣列滿秩,樣本量大于自變量個數(shù)); Guass-Markov假定:;正態(tài)假定:。假設(shè)不成立之應(yīng)對:假設(shè)是回歸分析基本要求,否則就不是回歸分析;假設(shè)若不滿足,就是多重共線性現(xiàn)象。有多種克服方法,比如剔除不重要自變量,增大樣本量,對回歸系數(shù)進(jìn)行有偏估計(主成分法、嶺回歸法、偏最小二乘法等)等等。假設(shè)若不滿足,隨機誤差有可能出現(xiàn)異方差現(xiàn)象或自相關(guān)現(xiàn)象。若是前者,可通過加權(quán)最小二乘法、Box-Cox變換法、方差穩(wěn)定性變換等方法來克服;若是后者,可通過修改模型、增加自變量、迭代法等方法來克服。假設(shè)若不滿足,則無法進(jìn)行參數(shù)區(qū)間估計和假設(shè)檢

27、驗??梢灾匦掠^測數(shù)據(jù)或?qū)?shù)據(jù)進(jìn)行正態(tài)性變換。六、意義:該模型表示原始變量被表示為公共因子和特殊因子的線性組合,展現(xiàn)了原始變量與公共因子之間的相關(guān)關(guān)系,多數(shù)的原始變量(個)被綜合少數(shù)的新變量(個,)公共因子,起到了降維的效果,簡化了問題的復(fù)雜性又抓住了問題的主要矛盾。假設(shè):a.是可觀測的隨機向量,;b.是不可觀測的隨機向量,;c. ,;d. 。七、(1)若不考慮國外部門的影響,GDP被分配于政府、企業(yè)、居民三個部門。(可以對原始收入形成、初次分配、再分配過程進(jìn)行一定的闡述) (2)略。八、(1)參看高敏雪,李靜萍.經(jīng)濟社會統(tǒng)計M.北京:中國人民大學(xué)出版社, 2003之P75-P76財務(wù)統(tǒng)計分析,

28、P78經(jīng)濟效益考核體系。 (2)略。2005年人大統(tǒng)計學(xué)專業(yè)課初試題參考解答一、(1)圖略。 (2)圖略。 (3)由莖葉圖和箱線圖知,上網(wǎng)者年齡主要集中在20-30歲之間,離散程度較小,呈右偏分布。二、若采用兩兩配對的方式檢驗,會增加犯第一類錯誤的概率(設(shè)檢驗水平為,連續(xù)作3次兩兩檢驗犯第一類錯誤的概率為),另外隨著檢驗次數(shù)的增多,偶然因素導(dǎo)致差別的可能性也會增加;而方差分析是同時考慮所有樣本,因而排除了錯誤的累積,減少了偶然因素的不利影響,也簡化了檢驗過程。三、(1)樣本量為36,可視為大樣本,考慮如下95%的置信區(qū)間 代入,得 (2)不一定。因為區(qū)間是一個確定的區(qū)間,餐館實際月平均用水量要

29、么在其中,要么不在其中,兩者只有其一。區(qū)間其實是區(qū)間的一個樣本實現(xiàn),區(qū)間是一個隨機區(qū)間,它有95%的可能性包含餐館實際月平均用水量。 (3)餐館管理協(xié)會估計的月平均用水量=100噸是不能輕易否定的,應(yīng)處于被“保護(hù)”位置,則檢驗假設(shè)為 若拒絕原假設(shè),也就是發(fā)生了小概率事件,那么我們有充分的理由支持備擇假設(shè);若不拒絕原假設(shè),并不意味著它就一定正確,只是現(xiàn)有證據(jù)不足以拒絕它而已。 (4)用到了中心極限定理。它說的是獨立同分布隨機變量之和的極限分布是正態(tài)分布,揭示了正態(tài)分布的源泉和重要地位,是參數(shù)區(qū)間估計和假設(shè)檢驗的理論基礎(chǔ)。四、(1)線性回歸方程為 其中第個回歸系數(shù)的意義是,在其它自變量保持不變時,

30、每變動一個單位,就平均變動個單位。 (2)由值=0.00<知,回歸方程的線性關(guān)系是顯著的。 (3)第1,2,3個回歸系數(shù)顯著性檢驗值分別是0.0271<,0.0083<,0.3607< 故第1,2個回歸系數(shù)顯著,第3個回歸系數(shù)不顯著。 (4)多重判定系數(shù) 它反映了因變量變異中能用自變量解釋的比例,描述了回歸直線擬合樣本觀測值的優(yōu)劣程度。此處,表明回歸擬合效果很好。 (5)估計標(biāo)準(zhǔn)誤差 是的標(biāo)準(zhǔn)差的股價,反映了(房地產(chǎn)銷售價格)的波動程度。 (6)有用。雖然該變量的系數(shù)沒通過顯著性檢驗,但并不意味著該變量沒用,它在經(jīng)濟解釋上可能還是有一定意義的,方程總體顯著,說明方程包含

31、該變量總體上是有用的。也可能是多重共線性造成了不顯著。五、(1)圖略。 (2)按照分層的觀點,劃分子總體應(yīng)該是兩個子總體之間的差異盡量大,而子總體內(nèi)部的差異盡量小,故劃分方式為:第一個子總體為,第二個子總體為。但如果要進(jìn)行精度的計算,不能出現(xiàn)一個總體只含有一個單元的情況,故為了計算精度,下面的劃分方式也是可以接受的:第一個子總體為,第二個子總體為。此外也可以應(yīng)用多元統(tǒng)計中的系統(tǒng)聚類法形成兩個子總體:第一個子總體為,第二個子總體為。 (3)上述數(shù)據(jù)出現(xiàn)了離群值,它是調(diào)查數(shù)據(jù)里的極端值,會于其它數(shù)據(jù)明顯不一致。其起因一般有三個: 被調(diào)查者回答有誤;調(diào)查者記錄有誤;數(shù)據(jù)本身的差異。當(dāng)總體呈偏態(tài)分布時

32、,這種情況就可能發(fā)生。例如數(shù)據(jù)是不同公司的市場份額,那么少數(shù)公司占整個銷售額的絕大部分,其余公司占小部分的情況是很普遍的。但是,題目強調(diào)了給定的數(shù)據(jù)是總體的全部真實數(shù)據(jù),那么第、種情況是不存在的,所以應(yīng)該是第種情況。 (4)總體均值 總體方差 (5)在本例應(yīng)用的四種方法:簡單隨機抽樣的不足之處在于估計精度略低。分層抽樣的不足之處在于如果按照最優(yōu)的層內(nèi)差距盡量小、層間差距盡量大的原則(2)之)分層會導(dǎo)致精度無法估計,故只能選擇次優(yōu)分層方法(2)之)。整群抽樣的不足之處在于無法通過分群使群間差異盡量小,因為在任何一個群中都會使該群與其它群差異較大。此外整群抽樣的估計精度一般也比簡單隨機抽樣低;系統(tǒng)

33、抽樣的不足之處在于估計量方差的估計相對困難。綜上所述,盡管各種抽樣方式各有不足之處,但是結(jié)合下面一道問題,我認(rèn)為簡單隨機抽樣、分層隨機抽樣和系統(tǒng)抽樣的不足之處都可以接受,但是整群抽樣的不足之處相對顯著,而且整群抽樣在下面一道題里計算也非常困難,所以整群抽樣最不合適。 (6)簡單隨機抽樣 可能的樣本:; 樣本均值:; 樣本方差:。分層隨機抽樣 分層方式為(2)之。 可能樣本:; 樣本均值:; 樣本方差:。系統(tǒng)抽樣 抽樣方式為環(huán)形等距抽樣()??赡軜颖緸椋?樣本均值:; 樣本方差: (7)簡單隨機抽樣。 分層隨機抽樣。 系統(tǒng)抽樣。 分層隨機抽樣和系統(tǒng)抽樣的設(shè)計效應(yīng)均小于1,說明這兩種方式在此情景下

34、的抽樣效率要高于簡單隨機抽樣。此外,說明分層隨機抽樣的效率高于系統(tǒng)抽樣。由于遠(yuǎn)小于1,說明此情形下分層隨機抽樣的效率遠(yuǎn)高于簡單隨機抽樣。而接近于1,說明系統(tǒng)抽樣的效率接近于簡單隨機抽樣。六、聯(lián)系:形式接近。,;確定方式接近?;貧w估計中若未知,則。 區(qū)別:目的不同?;貧w方法揭示因變量和自變量的線性依賴關(guān)系,即因變量變化引起的自變量變化。抽樣里則是利用輔助變量X來提高對Y的估計精度。七、生產(chǎn)過程提供了用于分配的增加值。分配在生產(chǎn)的基礎(chǔ)上對增加值進(jìn)行分配。使用在分配基礎(chǔ)上進(jìn)行消費和儲蓄。八、(1)A地貧困者比重20% 。B地貧困者比重10%。A地貧困深度。 B地貧困深度。(2)A地貧困者人數(shù)比B地多

35、,但是由貧困深度反映出A的貧困人員在整體收入水平上比B地更接近貧困線。(3)不能,貧困者比重僅能反映人數(shù),不能反映貧困程度;貧困深度反映了一定的貧困程度,但是受貧困情況分布影響較大,不能很好的反映當(dāng)貧困者的收入存在較大差異時的情況。此外僅靠收入狀況也不能客觀地反映貧困狀況。可以采用森貧困系數(shù),也可采用其他指標(biāo)作為補充,如文盲率、嬰兒死亡率等等。九、(1)40 ,-70 ,-30。 (2)交易中經(jīng)常賬戶和資本金融賬戶的盈余,進(jìn)入儲備資產(chǎn),也即儲備資產(chǎn)增加125億元。 (3)GDP+來自國外的生產(chǎn)要素凈額=GNP,即GDP+40=GNP。 GNP+來自國外的轉(zhuǎn)移凈收入=國民可支配收入,即GNP-6

36、5=國民可支配收入。 (4)該國在貨物和服務(wù)以及財產(chǎn)收入方面有較大的順差,儲備資產(chǎn)增加,多余資金流出到國外各地投資,取得大量的財產(chǎn)收入,是發(fā)達(dá)國家的典型表現(xiàn)。2004年人大統(tǒng)計學(xué)專業(yè)課初試題參考解答1.(1)圖略。(2)分三方面比較:集中趨勢(平均數(shù)、中位數(shù)、眾數(shù)),離散程度(標(biāo)準(zhǔn)差、方差、極差),分布形態(tài)(峰度、偏斜度)。(3)可畫散點圖直觀判斷;也可計算與均值的絕對距離,看是否偏大。(4)可畫畫直方圖、Q-Q或P-P圖;也可計算峰度與偏斜度。2(1)420,2,1.48;27,142;4256。 (2)因為,所以不能拒絕均值相等的原假設(shè),即認(rèn)為三種方法組裝的產(chǎn)品數(shù)量之間無顯著性差異。 (3

37、)假定:三種方法對應(yīng)的總體服從正態(tài)分布;各總體方差相同;各觀測值相互獨立;個工人水平相當(dāng)。 (4)前提:方差分析得出總體均值不全相等的結(jié)論; 作用:進(jìn)一步分析到底是哪些均值之間不相等,是通過總體均值之間兩兩配對比較來進(jìn)行檢驗的。3(1)從袋中任取一球,觀察其顏色,定義隨機變量 就是該問題的總體,其分布為(2)樣本量。(3)若令表示第次取球的結(jié)果,則樣本為,拒絕域為 (4)犯第一類錯誤的概率 4. 以單因素方差分析說明:由方差分析基本假定,有。令,有。令總均值,有(其中稱為第個水平的(主)效應(yīng),它表示每個自變量對因變量的單獨影響),得單因素方差分析模型舉例略。5.正態(tài)線性回歸模型為 最小二乘估計就是尋找,使得離差平方和 達(dá)到最小。 由上述模型知 似然函數(shù)就是隨機向量的聯(lián)合概率密度 最大似然估計就是尋找使得達(dá)到最大,由上式易知,這只需 達(dá)到最小,這與最小二乘估計殊途同歸。證畢。6-10略。2003年人大統(tǒng)計學(xué)專業(yè)課初試題參考解答一、 不能。GDP在進(jìn)行國家間比較的時候采用匯率法,匯率的變動會影響折算后的結(jié)果,不能客觀反映經(jīng)濟水

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論