版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
什么是統(tǒng)計資料?構(gòu)成統(tǒng)計資料的基本組成要素有哪些?如何收集統(tǒng)計資料?統(tǒng)計資料的誤差來源有哪些?1.1統(tǒng)計資料定義: 統(tǒng)計資料(Statisticaldata)是指可用以推導(dǎo)出某項(xiàng)結(jié)論的一些事實(shí)或數(shù)字基本構(gòu)成要
素元素(Element)變量(Variable)觀測(Observation)關(guān)于元素的一種屬性或特征研究對象由各元素組成資料中關(guān)于某一元素所有各變量的信息1.1統(tǒng)計資料變量(Variable)定量變量(Quantitativevariable) 結(jié)果可用數(shù)字表示定性變量(QualitativeVariable) 結(jié)果不可用數(shù)字表示
1.1統(tǒng)計資料姓名性別年齡身高(m)體重(kg)民族公司服務(wù)年限受教育年限甲男331.8565漢318乙女251.6555回216丙男261.7260滿115丁女351.6053回416戊男321.8368漢219表1-1員工個人資料表1.1統(tǒng)計資料F.W.Taylor的科學(xué)管理理論中的工作定額原理,用實(shí)驗(yàn)式的方法獲得工人合理的日工作量資料。氣象資料收集,商品價格的變化對商品需求量的影響。統(tǒng)計資料的收集間接引用直接收集實(shí)驗(yàn)式收集統(tǒng)計資料非實(shí)驗(yàn)式收集統(tǒng)計資料1.2統(tǒng)計資料的收集
直接收集統(tǒng)計資料,無論是實(shí)驗(yàn)式的還是非實(shí)驗(yàn)式的,都稱為統(tǒng)計調(diào)查。
工作方式直接觀察口頭詢問發(fā)調(diào)查表或問卷1.3統(tǒng)計調(diào)查調(diào)查表是直接獲得統(tǒng)計資料的主要工具,調(diào)查表設(shè)計的好壞將影響所獲資料的可用性與可信性。設(shè)計問卷調(diào)查表注意事項(xiàng)提問的種類安排好問題的次序試點(diǎn)調(diào)查等級評價量表的選擇1.3統(tǒng)計調(diào)查提問的種類選擇式自由式讓回答人在幾個事先指定的備選答案中選擇答案。若備選答案過多,或受提問措辭和語氣的影響,可能使被調(diào)查人做不出合乎本意的選擇
必須用自己的語言表達(dá)本人的意愿,但所填答案會多種多樣。常常只用于小規(guī)模的調(diào)查研究提問的種類1.3統(tǒng)計調(diào)查安排問題的次序應(yīng)注意的問題由客觀到主觀由熟悉到陌生相對容易的問題放在最后內(nèi)容相關(guān)的問題要排得相近開始有介紹性的語言第一個問題就切中主題1.3統(tǒng)計調(diào)查案例:一個電話訪問的引言和第一個問題你好,我是XX大學(xué)的訪問員。我們正在調(diào)查居住在學(xué)生公寓的人是否對生活條件感到滿意。你的名字是從住宿登記簿中隨機(jī)選取的,我們的調(diào)查只會占用您至多四分鐘的時間。您可以在任何時候打斷我。我現(xiàn)在可以開始訪問了嗎?第一個問題是關(guān)于您對學(xué)生公寓的總體感覺的。您認(rèn)為(讀選項(xiàng)):(1)確實(shí)滿意(2)大體滿意(3)大體不滿意(4)確實(shí)不滿意(5)(沉默)沒想法或者不知道/錯誤答案1.3統(tǒng)計調(diào)查試點(diǎn)調(diào)查試點(diǎn)調(diào)查當(dāng)一個調(diào)查表設(shè)計完畢后,常在一小范圍進(jìn)行試點(diǎn)調(diào)查可發(fā)現(xiàn)一些意料之外的問題,以便在大規(guī)模調(diào)查前改正應(yīng)盡量在真實(shí)的環(huán)境中進(jìn)行,同時也應(yīng)保持效度試點(diǎn)調(diào)查的時機(jī)試點(diǎn)調(diào)查的作用注意問題1.3統(tǒng)計調(diào)查等級評價量表的選擇利用等級評價量表,可以為受訪者在一個連續(xù)區(qū)間的一些點(diǎn)上或者一個類型序列上設(shè)定選項(xiàng),并且為每個級別賦一個量化值。根據(jù)實(shí)際調(diào)查的需要,有四種等級評價量表供選擇1.3統(tǒng)計調(diào)查等級評價量表要求受訪者按照等級順序回答數(shù)值之間具有差距,但不能指示比例關(guān)系類似定距型量表,能指示比例關(guān)系定序型定距型定比型被訪者屬于哪個組,就選擇哪個選項(xiàng)
類別型1.3統(tǒng)計調(diào)查李科特量表李科特量表是一種定距量表,它的基本形式是給出一組陳述,要求調(diào)查對象表明他是“強(qiáng)烈贊同”,“贊同”,“反對”,“強(qiáng)烈反對”或“未決定”。最后把各個陳述的分?jǐn)?shù)相加就可以得到總分。答案反對強(qiáng)烈反對未決定贊同答案賦值分?jǐn)?shù)加總1.3統(tǒng)計調(diào)查統(tǒng)計資料整理的目的
調(diào)查收集到的原始統(tǒng)計資料常常是大量的。它必須經(jīng)過加工整理,如分類歸并匯總,按時間前后或按數(shù)值大小重新排列等,才容易發(fā)現(xiàn)數(shù)據(jù)的規(guī)律性,并便于做進(jìn)一步的統(tǒng)計分析。加工整理,歸并匯總,重新排列調(diào)查得到的原始統(tǒng)計資料發(fā)現(xiàn)數(shù)據(jù)的規(guī)律性,作進(jìn)一步的統(tǒng)計分析統(tǒng)計表類型將變量所取值按時間順序排列序列表分類表按數(shù)值分類定性分布頻數(shù)分布時間序列表地域序列將變量所取值按地域排列按性質(zhì)分類2.1統(tǒng)計表時間序列表的例子:2.1統(tǒng)計表定性分布:首先建立一個元素的類別系統(tǒng),使得各類互相排斥,而且是完備的,使被觀測的各元素能既不重復(fù)又無遺漏地分到各類中去。然后記錄分到同類中的元素個數(shù),或?qū)⑼愔懈髟氐挠^測值加以歸并,這樣得到定性分布。元素分類觀測值記錄與歸并定性分布2.1統(tǒng)計表定性分布的例子:2.1統(tǒng)計表頻數(shù)分布:按變量所取的值進(jìn)行分類,于是資料中每個觀測值都分到相應(yīng)類中去。記錄各類中觀測值出現(xiàn)的次數(shù),制成頻數(shù)分布表。確定組數(shù)k找出xmin與xmax計算組距h確定每組上下限將相應(yīng)數(shù)據(jù)歸并到各組Xmin
最小值,xmax最大值2.1統(tǒng)計表分?jǐn)?shù)計數(shù)人數(shù)(f)40—49150—59正正1460—69正正正正正正正正正正正5570—79正正正正正正正正正正正5880—89正正正正正正正正正正5290—99正正正17100—1093總數(shù)200在所屬組的記錄欄做一記號,按照我國習(xí)慣,用寫“正”字方法,英文書使用“#”符號
表2-4某校200個學(xué)生高等數(shù)學(xué)考試成績2.1統(tǒng)計表表2-5
某校200個學(xué)生高等數(shù)學(xué)考試成績的頻數(shù)分布表分?jǐn)?shù)人數(shù)(f)分?jǐn)?shù)人數(shù)(f)40—45176—812546—51082—874252—571288—931058—632994—991164—6928100—105370—7539總數(shù)2002.1統(tǒng)計表2.1統(tǒng)計表表2-5與表2-6的對比表2-5中組距等于6,頻數(shù)分布的規(guī)則性,仍然可以維持,同時細(xì)節(jié)的損失也可減輕表2-6中的組距等于2,各組頻數(shù)分布就變得很不規(guī)則了。由此可見,組數(shù)的確定應(yīng)適當(dāng),亦不宜太多2.1統(tǒng)計表累積頻數(shù)(CumulativeFrequency):由第一組起至第i組止各頻數(shù)之和稱為第i組的累積頻數(shù),記為Fi,即:頻率(PercentFrequency):就是頻數(shù)除以總數(shù)n:fi/n,經(jīng)常以百分?jǐn)?shù)表示。累計頻數(shù)與頻率2.1統(tǒng)計表頻數(shù)表的例子2.1統(tǒng)計表統(tǒng)計圖:統(tǒng)計資料整理成統(tǒng)計表后,可以比較清晰地展示變量的變化規(guī)律。為了使這種規(guī)律更有直觀性,常采用統(tǒng)計圖表示。包括:線圖、條形圖、圓餅圖等統(tǒng)計圖線圖條形圖圓餅圖2.2統(tǒng)計圖
2.2統(tǒng)計圖
線圖(Linegraph)2.2統(tǒng)計圖
(億元)條形圖(Barchart)2.2統(tǒng)計圖
(億元)圓餅圖(Piechart)2.2統(tǒng)計圖
散點(diǎn)圖(ScatterDiagram)2.2統(tǒng)計圖
雙變量的統(tǒng)計資料:對每一元素觀測兩個特征,記錄觀測結(jié)果,就是雙變量的統(tǒng)計資料雙變量常用(X,Y)形式表示,以區(qū)別兩個單變量X和Y2.3雙變量的二元分布錯誤發(fā)生時的飛行狀態(tài),分起飛(T),巡航(C)和著陸(L)三種。錯誤發(fā)生的原因,分規(guī)范理解錯誤(R),儀表讀數(shù)錯誤(M)和其它原因(O)三種。[例2.1]在飛行模擬訓(xùn)練時,用計算機(jī)測定并打印出飛行動作的錯誤,從兩方面進(jìn)行測定:2.3雙變量的二元分布測定45次的打印記錄如下:2.3雙變量的二元分布根據(jù)該記錄整理的二元分布表如下:從表中看出,在起飛(T)時容易發(fā)生規(guī)范理解錯誤(R)和儀表讀數(shù)錯誤(M),而著陸(L)時不太容易發(fā)生規(guī)范理解錯誤。2.3雙變量的二元分布邊際分布:在二元分布表最下行(合計行)和最右列(合計列)分別是X和Y的單變量分布,稱為邊際分布。二元分布表最下行二元分布表最右行X的單變量分布Y的單變量分布邊際分布統(tǒng)稱2.3雙變量的二元分布一個雙變量的二元分布絕不同于兩個單變量的一元分布,它不僅說明兩變量各自的分布情況,而且說明兩變量之間(飛行狀態(tài)與錯誤原因之間)的相互關(guān)聯(lián)情況。而這種關(guān)聯(lián)情況(即是否存在關(guān)聯(lián)以及關(guān)聯(lián)的性態(tài)和程度等)正是研究雙變量的二元分布的主要任務(wù)。雙變量二元分布兩變量各自的分布情況變量之間相互關(guān)聯(lián)情況研究二元分布的主要任務(wù)說明2.3雙變量的二元分布3.1表示集中位置的特征數(shù)3.1.1平均數(shù)算術(shù)平均數(shù)(Arithmeticaverage)幾何平均數(shù)(GeometricMean)調(diào)和平均數(shù)定義:一組n個觀測值x1,x2,…,xn的算術(shù)平均數(shù),定義為(1)算術(shù)平均數(shù)(Arithmeticaverage)如果資料已經(jīng)分組,組數(shù)為k,用x1,x2,…,xk
表示各組中點(diǎn),f1,f2…,fk
表示相應(yīng)的頻數(shù),那么(1)算術(shù)平均數(shù)(Arithmeticaverage)表3-1某校125位大學(xué)一年級新生體重表體重(公斤)組中值(x)
人數(shù)(f)46—4847449—51502052—54532555—57563858—60592161—63621264—66655(1)算術(shù)平均數(shù)(Arithmeticaverage)其平均體重:===55.592(1)算術(shù)平均數(shù)(Arithmeticaverage)
當(dāng)時最小
性質(zhì)(1)算術(shù)平均數(shù)(Arithmeticaverage)在數(shù)據(jù)為環(huán)比類型的問題中,算術(shù)平均數(shù)是不適用的。例如下表是天津市工業(yè)總產(chǎn)值在“十五”期間的逐年增長率,如求該期間平均增長率,算術(shù)平均數(shù)是不恰當(dāng)?shù)?。幾何平均?shù)可以解決這個問題。(2)幾何平均數(shù)(GeometricMean)表3-2天津市工業(yè)總產(chǎn)值年份比上年增長%2000200114.0200219.6200324.1200431.0200520.8(天津市2005統(tǒng)計年鑒)
(2)幾何平均數(shù)(GeometricMean)定義:一組n個數(shù)據(jù)的幾何平均數(shù)定義為在上式中,依次為114.0,119.6,124.1,十五期間天津市工業(yè)總產(chǎn)值年均增長率為21.8%。131.0,120.8于是幾何平均數(shù):(2)幾何平均數(shù)(GeometricMean)當(dāng)數(shù)據(jù)是相對變化率,求平均數(shù)時,算術(shù)平均數(shù)也不恰當(dāng)。例如:甲乙兩地相距120公里,某人乘車往返甲乙兩地之間,去時速度每小時20公里,回來時速度為每小時30公里,若求平均速度,這時用算術(shù)平均數(shù)是不對的,但調(diào)和平均數(shù)可解決此類問題。(3)調(diào)和平均數(shù)在上例中,(公里/小時)定義:一組n個數(shù)據(jù)的調(diào)和平均數(shù)H,由下式定義(3)調(diào)和平均數(shù)算術(shù)平均數(shù)表示了集中位置特征,它照顧到每一個值,但它不見得是出現(xiàn)次數(shù)最多的值(甚至也可能不是觀測值中的一個)。所以有必要研究表示集中位置的其它的特征數(shù)。3.1.2眾數(shù)(Mode)定義:對于有頻數(shù)分布的變量,它的眾數(shù)指頻數(shù)最大的變量的值表3-3頻數(shù)分布表Xf3155273對于已分組且等組距的頻數(shù)分布,根據(jù)最大頻數(shù),可求得眾數(shù)所在組。根據(jù)眾數(shù)定義,可知眾數(shù)不唯一。3.1.2眾數(shù)(Mode)算術(shù)平均數(shù)作為集中位置的特征還有一缺點(diǎn),就是受觀測值中極端值的影響很大,而一組觀測值中的極端值常常沒有代表性。中位數(shù)將避免這種影響。3.1.3中位數(shù)(Median)
一組n個觀測值按數(shù)值大小排列,處于中央位置的值稱為中位數(shù)以表示,,當(dāng)n為奇數(shù),當(dāng)n為偶數(shù)定義:即3.1.3中位數(shù)(Median)第25百分位數(shù)又稱第一個四分位數(shù)(FirstQuartile),用Q1表示;第50百分位數(shù)又稱第二個四分位數(shù)(SecondQuartile),用Q2表示;第75百分位數(shù)又稱第三個四分位數(shù)(ThirdQuartile),用Q3表示。中位數(shù)是第50百分位數(shù)一組n個觀測值按數(shù)值大小排列如x1,x2,x3,x4…處于p%位置的值稱第p百分位數(shù)。定義:3.1.4百分位數(shù)(Percentile)計算第p百分?jǐn)?shù)第1步:以遞增順序排列原數(shù)據(jù)(即從小到大排列)。第2步:計算指數(shù)
第3步1.若i不是整數(shù),將i向上取整。大于I的毗鄰整數(shù)為第p百分位數(shù)的位置。2.若i是整數(shù),則第P百分位數(shù)是第i項(xiàng)與第(i+l)項(xiàng)數(shù)據(jù)的平均值。如何計算百分位數(shù)數(shù)據(jù)的變異程度產(chǎn)品質(zhì)量檢查的結(jié)果說明生產(chǎn)是否穩(wěn)定測量的結(jié)果說明測量方法或儀器是精密還是粗糙學(xué)生的成績成績是否整齊(而不是高低)3.2表示變異(分散)程度的特征數(shù)定義
其中xmax和xmin分別為數(shù)據(jù)中的極大值和極小值。3.2.1極差(或稱全距Range)R對于已分組的頻數(shù)分布(組數(shù)為k)定義平均差M.D.是離差的絕對值的平均數(shù),即3.2.2平均差(MeanAbsoluteDeviation)方差
樣本
對于已分組的頻數(shù)分布(組數(shù)為k)總體
樣本
總體
3.2.3方差(Variance),標(biāo)準(zhǔn)差(Standard
Deviation)標(biāo)準(zhǔn)差樣本標(biāo)準(zhǔn)差總體標(biāo)準(zhǔn)差樣本標(biāo)準(zhǔn)差總體標(biāo)準(zhǔn)差對于已分組的頻數(shù)分布(組數(shù)為k)標(biāo)準(zhǔn)差的單位與X的單位相同。3.2.3方差(Variance),標(biāo)準(zhǔn)差(Standard
Deviation)定義變異系數(shù)C是一個無量綱的量。它適于用在比較有不同算術(shù)平均數(shù)或有不同量綱的兩組數(shù)據(jù)的情況。例如比較大學(xué)生身高與小學(xué)生身高,或比較130名大學(xué)生身高和體重哪個變化波動范圍比較大時,都可用變異系數(shù)。3.2.4變異系數(shù)(CoefficientofVariation)定義變異系數(shù)C是一個無量綱的量。它適于用在比較有不同算術(shù)平均數(shù)或有不同量綱的兩組數(shù)據(jù)的情況。例如比較大學(xué)生身高與小學(xué)生身高,或比較130名大學(xué)生身高和體重哪個變化波動范圍比較大時,都可用變異系數(shù)。3.3表示偏倚情況或程度的特征數(shù)
3.3.1比較眾數(shù)、中位數(shù)和算術(shù)平均數(shù)的相對位置
下圖列舉出了對稱的、具有左偏態(tài)(負(fù)偏態(tài))和右偏態(tài)(正偏態(tài))的頻數(shù)分布的例子。注意到它們的特點(diǎn)是:①對稱的分布的眾數(shù)、中位數(shù)和算術(shù)平均數(shù)相同;②具有偏倚性的分布,算術(shù)平均數(shù)突出在外,偏向分布的尾端,而中位數(shù)則介于眾數(shù)與算術(shù)平均數(shù)之間。偏倚性是表示各觀測值分布不對稱情況或程度的。3.3表示偏倚情況或程度的特征數(shù)
圖3-13.3.1比較眾數(shù)、中位數(shù)和算術(shù)平均數(shù)的相對位置>Me>Mo<Me<Mo
=Me=Mo可以看出,對于單峰的分布,對稱態(tài):左偏態(tài):右偏態(tài):3.3.1比較眾數(shù)、中位數(shù)和算術(shù)平均數(shù)的相對位置(1)Pearson偏倚系數(shù)Pearson分布對稱,則k=0左偏態(tài),則k<0右偏態(tài),則k>03.3.2定量地描述偏倚性,常用的兩個公式(2)用標(biāo)準(zhǔn)化的三階矩陣g表示3.3.2定量地描述偏倚性,常用的兩個公式
3.4五數(shù)概括法五數(shù)概括法(2)第1四分位數(shù)(Q1)。(3)中位數(shù)(Q2)。(4)第3四分位數(shù)(Q3)。(5)最大值。(1)最小值。首先將數(shù)據(jù)按遞增順序排列,然后很容易就能確定最小值、3個四分位數(shù)和最大值了。對12個月薪數(shù)據(jù)的樣本,按照遞增順序排列如下:221022552350|238023802390|242024402450|255026302825Q1=2365Q2=2405Q3=2500上述起薪數(shù)據(jù)以五數(shù)概括為:2210,2365,2405,2500,2825。3.4五數(shù)概括法盒形圖實(shí)際上是以圖形來概括數(shù)據(jù)。我們將盒形圖延至這一章才講是因?yàn)樗年P(guān)鍵是計算中位數(shù)和四分位數(shù)Q1和Q3。此外還將用到四分位數(shù)間距IQR=Q3-Q1
。盒形圖的畫法步驟如下:
(1)畫一個方盒,其邊界恰好是第1和第3四分位數(shù)。對于上述的起薪數(shù)據(jù),Q1=2365,Q3=2500。這個方盒包含了中間的50%的數(shù)據(jù)。(2)在方盒上中位數(shù)的位置畫一條垂線(對起薪數(shù)據(jù),中位數(shù)為2405)。因此中位數(shù)將數(shù)據(jù)分為相等的兩個部分。3.5盒形圖(3)利用四分位數(shù)間距IQR=Q3-Q1,來設(shè)定界限。盒形圖的界限定于低于Q1以下1.5個IQR和高于Q3以上1.5個IQR的位置。上、下限以外的數(shù)值作為異常值。
(4)在圖3-4中的橫線叫做須線(whisker),須線從方盒的邊線出發(fā),直至在上、下限之內(nèi)的最大值和最小值。(5)最后,任一異常值的位置以符號“*”標(biāo)出。3.5盒形圖4.1關(guān)于抽樣的基本概念
為什么要抽樣? 為了收集必要的資料,對所研究對象(總體)的全部元素逐一進(jìn)行觀測,往往不很現(xiàn)實(shí)。抽樣原因元素多,搜集數(shù)據(jù)費(fèi)時、費(fèi)用大,不及時而使所得的數(shù)據(jù)無意義總體龐大,難以對總體的全部元素進(jìn)行研究檢查具有破壞性炮彈、燈管、磚等簡單隨機(jī)抽樣(x1,x2,……,xn): 簡單隨機(jī)抽樣是指從總體中抽取樣本容量為n的樣本時,x1,x2,……,xn這n個隨機(jī)變量必須具備以下兩個條件:這n個隨機(jī)變量與總體X具有相同的概率分布;它們之間相互獨(dú)立。4.1關(guān)于抽樣的基本概念
甲乙丙丁四個生產(chǎn)商,其產(chǎn)品質(zhì)量如下表所示: 如果僅從甲乙兩個生產(chǎn)商的產(chǎn)品中進(jìn)行抽樣,抽樣質(zhì)量就偏高;如果僅從丙丁兩個生產(chǎn)商的產(chǎn)品中進(jìn)行抽樣,抽樣質(zhì)量就偏低; 因此采用簡單隨機(jī)抽樣保證隨機(jī)樣本與總體具有相同的概率分布。甲乙丙丁質(zhì)量高高低低表4-14.1關(guān)于抽樣的基本概念
樣本統(tǒng)計量與抽樣分布: 在簡單隨機(jī)抽樣中,樣本具有隨機(jī)性,樣本的參數(shù),s2等也會隨著樣本不同而不同,故它們是樣本的函數(shù),記為g(x1,x2,……,xn),稱為樣本統(tǒng)計量。
統(tǒng)計量的概率分布稱為抽樣分布(Sample distribution)
4.1關(guān)于抽樣的基本概念
幾種概率分布正態(tài)分布分布
F分布
t分布4.2幾種與正態(tài)分布有關(guān)的概率分布若隨機(jī)變量X的概率密度函數(shù)記為(1)正態(tài)分布圖4-1一般正態(tài)分布(1)正態(tài)分布標(biāo)準(zhǔn)正態(tài)分布:
當(dāng)時, 記為U∽N(0,1)圖4-2標(biāo)準(zhǔn)正態(tài)分布(1)正態(tài)分布非標(biāo)準(zhǔn)正態(tài)分布向標(biāo)準(zhǔn)正態(tài)分布的轉(zhuǎn)化
若
標(biāo)準(zhǔn)化因子
則U∽N(0,1)(1)正態(tài)分布 查表 當(dāng)u大于零時,可查正態(tài)分布表 但如果u<0時,則可由式φ(-u)=1-φ(u)求出(1)正態(tài)分布線性性質(zhì): 如果,且相互獨(dú)立。對于常數(shù),有下式成立:(1)正態(tài)分布 相互獨(dú)立且均為服從N(0,1)分布的隨機(jī)變量,則稱隨機(jī)變量所服從的分布是自由度為n的分布,且記。定義(2)分布圖4-3χ2分布圖(2)分布查表:對于給定的α,0<α<1,可在分布表中查得,即 例如
即指(2)分布性質(zhì):如果,則;設(shè),且相互獨(dú)立,則若,已知相互獨(dú) 立,,則(2)分布總體,是X的一個樣本,為樣本的平均數(shù),
為樣本的方差。 則: a.相互獨(dú)立
b.(2)分布 設(shè)相互獨(dú)立的隨機(jī)變量V和W分別服從自由度為n1,n2的分布,即, 則隨機(jī)變量服從F分布。n1,n2分別是它的第一自由度和第二自由度,且通常記為定義(3)F分布圖4-4F分布圖F(3)F分布查表性質(zhì)(3)F分布 設(shè)隨機(jī)變量U服從標(biāo)準(zhǔn)正態(tài)分布,隨機(jī)變量W服從自由度為n的分布,且U與W相互獨(dú)立, 則稱隨機(jī)變量服從自由度為n的t分布,記為T~t(n)。定義(4)t分布(Students分布)圖4-5n=∞正態(tài)分布n=10n=1t分布圖(4)t分布(Students分布)查表或性質(zhì): 當(dāng)n很大時, 此時,tα/2≈uα/2,t分布近似標(biāo)準(zhǔn)正態(tài)分布。
(4)t分布(Students分布)無限總體: 設(shè)總體X~N(μ,σ2),X1,X2,…
,Xn是總體X的隨機(jī)樣本,樣本平均數(shù),則4.3樣本平均數(shù)的抽樣分布有限總體 有限總體若采取有放回抽樣,則與無限總體等價。有限總體容量為N而采取無放回抽樣,且n/N≤0.1,仍可視為無限總體,而當(dāng)n/N>0.1時則 稱式為有限總體的修正系數(shù)。4.3樣本平均數(shù)的抽樣分布
從總體中抽取樣本容量為n的簡單隨機(jī)樣本,當(dāng)樣 本容量n≥30時,樣本均值的抽樣分布可用正態(tài) 概率分布近似。4.4中心極限定理一、問卷的主要類型郵寄問卷、發(fā)送問卷訪問員根據(jù)被調(diào)查者的回答填寫思考:這兩類問卷的區(qū)別和聯(lián)系是什么?1、自填問卷:2、訪問問卷:封面信:指導(dǎo)語:問題和答案:其他資料:二、問卷基本結(jié)構(gòu)一封致被調(diào)查者的短信,旨在向被調(diào)查者介紹說明調(diào)查者身份、目的等內(nèi)容用來教被調(diào)查者如何正確填答問卷主體部分根據(jù)具體情況,包括問卷編碼、編號、發(fā)送和回收日期、調(diào)查或?qū)徍藛T名字、被調(diào)查者住址等
問卷標(biāo)題調(diào)查的主辦單位或者個人身份(開頭或落款處)調(diào)查目的(恰當(dāng)、合理)。如:為了探索我國物價改革的效果,我們舉辦了此次調(diào)查調(diào)查對象的選取方式,加上保密承諾,減少被調(diào)查者的心理壓力。如:我們從全市各工廠中隨機(jī)抽取了一部分工人作為調(diào)查對象問卷的填答方法、回收方式,致謝(一)封面信封面信一般說明以下問題:《圖書館使用情況調(diào)查問卷》親愛的同學(xué):您好!我們是12級工商管理班的同學(xué),為了了解大家對我院圖書館的使用情況,我們特邀您參加此項(xiàng)調(diào)查,您寶貴的意見和建議將成為我們學(xué)習(xí)資源建設(shè)的重要參考材料。本次調(diào)查采取隨機(jī)抽查不記名的方式,請您在您認(rèn)為合適的答案的標(biāo)號上打“√”,我們對您的回答將予以保密,我們期待能收到您填寫完整的問卷,謝謝。(一)封面信指導(dǎo)語分為:
卷頭指導(dǎo)語:屬于“填表說明”卷中指導(dǎo)語:一般針對具體某個問題作指示(二)指導(dǎo)語如:請在每一個問題后適合你自己情況的答案序號上劃圈,或在“____”處填上適當(dāng)?shù)膬?nèi)容如:(可選多個答案)例子:
注:無特殊說明的情況下,一律只選一項(xiàng)!
您心中理想的出國留學(xué)或就業(yè)地(可以選多種答案):
問題的類型:有關(guān)行為方面的問題有關(guān)態(tài)度或者看法方面的問題有關(guān)個人背景的問題(三)問題思考一:請判斷以下各問題屬于哪類問題1、你家訂了幾份報紙2、你認(rèn)為選擇職業(yè)最重要的標(biāo)準(zhǔn)是3、年齡、性別、文化程度、年收入、職業(yè)
問題的形式開放式問題:不提供答案;如“您的建議____”
封閉式問題:提供答案以備被調(diào)查者選?。ㄈ﹩栴}1、封閉式問題,又包括以下類型:順序式:要求被調(diào)查者從備選答案中選出部分或全部答案,并按一定原則進(jìn)行排序。(三)問題例——《**地區(qū)留學(xué)市場調(diào)查》以下是幾個選擇出國留學(xué)國家的標(biāo)準(zhǔn),它們在您心目中的重要程度如何?第一重要___,次重要____,第三重要_____1生活環(huán)境好4社會治安良好2留學(xué)費(fèi)用合理5教學(xué)質(zhì)量高3就業(yè)率高6社會福利好
等級式:對兩個以上分成等級的答案進(jìn)行選擇,只能從中選擇出一項(xiàng)。常用于滿意度(三、五、七項(xiàng)式都可以,一般用五項(xiàng)式)或者一些程度調(diào)查(三)問題矩陣式/表格式:當(dāng)詢問若干個有相同答案形式的問題時,可以將這些問題集中在一起構(gòu)成一個問題的表達(dá)方式如:《**露天電影改進(jìn)情況調(diào)查問卷》
一、您喜歡觀看我校的露天電影嗎?(只選一項(xiàng))
1.喜歡2.一般3.不喜歡
二、您對我院露天電影播放時間滿意嗎?(只選一項(xiàng))
1.很滿意2.滿意3.一般4.不滿意5.很不滿意三、您對我院露天電影播放地點(diǎn)滿意嗎?(只選一項(xiàng))
1.很滿意2.滿意3.一般4.不滿意5.很不滿意四、您對我院露天電影播放質(zhì)量滿意嗎?(只選一項(xiàng))
1.很滿意2.滿意3.一般4.不滿意5.很不滿意五、您對我院露天電影播放片種滿意嗎?(只選一項(xiàng))
1.很滿意2.滿意3.一般4.不滿意5.很不滿意(三)問題例:三、以下列出了關(guān)于我院露天電影播放質(zhì)量的四方面指標(biāo)。請問,您對這四方面情況的滿意度如何?請分別作出評價:(三)問題
很滿意滿意一般不滿意很不滿意1.播放時間
543212.播放地點(diǎn)543213.播放質(zhì)量543214.播放片種54321兩項(xiàng)式:答案只有兩種,回答者其中選擇一項(xiàng)即可,多用于民意測驗(yàn)如:您是否知道我院每周五晚上播放露天電影?(只選一項(xiàng))1.知道2.不知道多項(xiàng)選擇式:給出的答案至少在兩個以上,回答者根據(jù)要求選擇其一或者選擇多項(xiàng),問卷中最常用的方式如:您在周末的時候通常都做些什么?(可選多項(xiàng))1.看電影2.上網(wǎng)3.逛街4.看電視
5.上圖書館6.外出打工7.呆在宿舍8.不一定(三)問題相倚問題:有些問題只適用于樣本中的一部分對象,而某個被調(diào)查者是否需要回答這一問題常要依據(jù)他對前面某個問題的回答結(jié)果而定,這樣的問題即相倚問題(三)問題例一:《金融學(xué)院社團(tuán)發(fā)展情況調(diào)查問卷》Q9您經(jīng)常參加社團(tuán)的活動嗎?1、經(jīng)常(跳到Q11題)
2、偶爾3、從不Q10您較少參加社團(tuán)活動的最主要原因是1、沒時間2、自己本身不感興趣3、活動不吸引人4、其他(請注明)_______Q11您認(rèn)為您所在社團(tuán)目前收取的會費(fèi)水平是否合理?1、合理2、不合理3、不知道三、您喜歡觀看我校的露天電影嗎?(只選一項(xiàng))1.喜歡2.一般(請?zhí)恋诹}開始)3.不喜歡四.(第三題回答“喜歡”者回答:)您喜歡觀看我校露天電影的原因?(可選多項(xiàng))1.
可以促進(jìn)同學(xué)之間的友誼2.充實(shí)課余生活3.既然交了電影費(fèi),就去看看4.對播放的影片感興趣5、喜歡露天播放的形式6.其它(請注明)_________________五.(第三題回答“不喜歡”者回答:)您不喜歡觀看我校露天電影的原因?(可選多項(xiàng))1.
電影的時間安排不合理2.電影播放效果不夠理想3.電影播放設(shè)備不齊全4.不喜歡露天這種形式5.放映環(huán)境糟咂,影響觀看
5.對電影的內(nèi)容不感興趣6.其它(請注明)___________________(三)問題練習(xí):請判斷下面這些問題設(shè)置的好壞,并說明你判斷的原因,如何修改?一個民族的傳統(tǒng)道德總會改變,您認(rèn)為這些年在中國的這種情況是?你是否贊成物價不進(jìn)行改革?你所在城市屬于什么類型?你認(rèn)為目前職工的平均工資水平是否應(yīng)提高?您對單位近年來情況的感受是?
(三)問題2、問題的語言和提問方式設(shè)計的規(guī)則2、問題的語言和提問方式設(shè)計的規(guī)則盡量用簡單的語言,避免專業(yè)術(shù)語和抽象概念問題盡量簡短避免問題含糊,定義不清的情況避免雙重或者多重含義問題問題不可以帶有傾向性,應(yīng)保持中立態(tài)度不能以否定形式提問,以免誤會產(chǎn)生不問回答者不知道的問題不直接問敏感性問題,要間接、委婉注意問題的提法,別讓回答者有考試之感語言中的毛?。ㄈ﹩栴}3、問題的設(shè)置的技巧(1)能夠得到誠實(shí)的回答。得不到誠實(shí)答案的取消;對于懷疑得不到誠實(shí)回答的問題,應(yīng)當(dāng)在不同位置設(shè)置相同、相反或者相近的問題,以求相互驗(yàn)證。例如:你最尊重的人是:A.有知識的人B.有錢的人C.有權(quán)的人假如你正在忙于一件對于你個人而言非常重要的事情,這個時候同事告訴你,你的頂頭上司來訪,你會:A.立即放下手中的活,與頂頭上司見面B.請同事轉(zhuǎn)告頂頭上司稍等一會,把手中的的事情處理到一個小段落后再去見他C.請同事轉(zhuǎn)告頂頭上司,現(xiàn)在很忙,辦完手中的事情再去(三)問題你對同行業(yè)中逃稅的情況判斷是:逃稅企業(yè)的比例低于5%逃稅企業(yè)的比例在5%-10%之間逃稅企業(yè)的比例在15%-20之間…..你對同行業(yè)民營企業(yè)逃稅的情況判斷是:逃稅企業(yè)的比例低于5%逃稅企業(yè)的比例在5%-10%之間逃稅企業(yè)的比例在15%-20之間數(shù)目數(shù)目依據(jù)研究內(nèi)容、樣本性質(zhì)、分析方法、擁有的人力、物力和財力等因素定一般來說,不應(yīng)太長,以回答者能在10分鐘內(nèi)完成為宜,至多不超過20分鐘如研究經(jīng)費(fèi)充足,并付給回答者一定的報酬和禮物,問卷本身質(zhì)量高,回答者對內(nèi)容比較有興趣的情況下,問卷稍長一些無妨。(三)問題4、問題的數(shù)目和順序安排技巧順序(請判斷以下哪些放在問卷前面合適)熟悉、簡單?生疏、難回答引發(fā)回答者興趣的問題?引起回答者緊張顧慮的問題?開放式題應(yīng)放在問卷前部還是后部行為?態(tài)度?個人背景?將詢問同一類事物的問題要盡量安排在一起(體現(xiàn)邏輯順序)(三)問題
要保證答案具有窮盡性和互斥性善于使用“其他”問題和答案設(shè)計要協(xié)調(diào)(四)答案答案設(shè)計的要求一、您??茨念悎罂瘯ㄖ贿x一項(xiàng))1、經(jīng)常看2、偶爾看3、從不看二、對于《對話》節(jié)目,你覺得(只選一項(xiàng))1、非常好2、好3、一般4、不好5、非常不好三、您家庭的平均月收入狀況(只選一項(xiàng))1、1000元以下2、1000-2000元3、2000-6000元4、6000元以上5、不知道四.您最希望以何種方式獲知影訊?(只選一項(xiàng))1.校園網(wǎng)2.校園海報3.校園廣播4.班委通知五.您覺得我校播放電影最合適的地方應(yīng)該是?(只選一項(xiàng))1.燈光球場2.霞湖球場3.其它(請注明)______________(四)答案練習(xí):請判斷以下答案設(shè)計好壞,改進(jìn)方案四、問卷的設(shè)計步驟卡片法:第一步是根據(jù)探索性工作所得到的印象和認(rèn)識,把每一個問題和答案寫在一張卡片上;第二步是根據(jù)卡片上問題的主要內(nèi)容,將卡片分成若干堆,即把詢問相同事物的問題卡片放在一起;第三步是在每一堆中,按合適的詢問順序?qū)⒖ㄆ昂笈判?;第四步是根?jù)問卷整體的邏輯結(jié)構(gòu)排出各堆卡片的前后順序,使卡片聯(lián)成一個整體;第五步是根據(jù)回答者閱讀和填答問題是否方便、是否會形成心理壓力等角度,反復(fù)檢查問題前后順序及連貫性,對不當(dāng)之處逐一調(diào)整和補(bǔ)充;最后把調(diào)整好的問題卡片依次寫到紙上,形成問卷初稿.四、問卷的設(shè)計步驟四、問卷的設(shè)計步驟
框圖法
第一步是根據(jù)研究假設(shè)和所需資料的內(nèi)容,在紙上畫出整個問卷的各個部分、及前后順序的框圖;第二步是具體地寫出每一個部分中的問題及答案,并安排好這些問題相互間的順序;第三步是根據(jù)回答者閱讀和填答問卷是否方便,對所有問題進(jìn)行檢查,調(diào)整和補(bǔ)充;最后將調(diào)整的結(jié)果重新抄在另一張紙上,形成問卷初稿.
兩種方法的差別在于,前者是從具體問題開始,然后到部分,最后到整體;而后者相反,是從總體結(jié)構(gòu)開始然后到部分.最后到具體問題.5.1點(diǎn)估計所謂點(diǎn)估計就是由樣本x1,x2,…xn確定一個統(tǒng)計量
用它來估計總體的未知參數(shù),稱為總體參數(shù)的估計量。當(dāng)具體的樣本抽出后,可求出樣本統(tǒng)計量的值。用它作為總體參數(shù)的估計值,稱作總體參數(shù)的點(diǎn)估計。1.無偏性(unbiasedness)
設(shè)為總體未知參數(shù)的估計量若則稱是的無偏估計量,稱具有無偏性。如果是有偏估計量,則它的偏差量為偏差=5.1.1衡量估計量優(yōu)劣的標(biāo)準(zhǔn)注:具有無偏性。
,對于,具有無偏性5.1.1衡量估計量優(yōu)劣的標(biāo)準(zhǔn)2.一致性(consistency) 如果對任意小的正數(shù),有則稱是的一致估計量,稱具有一致性,可以證明均具有一致性。5.1.1衡量估計量優(yōu)劣的標(biāo)準(zhǔn)3.有效性
若都是的無偏估計量且
或
則稱較為有效估計量。的有效估計量5.1.1衡量估計量優(yōu)劣的標(biāo)準(zhǔn)4.羅—克拉美不等式兩個以上的無偏估計量具有最小方差最佳無偏估計量一個估計量羅—克拉美不等式檢驗(yàn)非最佳無偏估計量5.1.1衡量估計量優(yōu)劣的標(biāo)準(zhǔn)4.羅—克拉美不等式 對于一個無偏估計量的方差在一般的條件下,其方差永遠(yuǎn)不會小于一個正數(shù),這個正數(shù)是的下限,它依賴于總體的概率密度函數(shù)和樣本容量n
即:注:當(dāng)?shù)扔诓坏仁接叶藭r,這時稱為最佳 無偏估計量。5.1.1衡量估計量優(yōu)劣的標(biāo)準(zhǔn)[例5.1]若,是總體均值的最佳無偏估計量。[證]5.1.1衡量估計量優(yōu)劣的標(biāo)準(zhǔn)羅—克拉美下限值為
為的最佳無偏估計量5.1.1衡量估計量優(yōu)劣的標(biāo)準(zhǔn)1.特征數(shù)法: 用總體特征數(shù)對應(yīng)的樣本特征數(shù)作為其點(diǎn)估計5.1.2點(diǎn)估計的常用方法2.最大似然法
設(shè)總體X的概率分布為
或概率密度為其中是未知參數(shù)。
如何求極大似然估計量呢?5.1.2點(diǎn)估計的常用方法求最大似然估計量的步驟為:(1)對給定的總體X,寫出似然函數(shù)(2)列出似然方程(3)求解上述方程,得關(guān)于的解即為的最大似然估計量。5.1.2點(diǎn)估計的常用方法含多個參數(shù)令似然方程或最大似然解5.1.2點(diǎn)估計的常用方法[例5.2]從正態(tài)分布總體X抽取隨機(jī)樣本X1,X2,…,Xn。求的最大似然估計量。解因?yàn)?所以,X的概率密度數(shù)函數(shù)為5.1.2點(diǎn)估計的常用方法因此,似然函數(shù)其對數(shù)函數(shù)5.1.2點(diǎn)估計的常用方法求得似然方程組即即解方程組得5.1.2點(diǎn)估計的常用方法5.2.1區(qū)間估計的概念的樣本使得置信度1-α5.2區(qū)間估計置信度1-α下θ的置信區(qū)間:1-α是置信度,置信度也稱為置信概率α稱為顯著性水平則稱5.2.1區(qū)間估計的概念一.總體均值的區(qū)間估計 總體服從正態(tài)分布,σ2已知時 當(dāng)
時,(5-7)根據(jù)區(qū)間估計的定義,在1-α置信度下,總體均值μ的置信區(qū)間為:(5-8)5.2.2單個總體參數(shù)的區(qū)間估計即:
(5-9)從而有(5-10)即在1-α置信度下,μ的置信區(qū)間為:(5-11)5.2.2單個總體參數(shù)的區(qū)間估計[例5.5]
已知某零件的直徑服從正態(tài)分布,從該批產(chǎn)品中隨機(jī)抽取10件,測得平均直徑為202.5mm,已知總體標(biāo)準(zhǔn)差σ=2.5mm,試建立該種零件平均直徑的置信區(qū)間,給定置信度為0.95。 解:已知=202.5,
n=10,1-α=0.95查標(biāo)準(zhǔn)正態(tài)分布表,得μα/2=1.96所以在1-α置信度下,μ的置信區(qū)間為5.2.2單個總體參數(shù)的區(qū)間估計
即
計算結(jié)果為:[200.95,204.05]5.2.2單個總體參數(shù)的區(qū)間估計σ2未知時
(1)n≥30時,只需將中的σ用S近似代替即可(2)n<30時,由
(5-12)所以
(5-13)即(5-14)5.2.2單個總體參數(shù)的區(qū)間估計n≥30時,只需將
中的σ用S近似代替即可。n<30時,由σ2未知時5.2.2單個總體參數(shù)的區(qū)間估計所以:(5-15)即在1-α置信度下,μ的置信區(qū)間為(5-16)5.2.2單個總體參數(shù)的區(qū)間估計[例5.6]某大學(xué)從該校學(xué)生中隨機(jī)抽取100人,調(diào)查到他們平均每人每天完成作業(yè)時間為120分鐘,樣本標(biāo)準(zhǔn)差為30分鐘,試以95%的置信水平估計該大學(xué)全體學(xué)生平均每天完成作業(yè)時間。解:
1-α=0.95μα/2=1.96在95%的置信度下,μ的置信區(qū)間為5.2.2單個總體參數(shù)的區(qū)間估計由上:即[114.12,125.88]5.2.2單個總體參數(shù)的區(qū)間估計二.總體方差的區(qū)間估計(5-17)
(5-18)(5-19)5.2.2單個總體參數(shù)的區(qū)間估計所以在1-α置信度下:(5-20)(5-21)σ2的置信區(qū)間總體標(biāo)準(zhǔn)差σ的置信區(qū)間為5.2.2單個總體參數(shù)的區(qū)間估計三、總體比率的區(qū)間估計根據(jù)中心極限定理,當(dāng)n較大時,時,二次分布近似正態(tài)分布。即將正態(tài)分布標(biāo)準(zhǔn)化,得(5-27)5.2.2單個總體參數(shù)的區(qū)間估計在給定置信度為時,有(5-28)括號內(nèi)5.2.2單個總體參數(shù)的區(qū)間估計
記5.2.2單個總體參數(shù)的區(qū)間估計于是有解得p的置信區(qū)間為
(5-29)5.2.2單個總體參數(shù)的區(qū)間估計另一種近似解法:由于整理得:5.2.2單個總體參數(shù)的區(qū)間估計(5-30)其中中的未知,可用來代替。
5.2.2單個總體參數(shù)的區(qū)間估計一、兩個總體均值之差的估計設(shè)兩總體X~N(μ1,σ12),Y~N(μ2,σ22),由兩總體分別獨(dú)立的抽取容量為n1和n2的樣本,??5.2.3兩個正態(tài)總體參數(shù)的比較1.兩個總體方差σ12,σ22,已知,
在1-α置信度下,μ1-μ2的置信區(qū)間為(5-31)5.2.3兩個正態(tài)總體參數(shù)的比較2.兩個總體方差σ12,σ22,未知,(1)σ12≠σ22,且兩樣本容量均≥30,由S12和S22分別估計σ12和σ22,即可(2)σ12=σ22=σ2,σ2未知,(5-32)5.2.3兩個正態(tài)總體參數(shù)的比較5.2.3兩個正態(tài)總體參數(shù)的比較σ12≠σ22且兩樣本容量均≥30由S12和S22分別估計σ12和σ22,即可5.2.3兩個正態(tài)總體參數(shù)的比較σ12=σ22=σ2σ2未知在1-α置信度下,μ1-μ2的置信區(qū)間為5.2.3兩個正態(tài)總體參數(shù)的比較(5-33)5.2.3兩個正態(tài)總體參數(shù)的比較二、兩個總體方差比的區(qū)間估計由于(5-34)5.2.3兩個正態(tài)總體參數(shù)的比較在1-α置信度下,σ12∕σ22的置信區(qū)間為(5-35)5.2.3兩個正態(tài)總體參數(shù)的比較三、兩個總體比例之差的區(qū)間估計設(shè)兩個總體比例分別為P1和P2,為了估計P1-P2,分別從兩個總體中各隨機(jī)抽取容量為n1和n2的兩個隨機(jī)樣本,并計算兩個樣本的比例(5-36)5.2.3兩個正態(tài)總體參數(shù)的比較其中,在1-α置信度下,p1-p2的置信區(qū)間為5.2.3兩個正態(tài)總體參數(shù)的比較[例5.7]某減肥用品公司對其所作的報紙廣告在兩個城市的效果進(jìn)行了比較,其分別從兩個城市中隨機(jī)抽取了800名成年人,其中看過該廣告的比例分別為試求:兩城市中看過該廣告的成年人比例之差的置信度為95%的置信區(qū)間。解:由于n1,n2均為大樣本,1-α=0.95,μα/2=1.965.2.3兩個正態(tài)總體參數(shù)的比較p1-p2的置信區(qū)間為故在95%置信度下,p1-p2的置信區(qū)間為(0.011,0.049)。5.2.3兩個正態(tài)總體參數(shù)的比較需要考慮問題:(1)要求什么樣的精度?即我們想構(gòu)造多寬的區(qū)間?(2)對于構(gòu)造的置信區(qū)間來說,想要多大的置信度?即我們想要多大的可靠度?5.3樣本容量的確定在總體均值的區(qū)間估計時,半置信區(qū)間的寬度為:可得5.3.1估計總體均值時,樣本容量的確定樣本容量n與總體方差、允許誤差、置信度有以下關(guān)系:必要樣本容量n與總體方差成正比。2.在給定的置信水平下,允許誤差越大,樣本容量就可以越小。3.樣本容量n與置信度成正比。5.3.1估計總體均值時,樣本容量的確定[例5.8]一家廣告公司想估計某類商店去年所花的平均廣告費(fèi)有多少。經(jīng)驗(yàn)表明,總體方差約為1800000。如置信度取95%,并要使估計值處在總體平均值附近500元的范圍內(nèi),這家廣告公司應(yīng)取多大的樣本?解:已知這家廣告公司應(yīng)抽選28個商店作樣本(注意抽取樣本數(shù)總是整數(shù),所以n應(yīng)圓整成整數(shù))。5.3.1估計總體均值時,樣本容量的確定估計總體比例時,允許誤差為:
(5-40)由上式可得出估計總體比例時,確定必要樣本容量的公式。由于總體比率是未知的,因此要用樣本比率代替(5-41)5.3.2估計總體比例時,樣本容量的確定[例5.9]一家市場調(diào)研公司想估計某地區(qū)有彩色電視機(jī)家庭所占的比例。該公司希望對p的估計誤差不超過0.05,要求的可靠程度為95%,應(yīng)取多大容量的樣本?沒有可利用的估計值。
解:對于服從二項(xiàng)分布的隨機(jī)變量,當(dāng)
時,其方差達(dá)到最大值。因此,在無法得到值時,可以用計算。已知:由于的估計值未知,可以采用計算必要的樣本容量:5.3.2估計總體比例時,樣本容量的確定6.1假設(shè)檢驗(yàn)的一般問題假設(shè)檢驗(yàn)是推斷性統(tǒng)計學(xué)中的一項(xiàng)重要內(nèi)容,它是先對研究總體的參數(shù)作出某種假設(shè),然后通過樣本的觀察來決定假設(shè)是否成立參數(shù)假設(shè)樣本觀察假設(shè)檢驗(yàn)具體的統(tǒng)計方法6.1假設(shè)檢驗(yàn)的一般問題習(xí)題:某種大量生產(chǎn)的袋裝食品,按規(guī)定每袋重量不得少于250g。今從一批該種食品中任意抽取50袋,發(fā)現(xiàn)有6袋低于250g。若規(guī)定不符合標(biāo)準(zhǔn)的比例達(dá)到5%,食品就不得出廠,問該批食品能否出廠。從2000年的新生兒中隨機(jī)抽取30個,測得其平均體重為3210g,而根據(jù)1999年的統(tǒng)計資料,新生兒的平均體重為3190g,問2000年的新生兒與1999年相比,體重有無顯著差異。6.1.1假設(shè)檢驗(yàn)的概念
假設(shè)基本形式H0:原假設(shè),H1:備擇假設(shè)假設(shè)檢驗(yàn):運(yùn)用統(tǒng)計理論對上述假設(shè)進(jìn)行檢驗(yàn),在原假設(shè)與備擇假設(shè)中選擇其一。6.1.2假設(shè)檢驗(yàn)基本原理
小概率事件在一次試驗(yàn)中幾乎不可能發(fā)生。假設(shè)檢驗(yàn)的基本依據(jù)—小概率原理:6.1.2假設(shè)檢驗(yàn)基本原理
假設(shè)檢驗(yàn)的基本思想
前提:承認(rèn)原假設(shè)小概率事件發(fā)生大概率事件發(fā)生拒絕原假設(shè)接受原假設(shè)進(jìn)行一次實(shí)驗(yàn)6.1.2假設(shè)檢驗(yàn)基本原理
顯著水平與兩類錯誤第一類錯誤:棄真(顯著水平α)第二類錯誤:取偽顯著水平與兩類錯誤6.1.2假設(shè)檢驗(yàn)基本原理
對于一定的樣本容量n,不能同時做到兩類錯誤的概率都很小。如果減小α錯誤,就會增大犯β錯誤的機(jī)會;若減小β錯誤,也會增大犯α錯誤的機(jī)會。使α、β同時變小的辦法就是增大樣本容量。一般地說,哪一類錯誤所帶來的后果越嚴(yán)重,危害越大,在假設(shè)檢驗(yàn)中就應(yīng)當(dāng)把哪一類錯誤作為首要的控制目標(biāo)。但在假設(shè)檢驗(yàn)中,一般均首先控制犯α錯誤概率。兩類錯誤關(guān)系6.1.3假設(shè)檢驗(yàn)的步驟一個完整的假設(shè)檢驗(yàn)過程,通常包括以下四個步驟:提出原假設(shè)(Nullhypothesis)與備擇假設(shè)(Alternativehypothesis)確定適當(dāng)?shù)臋z驗(yàn)統(tǒng)計量,并計算檢驗(yàn)統(tǒng)計量的值規(guī)定顯著性水平α作出統(tǒng)計決策6.2.1正態(tài)總體參數(shù)假設(shè)檢驗(yàn)的步驟第一步:建立原假設(shè)H0和備擇假設(shè)H1。原假設(shè)應(yīng)該是希望犯第Ι類錯誤概率小的假設(shè)。常用的假設(shè)形式:6.2正態(tài)總體參數(shù)的假設(shè)檢驗(yàn)6.2.1正態(tài)總體參數(shù)假設(shè)檢驗(yàn)的步驟第二步:選擇檢驗(yàn)用的統(tǒng)計量。u檢驗(yàn)t檢驗(yàn)F檢驗(yàn)常用統(tǒng)計量6.2.1正態(tài)總體參數(shù)假設(shè)檢驗(yàn)的步驟第三步:確定顯著水平α的值,查相應(yīng)的分布表得其臨界值以及拒絕域。第四步:進(jìn)行顯著性判別。6.2.1正態(tài)總體參數(shù)假設(shè)檢驗(yàn)的步驟6.2.1正態(tài)總體參數(shù)假設(shè)檢驗(yàn)的步驟6.2.1正態(tài)總體參數(shù)假設(shè)檢驗(yàn)的步驟6.2.2p-值的應(yīng)用
p-值是一個概率值,它是用于確定是否拒絕H0的另一種方法。如果假定原假設(shè)為真,則p-值是所獲得的樣本結(jié)果至少與實(shí)測結(jié)果不同的概率值。6.2.2p-值的應(yīng)用例題:某商品標(biāo)簽上標(biāo)明其重量至少為3公斤以上,現(xiàn)抽取36瓶該產(chǎn)品組成的一個簡單隨機(jī)樣本,得其樣本均值2.92公斤,已知總體標(biāo)準(zhǔn)差為0.18時,在顯著性水平α=0.01的情況下檢驗(yàn)其商品標(biāo)簽所標(biāo)內(nèi)容是否真實(shí)?6.2.2p-值的應(yīng)用求解過程:(1)原假設(shè)H0:μ≥3,備擇假設(shè)H1:μ<3(2)檢驗(yàn)統(tǒng)計量為:代入數(shù)據(jù)得:6.2.2p-值的應(yīng)用求解過程(續(xù)):(3)U=-2.67所對應(yīng)的p值為0.0038(4)0.0038<0.01,所以拒絕H0。6.3.1單個總體比率的假設(shè)檢驗(yàn)如果樣本容量n與原總體比率時,用u檢驗(yàn)法。6.3總體比率的假設(shè)檢驗(yàn)6.3.1單個總體比率的假設(shè)檢驗(yàn)[例6.2]某企業(yè)的備件庫存標(biāo)準(zhǔn)有所調(diào)整。調(diào)整前的庫存周轉(zhuǎn)率為0.932,今調(diào)查庫存資料如下表(α=0.05)6.3.1單個總體比率的假設(shè)檢驗(yàn)求解過程:檢驗(yàn)假設(shè):由題意:6.3.1單個總體比率的假設(shè)檢驗(yàn)求解過程(續(xù)):統(tǒng)計量構(gòu)造與計算查正態(tài)分布表結(jié)論:調(diào)整前后,該企業(yè)的庫存周轉(zhuǎn)率無顯著差異。6.3.2兩個總體比率的假設(shè)檢驗(yàn)
&&比較兩個總體比率有無顯著差異時,如比較兩種機(jī)車生產(chǎn)產(chǎn)品的次品率有無顯著差異,可取容量n1、n2足夠大,使得這樣就可采用u檢驗(yàn)法。詳見下表6-3。6.3.2兩個總體比率的假設(shè)檢驗(yàn)6.4第二類錯誤概率例題:某種品牌電池標(biāo)明其使用壽命為120小時,若已知總體的標(biāo)準(zhǔn)差σ=12小時,現(xiàn)選取36節(jié)電池組成一個樣本,顯著性水平α=0.05。檢驗(yàn)假設(shè):H0:μ≥120H1:μ<120
構(gòu)造統(tǒng)計量6.4第二類錯誤概率α=0.05,例題(續(xù)):假設(shè)檢驗(yàn)的拒絕規(guī)則:如果U<-1.645,則拒絕H0上述問題中,拒絕規(guī)則為:6.4第二類錯誤概率例題(續(xù)):時,拒絕H0
當(dāng)時,接受H0。6.4第二類錯誤概率例題(續(xù)):如果假定電池壽命的均值μ=112小時,當(dāng)μ=112確實(shí)是真卻接受了H0:μ≥120時,犯第二類錯誤的概率有多大呢?6.4第二類錯誤概率例題(續(xù)):圖6-2給出了當(dāng)均值μ=112時,的抽樣分布,其上側(cè)陰影部分的面積為的概率。6.4第二類錯誤概率例題(續(xù)):根據(jù)圖6-2,計算得由標(biāo)準(zhǔn)正態(tài)概率分布表可知,當(dāng)U=2.36時,μ=112時,β=0.0091。6.5對總體均值進(jìn)行假設(shè)檢驗(yàn)時樣本容量的確定檢驗(yàn)假設(shè):H0:μ≥μ0H1:μ<μ0
6.5對總體均值進(jìn)行假設(shè)檢驗(yàn)時樣本容量的確定圖6-3上半部分為當(dāng)H0為真并且μ=μ0時的抽樣分布。6.5對總體均值進(jìn)行假設(shè)檢驗(yàn)時樣本容量的確定圖6-3中下半部分為當(dāng)H0為假時,總體均值的值,記作μ1。所以:得:6.5對總體均值進(jìn)行假設(shè)檢驗(yàn)時樣本容量的確定由上面得到的公式可得α、β和樣本容量n之間的關(guān)系:αβ和n之間關(guān)系當(dāng)三者中有二者已知時,即可計算得到第三者。對于給定的顯著性水平α,增大樣本容量將會減少β對于給定的樣本容量,減小α?xí)功略龃?,相反增大α將會使β減小。6.6非參數(shù)的假設(shè)檢驗(yàn) 前兩節(jié)的假設(shè)檢驗(yàn)都是在已知總體的分布類型(如正態(tài)分布)下進(jìn)行的。 但是在許多問題中,總體不一定是屬于正態(tài)分布,甚至總體的分布未知。 為此,本節(jié)介紹統(tǒng)計上常用的不依賴于總體分布及其參數(shù)知識的檢驗(yàn)——非參數(shù)檢驗(yàn)(NonparametricTests)方法。
6.6.1兩個總體分布差異的檢驗(yàn)
實(shí)際問題中,經(jīng)常要檢驗(yàn)兩種不同的處理方法效果是否相同。 例如,比較在不同鉆機(jī)、不同操作人員、不同地質(zhì)條件下,鉆機(jī)效率是否相同等等。 諸如此類問題是對兩個總體的分布是否相同的檢驗(yàn)。下面介紹兩種簡單易行的方法:“符號檢驗(yàn)法”和“秩和檢驗(yàn)法”。符號檢驗(yàn)法(SignTests) 設(shè)兩個總體X1,X2,它們的分布皆未知,以f1(x)和f2(x)分別表示兩總體的概率密度。我們要檢驗(yàn)f1(x)=f2(x)是否成立。
于是
H0:f1(x)=f2(x),H1:f1(x)≠f2(x)符號檢驗(yàn)法(SignTests) 為此對兩個總體分別獨(dú)立地抽取m個元素,即得到m對數(shù)據(jù): (a1,b1),(a2,b2),…,(am,bm) 如果f1(x)=f2(x)假設(shè)成立,那么ai>bi或ai<bi(i=1,2,…,m)應(yīng)該有相同的概率(1/2)。且樣本ai>bi
與ai<bi的個數(shù)差異不應(yīng)很大。符號檢驗(yàn)法(SignTests) 令ai>bi的事件為yi,其取值為1,0 于是
y=y1+y2+...+ym服從二項(xiàng)分布 根據(jù)二項(xiàng)分布計算出了比較ai>bi或ai<bi差異的臨界值Sα(n)符號檢驗(yàn)法步驟:比較樣本數(shù)據(jù)求出n:n=n++n-在顯著水平α下,根據(jù)n值查符號檢驗(yàn)表得其臨界值Sα(n)判別顯著性ai>bi記為“+”,“+”的個數(shù)記為n+ai<bi記為“-”,“-”的個數(shù)記為n-ai=bi記為“0”,“0”的個數(shù)記為n0
若S0=min{n+,n-}<Sα(n),則拒絕H0,接受H1;認(rèn)為f1(x)與f2(x)有顯著差異。若S0=min{n+,n-}>Sα(n),則接受H0,認(rèn)為f1(x)與f2(x)無顯著差異。秩和檢驗(yàn)法
符號檢驗(yàn)法的缺點(diǎn):沒有充分利用數(shù)據(jù)本身提供的信息,而且必須在數(shù)據(jù)成對時使用。 如果兩樣本數(shù)據(jù)不成對,則可用秩和檢驗(yàn)法。秩和檢驗(yàn)法秩和檢驗(yàn)法的做法: 建立H0和H1;將兩組數(shù)據(jù)依從小到大次序(秩號)排列成表,如果有兩個以上重復(fù)的數(shù),則取秩號平均數(shù)作為其秩。 取樣本容量小的一組(樣本容量相同時,取平均數(shù)小的一組),其數(shù)據(jù)個數(shù)記為n1,則另一組數(shù)據(jù)個數(shù)記為n2,將樣本容量小的一組所對應(yīng)的秩相加稱為該組的秩和(SumofRanks),記為T。秩和檢驗(yàn)法 如果兩個總體分布無顯著差異,則T值不應(yīng)太大或太小。所謂太大或太小是比較而言,其比較值就是秩和檢驗(yàn)表中的下限T1和上限T2(在給定的顯著水平α下, 若T1<T<T2,則接受H0:f1(x)=f2(x),認(rèn)為兩總體分布無顯著差異。 若T>T2或T<T1,則拒絕假設(shè)H0而接受H1:f1(x)≠f2(x),認(rèn)為兩個總體分布有顯著差異。秩和檢驗(yàn)法
秩和檢驗(yàn)法的原理和符號檢驗(yàn)法類似。 對于兩個總體X1,X2,其概率密度為f1(x)和f2(x),從中分別獨(dú)立抽取樣本觀測值a1,a2,…,am;b1,b2,…bn。如果f1(x)=f2(x)的假設(shè)成立,那么在將兩個樣本的觀測值混合排列的次序中,某個秩數(shù)對應(yīng)的數(shù)是ai和bi的概率應(yīng)是相等的。秩和檢驗(yàn)法 [例6.4]某藥廠生產(chǎn)殺蟲藥品,檢查兩種配方藥品殺蟲的效果(死亡百分?jǐn)?shù))如下:
問兩種配方殺蟲效果有無顯著差異?甲配方效果樣本6765646867646970乙配方效果樣本636264646568707169秩和檢驗(yàn)法解: 將數(shù)據(jù)按秩號排列,并將數(shù)據(jù)少的甲組數(shù)據(jù)用綠色填充區(qū)別乙組數(shù)據(jù)秩號123456789數(shù)據(jù)626364646464656567秩號1011121314151617數(shù)據(jù)6768686969707071秩和檢驗(yàn)法 甲組的秩和T=4.5+4.5+7.5+9.5+9.5+11.5+13.5+15.5=76 在α=0.05下查秩和檢驗(yàn)表,n1=8,n2=9時,T2=90,54=T1<T=76<T2=90,所以判定甲、乙兩種配方的殺蟲效果無顯著差異。124.54.54.54.57.57.59.59.511.511.513.515.515.517
6.6.2總體分布的假設(shè)檢驗(yàn)擬合優(yōu)度檢驗(yàn)法正態(tài)概率紙列聯(lián)表的獨(dú)立性檢驗(yàn)(1)擬合優(yōu)度檢驗(yàn)法
已知總體分布函數(shù)F(x)的類型F0(x)或概率密度 f(x)的類型f0(x)以及總體X的隨機(jī)樣本X1,X2,…,Xn。 H0:F(x)=F0(x)或H0:f(x)=f0(x) H1:F(x)≠F0(x)或H1:f(x)≠f0(x)用檢驗(yàn)法進(jìn)行檢驗(yàn),具體步驟如下: (1)求出F0(x)或f0(x)中未知參數(shù)的估計值(一般用最大似然估計值),從而寫出F0(x)或f0(x)的具體表達(dá)式。 (2)按第二章的分組方法,把樣本值分成m個區(qū)間(a0,a1),(a1,a2),…(ai-1,ai),…,(am-1,am)。(1)擬合優(yōu)度檢驗(yàn)法
(3)求出樣本觀測值在每個區(qū)間(ai-1,ai)內(nèi)的頻數(shù)fi (4)根據(jù)已寫出的F0(x)或f0(x),計算出總體X在每個區(qū)間(ai-1,ai)中的概率值pi。(1)擬合優(yōu)度檢驗(yàn)法
(5)構(gòu)造統(tǒng)計量
對于大樣本,上述統(tǒng)計量近似服從自由度為m-r-1的分布(r是分布函數(shù)概率密度函數(shù)中觀測值估計的參數(shù)個數(shù))。(1)擬合優(yōu)度檢驗(yàn)法
(6)在給定顯著水平α下查出分布表中的臨界值,
,則拒絕原假設(shè)H0。
,則接受原假設(shè)H0。(1)擬合優(yōu)度檢驗(yàn)法
[例6.5]
盒中有5種球,重復(fù)抽取200次,(每次抽1個球)各種球出現(xiàn)的次數(shù)見下表。問盒中5種球的個數(shù)是否相等?顯著水平α=0.05。(1)擬合優(yōu)度檢驗(yàn)法
解:
H0:“5種球的個數(shù)相等”, H1:“5種球的個數(shù)不等”。 由已知n=200,m=5,如果H0正確,則每次抽得第i種球概率pi=1/5種別finpifi-npi(fi-npi)2/npi1234535404338444040404040-503-240.62500.2250.10.4∑20020001.35(1)擬合優(yōu)度檢驗(yàn)法
計算出
查表得:1.35<9.448 接受H0,認(rèn)為盒中5種球的個數(shù)相等。(1)擬合優(yōu)度檢驗(yàn)法
(2)正態(tài)概率紙 正態(tài)概率紙就是一種檢驗(yàn)總體是否為正態(tài)分布的較直觀易行的工具。 正態(tài)概率紙是由垂直于橫軸,縱軸的若干條直線構(gòu)成的格紙。 橫軸是按等份刻度,表示觀測值x 縱軸表示正態(tài)分布累積概率值 縱軸是按非等分刻度,其目的是使服從正態(tài)分布的觀測值在正態(tài)概率紙上的圖形呈一條直線。正態(tài)概率紙的使用步驟:將樣本觀測值分組,且求出各組的頻率和累積頻率在正態(tài)概率紙上畫出相應(yīng)的點(diǎn)用直線連接各點(diǎn)每組區(qū)間右端點(diǎn)為橫坐標(biāo),累積頻率為縱坐標(biāo)如果這些點(diǎn)基本在一條直線上,則可以認(rèn)為樣本來自正態(tài)總體。中間的點(diǎn)應(yīng)盡量地靠近直線,兩端的點(diǎn)可以稍有些偏離。(2)正態(tài)概率紙(2)正態(tài)概率紙 [例6.6]某市1987年一次
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電力設(shè)備網(wǎng)絡(luò)安全管理規(guī)定
- 臨時展廳簡單搭建協(xié)議
- 水利建設(shè)資金管理合同要點(diǎn)
- 住宅小區(qū)總價承包合同
- 電視制作公司員工借款流程
- 2024手術(shù)室內(nèi)多功能設(shè)備租賃與維護(hù)服務(wù)合同3篇
- 建筑電氣工程師聘用協(xié)議
- 農(nóng)業(yè)產(chǎn)業(yè)信息大棚租賃協(xié)議
- 游樂園設(shè)備租賃協(xié)議
- 酒店管理副總招聘合同模板
- 每日食品安全檢查記錄表
- JTG-D40-2011公路水泥混凝土路面設(shè)計規(guī)范
- 2023年七年級語文上冊期末測試卷(完美版)
- 測繪公司工作個人年度總結(jié)
- MOOC 普通植物病理學(xué)-西北農(nóng)林科技大學(xué) 中國大學(xué)慕課答案
- 【新收入準(zhǔn)則對建筑企業(yè)會計核算的影響:以J公司為例14000字(論文)】
- 一年級數(shù)學(xué)上冊口算比賽
- (高清版)DZT 0282-2015 水文地質(zhì)調(diào)查規(guī)范(1:50000)
- 施工現(xiàn)場消防培訓(xùn)課件
- 2023北京西城五年級(上)期末英語試卷含答案
- icu護(hù)士年終工作總結(jié)
評論
0/150
提交評論