版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
社會統計學
(SocialStatistics)
科學只有當它利用了數學的時候,它才達到了完善的程度?!R克思對于追求效率的公民而言,統計思維總有一天會和讀寫能力一樣必要。——H.G.Wells教材及參考書目社會統計學,張彥,高等教育出版社,2005社會統計學,張彥,南京大學出版社,1997社會統計學(第八版),布萊洛克,社會科學文獻出版社社會統計學(重排本),盧淑華,北京大學出版社,2002社會研究的統計分析,李沛良,社會科學文獻出版社17世紀以前,社會統計主要局限于對事物進行原始的調查登記和簡單的計算匯總。如大禹時的九州表,明初的黃冊和魚鱗冊;古埃及、古希臘、古羅馬在公元前400年就建立的出生、死亡登記制度。17世紀后,產生了以工業(yè)、農業(yè)、貿易、交通等方面統計為主的社會經濟統計。國勢學派政治算術學派數理統計學派1.國勢學派代表人物是康令(1606~1681)和阿亨瓦爾(1719~1772)。1749年,阿亨瓦爾根據拉丁文“Status”、意大利文Stato和Statista及德文Statisti等字根創(chuàng)造出“Statistik”這個新詞,原意指“國家顯著事項的比較和記述”。國勢學派可謂“有名無實”的學派:只用文字記述,不用數字計量。它又稱記述學派和歷史學派。2.政治算術學派格朗特1662年在其《自然和社會觀察》一書中,從宗教管理、商業(yè)、氣候、疾病等方面,對當時倫敦人口的出生率、死亡率和性比例等方面進行了綜合的統計分析。威廉·配第1667年在其《政治算術》一書中,運用有關人口、土地稅收和國家收入等方面的數字資料,對英國、荷蘭的經濟實力進行比較,首創(chuàng)了一種數字對比分析的方法。“即用數字、重量、尺度來表達自己想說的問題?!迸c國勢學派相對應,政治算術學派可謂“有實無名”的學派3.數理統計學派凱特勒(1796~1896)首先將概率論原理引入到社會現象的研究,在《社會物理學》,《道德統計》、《論人類》等書中,他認識到人類的社會活動服從于一定規(guī)律,并發(fā)現這種規(guī)律只有通過大量觀察才能被人們所認識。凱特勒被稱為現代統計學之父。1867年,一門兼有數學和統計學雙重性質的學科被命名為“數理統計學”。1886年,高爾頓:相關指數1900年,皮爾遜:卡方檢驗,復相關計算1928年,戈塞特t;費舍F1950S,拉扎斯菲爾德:自動化處理1966年,斯坦福:SPSS4.社會統計學派凱特勒的另一個重要貢獻,是他把政治經濟學、數學和當時政府統計工作的方法結合在一起,建立了一個專門研究社會現象的統計學派。后來這個學派傳到德國,就出現了以克尼斯(1821—1898)、梅爾(1841—l923)和恩格爾(1821—1896)為代表的德國社會統計學派。第一次世界大戰(zhàn)前后,隨著社會統計學派的中心逐步向英、美等國轉移,社會統計學與社會學的關系日益明確。1900年,馬約·史密斯《統計學和社會學》。1920年,史特威·恰平《實地調查與社會研究》。恰平還著有《社會學中的科學方法》等書。二次大戰(zhàn)后,社會統計學在廣義和狹義兩方面的實踐意義逐步得到了人們的公認。20世紀60年代以來,西方發(fā)達資本主義國家先后都制定了社會發(fā)展計劃。20世紀60年代首先在美國掀起了一個頗有聲勢的“社會指標運動”。1966年,雷蒙·布埃爾提出用社會指標的方法解決社會分析和社會規(guī)劃的基本理論,出版了《社會指標》一書。1976年,經互會《社會統計基本指標體系》1976年,OECD《社會生活質量的計量》1982年,國家統計局成立社會統計司1983年,《中國社會統計資料》首次公開出版標題部分1、標題置于表格正上方2、總標題所示要點與表中項目一致,在需要時還應表明資料所屬的時間和地區(qū)3、表次:左;單位:右4、對分頁的同一表格,在每頁上端都要寫標題,加(續(xù)一)、(續(xù)二)欄目部分1、先局部后整體2、若欄目較多,可加以編號;統計數字間有計算關系的,可用計算式表達。線格部分1、統計表上下兩端線應以粗線或雙細線標劃,表的左右兩側開口。2、各欄間用直線標劃,大項目間線條較粗,小欄目線條較細;各行間不必劃線條。數字部分1、表中數字要對準位數。2、不存在某數字時,用“——”表示;缺少某項數字時,用“……”表示。3、數字較大時,加分位點。其他規(guī)則1、資料來源寫在表格下方。2、有說明解釋需要時,在表下方注釋。3、單位有數種時而不能在表右上角劃一標注時,分兩種情況處理。1.單項式變量數列——數列中每一組的變量值只有一個。單項數列用于離散變量整數值變動幅度較小時。某社區(qū)各戶人口數統計表對于等距分組且為閉口組的情況,確定組距已有某些數學公式可供參考,但最佳決定還是依據常識和數列使用的目的而定。一般地說,組距應不小于可以忽略的數值之差。注意,在資料被整理成數列時,全距可適當放大(但不能縮小),以便組數(或組距)取整數值。異距分組異距分組主要在變量變動并不是均勻的、有急劇上升或突然下降之類情況發(fā)生時考慮。標準組距頻數的換算方法:(1)選定某一合適的組距為標準組距;(2)用標準組距除以各組組距,得到折合系數;(3)將各組的折合系數乘以各組的頻數。累計頻數(F)向上累計——以變量數列首組的頻數為始點,逐個累計各組的頻數,展示小于該組上限的頻數和。向下累計——以變量數列末組的頻數為始點,逐個累計各組的頻數,展示大于該組下限的頻數和。頻數分布不但可以用統計表的形式表現,也可以用統計圖的形式表現。用統計圖表示頻數分布,較之用統計表,要直觀便捷得多。但缺點是不及統計表精確。統計圖的種類很多,本節(jié)僅就與頻數分布數列相銜接的統計圖加以介紹。根據編制好的頻數分布數列,可以繪制出相應的統計圖,最常用的有頻數分布直方圖、折線圖、曲線圖以及累計頻數分布曲線。具體方法是:先畫直角坐標系,橫軸代表分組或各組組限,縱軸代表各組頻數或頻率,然后再根據相應的分配數列作圖。條件下,很顯然各矩形的面積與其高度成正比。因此,各矩形的面積同樣可以用來表示各組的頻數或頻率,而且看起來更形象直觀。如果取各矩形的總面積為1,各矩形的面積必定等于各組的相對頻數。直方圖(Histograms)直方圖是用矩形(或長條)的高度來表示數列各組的頻數或頻率。對于定類變量和定序變量的分組,矩形(或長條)的寬度是沒有意義的,各矩形之間要留出一定的空隙;對于定距變量(和定比變量)的分組,矩形的寬度表示各組組距,各矩形之間一般不留空隙。在等距分組的其實,在頻數分布圖中,用面積來理解頻數分布狀況更合適。比如直方圖,當處理異距分組時應該用矩形面積而不是用矩形高度來顯示頻數分布。下面是根據表3.15繪制出的兩個直方圖。左圖用矩形高度來表示各組頻數就會產生錯覺。右圖是按照標準組距頻數作出來的,用矩形面積來表示各組頻數就避免了不必要的錯覺。以后當我們接觸正態(tài)曲線等曲線后,將進一步體會到用面積來表示頻數分布的好處。折線圖(Polygon)表示頻數分布的另一種圖形是頻數多邊形圖,簡稱折線圖。直接把直方圖各矩形頂部的中點用直線連接起來,并把原來的矩形抹掉,就得到頻數多邊形圖。當變量數列中的組數愈加增多,變量值也非常多時,折線圖會逐步過渡到平滑曲線。頻數分布曲線圖實質上是對應于連續(xù)變量的頻數分布的函數關系圖。下表是諾貝爾獲獎者的年齡分布表。(1)請根據數據制作直方圖和折線圖;(2)將折線圖修勻為一條曲線圖,并描述該曲線的特點。常見曲線圖類型●邏輯斯蒂曲線:變量值分布的次數隨變量值增大而增多或相反,但有上限?!窭塾嬵l數分布曲線顯然,累計頻數分布曲線只有兩種形狀:或持續(xù)增長的或持續(xù)減少的。這分別取決于向上累計或向下累計。累計頻數分布曲線一般都呈邏輯斯諦曲線形,其斜率最大的地方對應于頻數最大的組,其水平的地方對應于空組?;嵯禂档挠嬎愎?,可以根據定義,用求三角形和梯形面積的方法,很簡單地推導出來,即第四章集中趨勢測量法。下面是一個小故事:一個人到某公司求職,經過調查,得出關于該公司工資的一些數據,如果是你,應該如何選擇?我們有三種方法選擇集中趨勢:(1)根據頻數:哪個變量值出現次數越多,就選擇哪個變量值,比如民主決策的表決機制。(2)根據居中:比如一個城鎮(zhèn)居民的生活水平,居中的是小康家庭,那么就用小康家庭來代表該城鎮(zhèn)的生活水平。(3)根據平均:用平均數來代表變量的平均水平。關于集中趨勢的一個故事吉斯莫先生有一個小工廠,生產超級小玩意兒。管理人員由吉斯莫先生、他的弟弟、六個親戚組成。工作人員由5個領工和10個工人組成。工廠經營得很順利,現在需要一個新工人。現在吉斯莫先生正在接見薩姆,談工作問題。吉斯莫:我們這里報酬不錯。平均薪金是每周300美元。你在學徒期間每周得75美元,不過很快就可以加工資。薩姆工作了幾天之后,要求見廠長。薩姆;你欺騙我!我已經找其他工人核對過了,沒有一個人的工資超過每周100元。平均工資怎么可能是一周300元呢?吉斯莫:啊,薩姆,不要激動。平均工資是300元。我要向你證明這一點。吉斯莫:這是我每周付出的酬金。我得2400元,我弟弟得1000元,我的六個親戚每人得250元,五個領工每人得200元,10個工人每人100元。總共是每周6900元,付給23個人,對吧?薩姆:對,對,對!你是對的,平均工資是每周300元。可你還是蒙騙了我。吉斯莫;我不同意!你實在是不明白。我已經把工資列了個表,并告訴了你,工資的中位數是200元,可這不是平均工資,而是中等工資。薩姆:每周100元又是怎么回事呢?吉斯莫:那稱為眾數,是大多數人掙的工資。吉斯莫:老弟,你的問題是出在你不懂平均數、中位數和眾數之間的區(qū)別。薩姆:好,現在我可懂了。我……我辭職!第一節(jié)算術平均數(MEAN)注意:對求和符號,此時流動腳標的變動范圍是1,2,3,…,N,N是總體單位數。[例]求74、85、69、9l、87、74、69這些數字的算術平均數。注意:對求和符號,此時流動腳標的變動范圍是1,2,3…,n,n是組數,而不是總體單位數。很顯然,算術平均數不僅受各變量值(X)大小的影響,而且受各組單位數(頻數)的影響。由于對于總體的影響要由頻數(f)大小所決定,所以f也被稱為權數。值得注意的是,在統計計算中,權數不僅用來衡量總體中各標志值在總體中作用,同時反映了指標的結構,所以它有兩種表現形式:絕對數(頻數)和相對數(頻率)。這樣一來,在統計學中,凡對應于分組資料的計算式,都被稱為加權式。[例]求下表(單項數列)所示數據的算術平均數。對于組距數列,要用每一組的組中值權充該組統一的變量值。[例]求下表所示數據的的算術平均數第二節(jié)中位數(Median)例求54,65,78,66,43這些數字的中位數。例、求54,65,78,66,43,38這些數字的中位數。(2)組距數列按中位數所在組的下限:按中位數所在組的上限:
4.四分位數中位數所有單位被等分為兩部分,因而被稱為二分位數。類似于求中位數,我們還可求出四分位數、十分位數、百分位數。將總體中的各單位分割成相等的四部分,則這三個分割的變量值就是四分位數。若以Q1、Q2、Q3分別代表第一、第二、第三四分位數。Q2即中位數,Q1、Q3的算法分別是請從下表中指出第一四分位數和第三四分位數求出下表中的第一四分位數和第三四分數第三節(jié)眾數(Mode)1.對于未分組資料直接觀察首先,將所有數據順序排列;然后,只要觀察到某些變量值(與相鄰變量值相比較)出現的次數(或頻數)呈現“峰”值,這些變量值就是眾數。2.對于分組資料單項式:觀察頻數分布(或頻率分布)組距式:求下表中的眾數(1)眾數僅受上下相鄰兩組頻數大小的影響,不受極端值影響,對開口組仍可計算眾數;(2)受抽樣變動影響大;(3)眾數不唯一確定。(4)眾數標示為其峰值所對應的變量值,能很容易區(qū)分出單峰、多峰。因而具有明顯偏態(tài)集中趨勢的頻數分布,用眾數最合適。第四節(jié)幾何平均數、調和平均數(了解)1.幾何平均數Mg(geometricmean)N個變量值連乘積的N次方根。(不能有變量值為0)。適用于:(1)計算某種比率的平均數;(2)計算大致具有幾何級數關系的一組數字的平均數,如經濟指標的平均發(fā)展速度。應該指出,用以計算幾何平均數的各項數值必須大于0,否則就不能計算幾何平均數或計算結果無實際意義。[例]求3,9,27,81,243這些數字的幾何平均數。2.調和平均數Mh(harmonicmean)N個變量值倒數算術平均數的倒數,也稱倒數平均數。適用于:掌握的情況是總體標志總量而缺少總體單位數的資料時。簡單調和平均數加權調和平均數3.各種平均數的關系(1)當總體呈正態(tài)分布時:(2)當總體呈偏態(tài)分布時:中位數總在均數和眾數之間正偏:負偏:(注:和合稱位置平均數)(3)皮爾遜發(fā)現,在鐘形分布的偏態(tài)不大顯著時,、、三者大致構成一個比較固定的關系:離中趨勢測量法例如有A、B、C、D四組學生各5人的成績如下:
A組:60,60,60,60,60
B組:58,59,60,61,62
C組:40,50,60,70,80
D組:80,80,80,80,80
數據顯示,平均數相同,離勢可能不同;平均數不同,離勢可能相同。變異指標用以反映總體各單位標志值的變動范圍或參差程度,與平均指標相對應,從另一個側面反映了總體的特征。變異指標如按數量關系來分有以下兩類;凡用絕對數來表達的變異指標,統稱絕對離勢;凡用相對數來表達的變異指標,統稱相對離勢;第一節(jié)全距與四分位差1.全距(Range)[例]求74,84,69,91,87,74,69這些數字的全距。[解]把數字按順序重新排列:69,69,74,74,84,87,91,顯然有R=Xmax–Xmin=91—69=222.四分位差(Quartiledeviation)第三四分位數和第一四分位數的半距。避免全距受極端值影響大的缺點。第二節(jié)平均差(Meanabsolutedeviation)要測定變量值的離中趨勢,尤其是要測定各變量值相對于平均數的差異情況,一個很自然的想法就是計算各變量值與算術平均數的離差。平均差是離差絕對值的算術平均數。(meandeviation)1.對于未分組資料A·D=2.對于分組資料A·D=3.平均差的性質[例1]試分別以算術平均數為基準,求85,69,69,74,87,91,74這些數字的平均差。[例2]試以算術平均數為基準,求下表所示數據的平均差。第三節(jié)標準差(standarddeviation)求72、81、86、69、57這些數字的標準差。2.對于分組資料[例]調查大一男生60人的身高情況如下表所示,求他們身高的標準差。[解]因為是分組資料,計算標準差運用加權式,并參見下表標準差是反映總體各單位標志值的離散狀況和差異程度的最佳測度。(1)以算術平均數為基準計算的標準差比以其他任何數值為基準計算的標準差要小?!白钚《朔健毙再|——各變量值對算術平均數的離差的平方和,必定小于他們對任何其他數偏差的平方和。(2)它將總體中各單位標志值的差異全包括在內,受抽樣變動影響小。但在受極端值影響以及處理不確定組距方面,缺點同算術平均數。值得注意的是,在推論統計中我們將發(fā)現,方差是比標準差更有理論價值的概念。所謂方差,即標準差的平方,它直接寫成。也常被稱為變異數。4.標準分(standardscore)以離差和標準差的比值來測定變量與的相對位置。使原來不能直接比較的離差標準化,可以相互比較,加、減、平均。Z分數也有標準正態(tài)變量之稱。按Z值大小編制出的正態(tài)分布表,其用途十分廣泛。Z分數的性質:第四節(jié)相對離勢上述各種反映離中趨勢的變異指標,都具有和原資料相同的計算單位,稱絕對離勢。但欲比較具有不同單位的資料的參差程度,或比較單位雖相同而均值不相同的資料的參差程度,離勢的絕對指標則很可能導致某些錯誤結論。所以,我們還得了解和學習相對離勢。全距系數全距系數是眾數據的全距與其算術平均數之比,其計算公式是平均差系數平均差系數是眾數據的平均差與其算術平均數之比,其計算公式是標準差系數標準差系數是眾數據的標準差與其算術平均數之比,其計算公式是異眾比率能表明眾數所不能代表的那一部分變量值在總體中的比重。2.異眾比率所謂異眾比率,是指非眾數的頻數與總體單位數的比值,用V·R來表示其中:為眾數的頻數;是總體單位數例1:某項調查發(fā)現,現今三口之家的家庭最多(32%),求異眾比率。某開發(fā)商根據這一報導,將房屋的戶型大部分都設計為適合三口之家居住的樣式和面積,你認為如何呢?例2:設為測體重,得到成人組和嬰兒組各100人的兩個抽樣總體。成人組平均體重為65千克,全距為10千克;嬰兒組平均體重為4千克,全距為2.5千克。能否認為成人組體重的離勢比嬰兒組體重的離勢大?例3:對一個群體測量身高和體重,平均身高為170.2厘米,身高標準差為5.30厘米;平均體重為70千克,體重標準差為4.77千克。比較身高和體重的離散程度。3.偏態(tài)系數偏斜系數是以標準差為單位的算術平均數與眾數的離差,其取值一般在0與土3間。偏斜系數為0表示對稱分布,偏斜系數為或則表示極右或極左偏態(tài)。第六章概率與概率分布第一節(jié)基礎概率概率論起源于17世紀,當時在人口統計、人壽保險等工作中,要整理和研究大量的隨機數據資料,這就需要一種專門研究大量隨機現象的規(guī)律性的數學。參賭者就想:如果同時擲兩顆骰子,則點數之和為9和點數之和為10,哪種情況出現的可能性較大?例如17世紀中葉,貴族德?¤梅爾發(fā)現:將一枚骰子連擲四次,出現一個6點的機會比較多,而同時將兩枚擲24次,出現一次雙6的機會卻很少。概率論的創(chuàng)始人是法國的帕斯卡(1623—1662)和費爾馬(1601—1665),他們在以通信的方式討論賭博的機率問題時,發(fā)表了《骰子賭博理論》一書。棣莫弗(1667—1754)發(fā)現了正態(tài)方程式。同一時期瑞士的伯努利(1654一1705)提出了二項分布理論。1814年,法國的拉普拉斯(1749—1827)發(fā)表了《概率分析論》,該書奠定了古典概率理論的基礎,并將概率理論應用于自然和社會的研究。此后,法國的泊松(1781—1840)提出了泊松分布,德國的高斯(1777—1855)提出了最小平方法。在統計學中,我們把類似擲一枚硬幣的行為(或對某一隨機現象進行觀察)稱之為隨機試驗。隨機試驗必須符合以下三個條件:①它可以在相同條件下重復進行;②試驗的所有結果事先已知;③每次試驗只出現這些可能結果中的一個,但不能預先斷定出現哪個結果。[例]對擲一顆骰子的試驗,我們研究如下事件:①A為“點數是3”;②B為“出現奇數點”;③C為“出現點數不超過6”;④D為“點數是7”。[解]因為Ω={1,2,3,4,5,6},所以①A={3},為簡單事件;②B={1,3,5},為復合事件;③C={1,2,3,4,5,6},為必然事件;④D={7},為不可能事件。2.事件之間的關系(1)事件和(Orconjunction)——事件A與事件B至少有一個事件發(fā)生所構成的事件C稱為A與B的事件和,記作(2)事件積(As-well-asconjunction)——事件A與事件B同時發(fā)生所構成的事件C稱為A與B的事件積,記作(3)事件的包含與相等——事件A發(fā)生必然致事件B發(fā)生,則稱為B包含A記作(4)互斥事件——事件A和事件B不能同時發(fā)生,則稱B和A是互斥事件,或互不相容事件,記作(5)對立事件——事件A與事件B是互斥事件,且在一次試驗中必有其一發(fā)生,稱A與B為對立事件(逆事件),記作(6)相互獨立事件——事件A的發(fā)生與事件B是否發(fā)生毫無關系,稱A與B為相互獨立事件,記作之間的兩關系隨機事件[例]擲兩枚均勻的硬幣,①求“兩枚都朝上”的概率;②求“一枚朝上,一枚朝下”的概率。這樣對于含有m個樣本點的事件A,其出現的概率為4.經驗概率求算概率的另一途徑是運用頻率法。設想有一個與某試驗相聯系的事件A,把這個試驗一次又一次地做下去,每次都記錄事件A是否發(fā)生了。假如做了n次試驗,而記錄到事件A發(fā)生了m次(即成功m次),則頻數與試驗次數的比值,稱作次試驗中事件A發(fā)生的頻率顯然,頻率具有雙重性質:隨機性和規(guī)律性.當試驗或觀察次數趨近于無窮時相應頻率趨于穩(wěn)定,這個極限值就是用頻率法所定義的概率,即頻率穩(wěn)定到概率這個事實,給了“機會大小”即概率一個淺顯而說得通的解釋,這在統計學上具有很重要的意義。堅持這種觀點的統計學派也就被稱為頻率學派。2.加法規(guī)則如果事件A和事件B互斥,那么如果A和B是任何事件(不一定互斥),加法規(guī)則更普通地表示為如下形式[例]從一副普通撲克牌中抽一張牌,求抽到一張紅桃或者方塊的概率。[例]在一副52張撲克牌中,求單獨抽取一次抽到一張紅桃或愛司的概率。加法規(guī)則可推廣到對兩個以上的事件,若事件A,B,C…K都互斥,那么有
P(A或B或C…或K)=P(A)+P(B)+P(C)…+P(K)
[例]根據上海市職業(yè)代際流動的統計,向下流動的概率是0.07,靜止不動的概率是0.6,求向上流動的概率是多少?[例]為了研究父代文化程度對子代文化程度的影響,某大學統計出學生中父親具有大學文化程度的占30%,母親具有大學文化程度的占20%,而雙方都具有文化程度的占有10%,問從學生中任抽一名,父代至少有一名具有大學文化程度的概率是多少?3.乘法規(guī)則式中符號和代表條件概率。應理解為,“在B已經發(fā)生條件下A發(fā)生的概率”。條件概率的意思是,A發(fā)生的概率可能與B是否發(fā)生有關系。換言之,B已經發(fā)生時A發(fā)生的概率可能有別于B沒有發(fā)生時A發(fā)生的概率。理解統計獨立的概念,對于靈活運用概率的乘法規(guī)則很重要。現在用條件概率來加以表達,統計獨立是指若A和B在統計上相互獨立(無關),這時乘法規(guī)則可以簡化為[例]假定有下列3000個社區(qū)的數據,如果隨機地從這個總體中抽取一個社區(qū),得到一個中等的而且犯罪率低的社區(qū)的概率是多少?[例]假定數據變動如下,隨機地從這個總體中抽取一個社區(qū),得到一個中等的而且犯罪率低的社區(qū)的概率又是多少?[例]根據統計結果,男嬰出生的概率是22/43,女嬰出生的概率是21/43,某單位有兩名孕婦,問兩名孕婦都生男嬰的概率是多少?都生女嬰的概率是多少?其中一男一女的概率是多少?[例]某居民樓共20戶,其中核心家庭為2戶,問訪問兩戶都是核心家庭的概率是多少?問訪問第二戶才是核心家庭的概率是多少?[例]為了研究父代文化程度對子代文化程度的影響,某大學統計出學生中父親具有大學文化程度的占30%,母親具有大學文化程度的占20%,而雙方都具有文化程度的占有10%,問從學生中任抽一名,父代至少有一名具有大學文化程度的概率是多少?在抽樣方法中還經常涉及到回置抽樣和不回置抽樣。如前所述,所謂回置抽樣,就是抽取的單位登記后又被放回總體中去,然后再進行下一次抽取。使用回置抽樣法,先后兩次抽取是彼此獨立的。因為每一次抽取后抽取到的單位都得返還,總體保持不變,前一次的結果不可能影響到后一次。所謂不回置抽樣,就是不再把抽取到的單位退還總體。這樣先后兩次抽取就不再獨立了,必須使用條件概率的概念。[例]用回置法從一幅普通撲克牌抽取兩次,計算得到兩張愛司的概率。例:用不回置法從一幅普通撲克牌抽取兩次,計算得到兩張愛司的概率。在抽樣方法中還經常涉及到回置抽樣和不回置抽樣。如前所
述,所謂回置抽樣,就是抽取的單位登記后又被放回總體中去,然
后再進行下一次抽取。使用回置抽樣法,先后兩次抽取是彼此獨立
的。因為每一次抽取后抽取到的單位都得返還,總體保持不變,前
一次的結果不可能影響到后一次。所謂不回置抽樣,就是不再把抽
取到的單位退還總體。這樣先后兩次抽取就不再獨立了,必須使用
條件概率的概念。用不回置法從一幅普通撲克牌抽取兩次,計算得到兩張愛司的概率。4.排列和樣本點的計數
要正確解決概率問題,往往光考慮乘法規(guī)則還不夠,還要同時
考慮使用加法規(guī)則。一般最簡單的做法是:首先確定一種符合要求
的排列方式并計算它們發(fā)生的概率,然后再考慮還有沒有其他同樣
符合要求的排列方式。如果存在著其他實現方式,并且都具有相同
的概率,就可以簡單地把排列方式數與以某一給定的排列方式計算
的概率相乘。注意,后一步相當于使用了加法規(guī)則。[例]從一幅洗得很好的撲克牌中做了3次抽取,假定使用回置法,求至少得到1張A和一張K的概率是多少?[解]按照題意,要在不同樣本空間中考慮三種復合事件:抽到1張A和1張K,另l張非A非K,用符號(AKO)表示(其中“O”表示其他);抽到1張A和2張K,用符號(4KK)表示;抽到2張A和1張K,用符號(AAK)表示。因為在不同樣本空間中基本事件實現的概率不同,必須對它們加以區(qū)別。次序為AKO的樣本點實現的概率是次序為AKK的樣本點實現的概率是次序為AAK的樣本點實現的概率是再考慮每個復合事件各含有多少種可能的排列方式(AKK)含有3!/2!=3種排列方式(AAK)含有3?。?!=3種排列方式(AKO)含有3!=6種排列方式所以,在三次抽取中,至少得到1張A和1張K的概率是[例]假如對1000個大學生進行歌曲欣賞調查,發(fā)現其中有500個學生喜歡民族歌曲,400個學生喜歡流行歌曲,而這些學生中有100人屬于既喜歡民族歌曲又喜歡流行歌曲的,剩下來的學生兩種歌曲都不喜歡。如果我們隨機地從該總體中抽取一個學生,并設事件A為該學生喜歡民族歌曲,事件B為該學生喜歡流行歌曲。①用數字證明P(A且B)=P(A)P(B/A)=P(B)P(A/B)②得到一個喜歡兩種風格歌曲之一的學生的概率是多少?③隨機地選取一個由3個學生組成的樣本,要求這三個學生全都有相同的欣賞方式,得到這種樣本的概率是多少?5.運用概率方法進行統計推斷的前提簡單隨機抽樣要求每一個個體擁有相同的被選入樣本的機會。嚴格來講,由于我們實際上總是做不回置抽樣,因此獨立性的假定,是難以完全滿足的。只有在樣本非常大,可以忽略。一個隨機樣本具有以下的性質:不僅要給每一個個體以相等的被抽中的機會,而且要給每一種個體的組合以相等的被抽中的機會。在要概括社區(qū)或其他空間上限定區(qū)域的單位的情況時,也必須注意到缺乏獨立性的問題。第三節(jié)概率分布、期望值與變異數1.離散型隨機變量的概率分布離散型隨機變量的取值是可數的,如果對X的每個可能取值xi計算其實現的概率Pi,我們便得到了離散型隨機變量的概率分布,即2.連續(xù)型隨機變量的概率分布連續(xù)型隨機變量的取值充滿某一區(qū)間,因而取某一數值討論其概率是無意義的。為此,我們引進概率密度的概念來表達連續(xù)型隨機變量的概率分布。這樣一來,隨機變量X取值在區(qū)間{x1,x2}上的概率等于概率密度曲線下面x1與x2兩點之間面積,即所以有概率密度的性質3.分布函數為了從數學上能夠統一對隨機變量的概率進行研究引入分布函數的概念,它被定義為有了分布函數,就可以很容易得到隨機變量X取值在任意區(qū)間{x1,x2}上的概率,即和(離散變量)或(連續(xù)變量)的關系,就像向上累計頻率和頻率的關系一樣。不同之處在于,累計的是概率。但使用分布函數的好處是很明顯的,它不僅在數學上統一了對離散型隨機變量和連續(xù)型隨機變量概率的研究,而且由于它計算概率的起點都固定為―∞,因而可以把概率值換算成表,以易于求得任何區(qū)間的概率,從而達到計算快捷和應用廣泛之目的。[例]求兩顆骰子點數的分布函數。4.數學期望在前面統計分組的討論中,我們在得到頻數(或頻率)分布后,為了對變量有系統概括的認識,分別研究了集中趨勢和離中趨勢。而對集中趨勢和離中趨勢量度,我們分別得到了平均指標和變異指標,其中最有代表性的是算術平均數和標準差。很顯然,現在當我們面對隨機變量的理論分布時,也要對隨機變量的集中趨勢和離中趨勢作概括性的描述,這就引出數學期望和變異數這兩個概念。所謂數學期望,是反映隨機變量X取值的集中趨勢的理論均值(算術平均),記作E(X)。[例]一家保險公司在投保的50萬元人壽保險的保單中,估計每1000保單每年有15個理賠,若每一保單每年的營運成本及利潤的期望值為200元,試求每一保單的保費。[解]依題意知,利潤的期望值E(X)=200(元)設x1表示保費,x2為理賠費[x2=-(500000-x1)],則可得所以,x1=7700(元)。即每一保單每年的保費應定在7700元。數學期望也常常記為μ,在推論統計中同總體均值的記號,而則在推論統計中被作為樣本均值的記號。數學期望和總體均值一樣,都是唯一的,不過它是一個先驗的理論值。由于它是用隨機變量各取值分別乘以取值的概率來計算的,因此數學期望又可稱為隨機變量的加權算術平均數。樣本均值依據統計數據計算而來,但它具有隨機性。在統計推論中,E(X),是“估計”。5.變異數數學期望反映了隨機變量的集中趨勢,但僅知道集中趨勢還不夠,還應該知道隨機變量在均值周圍的離散程度,即離中趨勢。變異數是綜合反映隨機變量取值分散程度的指標,其功能相當于描述統計中已討論過的方差及標準差,記用D(X)。很顯然隨機變量X的變異數也可以寫成變異數的幾個基本性質:第七章假設檢驗我們在第一章就已經知道,推論統計有兩個基本內容:①假設檢驗;②參數估計。有了概率和概率分布的知識,接下來我們要逐步掌握統計檢驗的一般步驟。既然按照數學規(guī)則得到的概率都不能用經驗方法準確求得,于是,理論概率和經驗得到的頻率之間肯定存在某種差別,這就引出了實踐檢驗理論的問題。隨機變量的取值狀態(tài)不同,其概率分布的形式也就不同。本章我們不僅要引出二項分布和正態(tài)分布這兩個著名的概率分布,并且要將它們與抽樣調查聯系起來,以領會統計檢驗,并逐步拓寬其應用面。第一節(jié)二項分布二項分布是從著名的貝努里試驗中推導而來。所謂貝努里試驗,是指只有兩種可能結果的隨機試驗。在實際問題中,有許多隨機現象只包含兩個結果,如男與女,是與非,生與死,同意與不同意,贊成與反對等等。通常,我們把其中比較關注那個結果稱為“成功”,另一個結果則稱為“失敗”。每當情況如同貝努里試驗,是在相同的條件下重復n次,考慮的是“成功”的概率,且各次試驗相互獨立,就可利用與二項分布有關的統計檢驗。雖然許多分布較之二項分布更實用,但二項分布簡單明了,況且其他概率分布的使用和計算邏輯與之相同。所以要理解統計檢驗以及它所涉及的許多新概念,人們幾乎都樂意從二項分布的討論入手。1.二項分布的數學形式從擲硬幣的試驗入手。假定二項試驗由重復拋擲n次硬幣組成,已知硬幣面朝上(成功)的概率是p,面朝下(失敗)的概率是q(顯然有q=1―p)。這樣,對試驗結果而言,成功的次數(即硬幣面朝上的次數)X是一個離散型隨機變量,它的可能取值是0,1,2,3,…,n。而對X的一個具體取值x而言,根據乘法規(guī)則,我們立刻可以就試驗結果計算出一種特定排列方式(先x次面朝上,而后n―x次面朝下)實現的概率,即ppp…pqqq…q=pxqn-x由于正確解決概率問題,光考慮乘法規(guī)則是不夠的,還要考慮加法規(guī)則,于是就x次成功和(n―x)次失敗這個宏觀結果而言所包含的所有排列的方式數,用符號表示這樣,我們就得到了二項試驗中隨機變量X的概率分布,即譬如,二項試驗是將一枚硬幣重復做8次拋擲,假設這枚硬幣是無偏的,即p=q=0.5,那么恰好得到5次面朝上的概率是2.二項分布討論③E(X)=μ=np,D(X)=σ2=npq
④二項分布受p和n變化的影響,只要確定了p和n,成功次數X的分布也隨之確定。因此,二項分布還可簡寫作B(x;n,p)。
⑤二項分布的概率值除了根據公式直接進行計算外,還可查表求得。二項分布表的編制方法有兩種:一種依據概率分布律P(x)編制(見附表2);另一種依據分布函數F(x)編制(見附表3)。其中
[例]某特定社區(qū)人口的10%是少數民族,現隨機抽取6人,問其中恰好2人是少數民族的概率是多少?[解]解法一:根據(7.3)式直接計算解法二:根據附表2中縱列n=6和橫行p=0.1所對應x值,可直接查得B(x;6,0.1)的概率值B(2;6,0.1)=0.0984
解法三:根據附表3求得B(2;6,0.1)=F(2)―F(3)=0.1143―0.0159=0.0984第二節(jié)統計檢驗的基本步驟二項分布是用數學或演繹推理的方法求得的一種理論分布。認識到概率分布是先驗的理論分布這一點很重要,因為我們不禁要問,既然試驗或抽樣調查的結果僅與隨機變量可能取值中的一個相聯系,那么實際試驗或樣本調查對結果的概率分布及前提假設有沒有一個檢驗的問題?具體來講,對于一枚硬幣被重復拋擲8次的二項試驗,經驗告訴我們,一共有9種可能的結果,而且實現這些結果的機會是大不相同的。研究者實際上從來不用經驗的方法求得概率分布,因為通常我們只對一項試驗進行一次或幾次,抽取樣本也是一個或至多不過幾個。既然二項分布是按照數學規(guī)則得到的,那么對這9種結果的可能性我們應該作出何種評價呢?如果實際試驗(或抽樣)得到的結果偏巧就是先驗概率預示的最不可能出現的結果,那么我們是認定純屬巧合,還是開始對用數學或演繹推理方法求得的概率以及理想試驗的種種前提假設產生懷疑?更準確地說,在一枚硬幣被重復拋擲8次的這個二項試驗中,究竟出現什么結果時,我們應該對二項分布及其前提假設產生懷疑呢?是不是只要不是得到4次成功4次失敗這個最大可能性結果就開始懷疑,還是僅當出現8次成功或一次也不成功這兩個極端情況時才產生懷疑呢?這就是統計檢驗的核心問題。統計檢驗是指先建立一個關于總體情況的假設,
繼而抽取一個隨機樣本,然后以樣本的統計量或者統計性質來檢定假設。大數定理表明:就大量觀察而言,事件的發(fā)生具有一定的規(guī)律性。根據概率的大小,人們處理的態(tài)度和方式很不一樣。在日常生活中,人們往往習慣于把概率很小的事件,當作一次觀察中是極不可能看到的事件。例如,人們出門做事就有可能遇到不測事故,但卻很少人因此而不敢出門。原因是:小概率事件極不可能發(fā)生。1.建立假設統計檢驗是將抽樣結果和抽樣分布相對照而作出判斷的工作。取得抽樣結果,依據描述性統計的方法就足夠了。抽樣分布則不然,它無法從資料中得到,非利用概率論不可。而不對待概括的總體和使用的抽樣程序做某種必要的假設,這項工作將無法進行。比如通過擲硬幣的實驗得到二項分布,必須假設:①樣本是隨機的,試驗中各次拋擲相互獨立;②硬幣是無偏的(或稱是誠實的),即p=q=0.5。概括地說,必須首先就研究總體和抽樣方案都做出假設,再加上概率論,我們就可以對各種可能結果做具體的概率陳述了。2.求抽樣分布在做了必要的假設之后,我們就能用數學推理過程來求抽樣分布了。比如在這一章開頭,在硬幣重復拋擲n次的理想實驗中,我們計算了成功次數為x的宏觀結果所具有的概率,得到二項分布。如果前提假設變動了,還可以求出其他形式的概率分布,如正態(tài)分布、泊松分布、卡方分布等等,它們都有特定的方程式。由于數學上已經取得的成果,實際上統計工作者要做的這項工作往往并不是真的去求抽樣分布的數學形式,而是根據具體需要,確定特定問題的統計檢驗應該采用哪種分布的現成的數學用表。3.選擇顯著性水平和否定域在統計檢驗中,那些不大可能的結果稱為否定域。如果這類結果真的發(fā)生了,我們將否定假設;反之就不否定假設。在統計檢驗中,通常把被檢驗的那個假設稱為零假設(用符號H0表示),并用它和其他備擇假設(用符號H1表示)相對比。在統計檢驗中,無論是拒絕或者接受原假設,都不可能做到百分之百的正確,都有一定的錯誤。第一類錯誤是,零假設H0實際上是正確的,卻被否定了。第二類錯誤則是,H0實際上是錯的,卻沒有被否定。遺憾的是,不管我們如何選擇否定域,都不可能完全避免第一類錯誤和第二類錯誤,也不可能同時把犯兩類錯誤的危險壓縮到最小。對任何一個給定的檢驗而言,第一類錯誤的危險越小,第二類錯誤的概率就越大;反之亦然。一般來講,不可能具體估計出第二類錯誤的概率值。第一類錯誤則不然,犯第一類錯誤的概率是否定域內各種結果的概率之和。被我們事先選定的可以犯第一類錯誤的概率,叫做檢驗的顯著性水平(用α表示),它決定了否定域的大小。因此,有人也把第一類錯誤稱之α錯誤。相應地第二類錯誤被人稱為錯誤。在原假設成立的條件下,統計檢驗中所規(guī)定的小概率標準一般取為α=0.05或α=0.01。由α所決定的否定域與接受域之間的分界值被稱為臨界值,如Zα。如果抽樣分布是連續(xù)的,否定域可以建立在想要建立的任何水平上,否定域的大小可以和顯著性水平的要求一致起來(后面的正態(tài)檢驗就如此)。如果抽樣分布是非連續(xù)的,就要用累計概率的方法找出一組構成否定域的結果。根據否定域位置的不同,可以將假設檢驗分為雙側檢驗和單側檢驗。奈曼—皮爾遜(Neyman—Pearson)提出了一個原則“在控制犯第一類錯誤的概率不超過指定值的條件下,盡量使犯第二類錯誤小”按這種法則做出的檢驗稱為“顯著性檢驗”,稱為顯著性水平或檢驗水平。4.計算檢驗統計量在完成了上述工作之后,接下來就是做一次與理想試驗盡量相同的實際抽樣(比如實際做一次重復拋擲硬幣的試驗),并從獲取的樣本資料算出檢驗統計量。檢驗統計量是關于樣本的一個綜合指標,但與我們后面參數估計中將要討論的統計量有所不同,它不用作估測,而只用作檢驗。5.判定假設檢驗系指拒絕或保留零假設的判斷,又稱顯著性檢定。在選擇否定域并計算檢驗統計量之后,我們完成最后一道手續(xù),即根據試驗或樣本結果決定假設的取與舍。如果結果落在否定域內,我們將在已知犯第一類錯誤概率的條件下,否定零假設。反之,如果結果落在否定域外,則不否定零假設,與此同時,我們就有了犯第二類錯誤的危險。[例]若想通過拋擲10次硬幣的實驗來檢驗這個硬幣無偏的零假設,通過雙側檢驗0.10顯著性水平,請指出否定域。如果單側檢驗(p<0.5),又將如何?[例]某選區(qū)有選民10000人,其中屬于工貿系統的有4000人,要產生代表6名。假定各系統選民都有同等機會當選代表,(1)代表是工貿系統人員的概率分布;(2)在6名代表中最可能是工貿系統人員占幾名;(3)如果6名代表中有4名是工貿系統的人員,可以否定隨機性的零假設嗎?(α=0.05,單側檢驗,p>0.4)第三節(jié)正態(tài)分布如果說二項分布是離散型隨機變量最具典型意義的概率分布,那么連續(xù)型隨機變量最具典型意義的概率分布就是正態(tài)分布了。一般地講,若影響某一變量的隨機因素很多,而每個因素所起的作用不太大且相互獨立,則這個變量服從正態(tài)分布。更為重要的是,不論總體是否服從正態(tài)分布,只要樣本容量n足夠大,樣本平均數的抽樣分布就趨于正態(tài)分布。正態(tài)分布是最重要的概率分布:(1)許多自然現象和社會現象,都可用正態(tài)分布加以敘述;(2)當樣本足夠大時,都可用正態(tài)近似法解決變量的概率分布問題;(3)許多統計量的抽樣分布呈正態(tài)分布。(3)正態(tài)曲線的外形由σ值確定。對于固定的σ值,不同均值μ的正態(tài)曲線的外形完全相同,差別只在于曲線在橫軸方向上整體平移了一個位置。2.標準正態(tài)分布Z分數(標準正態(tài)變量)用Z分數表達的標準正態(tài)分布,其概率密度為3.正態(tài)曲線下的面積采用標準正態(tài)變量表達正態(tài)分布,使標準差得到了進一步闡明。我們看到,標準差是計算總體單位分布及其標志值變異范圍的主要依據,下圖說明了這一點。(1)變量值在【μ-σ,μ+σ】之間的概率為0.6826。(2)變量值在【μ-2σ,μ+2σ】之間的概率為0.9546。(3)變量值在【μ-3σ,μ+3σ】之間的概率為0.9973。[例]設隨機變量X服從正態(tài)分布N(168,12),試求P(X≤143)。z是負值,表示X的取值處于均值左邊。由于曲線完全對稱,所以使用正態(tài)分布表時可以忽略z的正負號。查表可知,正態(tài)曲線在均值與z=2.08之間所含面積是0.4812。由于總面積的一半是0.5,因P(X≤143)可以由下面計算求得P(X≤143)=0.5―P(0≤Z≤2.08)=0.5―0.4812=1.88%這說明,X的取值小于或等于143的概率大約是2%。由于即將討論的正態(tài)檢驗幾乎都要涉及概率分布的尾端,所以此例說明的是一個非常普遍的問題。4.二項分布的正態(tài)近似法
通過前面的討論,我們已經知道二項分布受成功事件概率p和重復次數n兩個參數的影響,只要確定了p和n,二項分布也隨之確定了。但是,二項分布的應用價值實際上受到了n的很大限制。也就是說,只有當n較小時,我們才能比較方便地計算二項分布。所幸的是,二項分布是以正態(tài)分布為極限的。所以當n很大時,只要p或q不近于零,我們就可以用正態(tài)近似來解決二項分布的計算問題。即以np=μ、npq=σ2,將B(x;n,p)視為N(np,npq)進行計算。在社會統計
中,當n≥30,np、nq均不小于5時,對二項分布作正態(tài)近似是可靠的。第四節(jié)中心極限定理一旦統計的學習進入到推論統計,我們就必須同時與三種不同的分布概念打交道,即總體分布、樣本分布、抽樣分布。為了不產生混淆,視分布不同,將統計指標的符號加以區(qū)別是完全必要的。對那些反映標志值集中趨勢和離中趨勢的綜合指標,尤其對均值和標準差(或方差)。1.中心極限定理我們知道,概率論中用來闡明大量隨機現象平均結果的穩(wěn)定性的定理,是著名的大數定理。其具體內容是:頻率穩(wěn)定于概率,平均值穩(wěn)定于期望值。但是,大量隨機現象的穩(wěn)定性不僅表現在平均結果上,同時也表現在分布上,這就是中心極限定理所要闡明的內容。顯然,推論統計需要有一座能夠架通抽樣調查和抽樣分布的橋梁。中心極限定理告訴我們:如果從任何一個具有均值μ和方差σ2的總體(可以具有任何分布形式)中重復抽取容量為n的隨機樣本,那么當n變得很大時,樣本均值的抽樣分布接近正態(tài),并具有均值μ和方差。無疑,中心極限定理大大拓展了正態(tài)分布的適用面,同時我們得到了以下重要信息:
(1)雖然樣本的均值可能和總體均值有差別,但我們可期望這些將聚集在μ的周圍。因此均值抽樣分布的算術平均數能和總體的均值很好地重合,這就是為什么總體均值和抽樣分布的均值用同一個μ來表示的緣故。(2)由于抽樣分布的標準差要比總體標準差小,并且,所以如右圖所示,樣本容量越大,抽樣分布的峰態(tài)愈陡峭,由樣本結果來推斷總體參數的可靠性也隨之提高。統計檢驗應用正態(tài)分布和二項分布有兩點區(qū)別:①抽樣分布在這里是連續(xù)的而非離散的,否定域的大小可以和顯著性水平的要求精確地一致起來。②計算檢驗統計量不再像在應用二項分布時那樣,可以不勞而獲了。很顯然,為了能使用現成的正態(tài)分布表,關鍵是要從樣本資料中計算出在N(0,1)形式下的統計量Z,再根據Z是否落在否定城內而對被檢驗假設的取舍作出決定。在上一節(jié)我們曾引出。Z的這種形式適用于N(μ,σ2)的總體,但并不適用于取正態(tài)的抽樣分布。正如我們反復強調的那樣,統計檢驗單純依靠樣本自身是得不出結果的,必須首先在一系列假設的基礎上求出抽樣分布。如果這些假設實際上正確,那么抽樣分布將告訴我們得到一個給定的的可能性是多少。在抽樣分布中,隨機變量的取值是每個,均值是μ,標準差是。因此Z如果作為檢驗統計量,應該用替換X,用替換σ,μ不動,因而有。思考題1、如何理解兩類錯誤及其關系?2、如何理解小概率原理在假設檢驗中的重要性?3、假設檢驗的基本原理和步驟是什么?4、什么是原假設域備擇假設?5、如何理解雙側檢驗與單側檢驗?第五節(jié)總體均值和成數的單樣本檢驗[例]一位研究者試圖檢驗某一社會調查所運用的抽樣程序,該項調查是由一些缺乏經驗的訪問員進行的。研究者懷疑屬于干部和知識分子的家庭抽得過多。過去的統計資料表明,該街區(qū)的家庭收入是7500元,標準差是1500元;此次調查共抽取100個家庭,樣本平均收入是7900元。問:該研究人員是否有理由懷疑該樣本有偏估?(選用α=0.05)[解]根據題意,可做如下假設,并做單側檢驗因α=0.05,查表得Z0.05=1.65,故否定域為根據中心極限定理,檢驗統計量計算得檢驗統計量Z的計算表明,樣本均值比總體均值大2.67個標準差(),超過了顯著性水平規(guī)定的臨界值,調查者應該否定“隨機抽樣”的零假設。也就是說,由于抽樣在程序上不合要求,這項社會調查有必要重新組織。中心極限定理實際解決了大樣本均值的檢驗問題。假定樣本比較大(n>50,這在社會調查中一般都能得到滿足),樣本均值的抽樣分布就與總體分布無關,而服從正態(tài)分布。當H0成立時,樣本均值的觀察值比較集中地分布在總體均值μ周圍;當H0不成立時,將對μ有明顯偏離的趨勢。因而,我們可以在選定的顯著性水平上,通過計算檢驗統計量Z,對零假設進行檢定。注:當σ未知時,只要樣本量很大,就可用S來代替σ。但對于小樣本,Z檢驗就要用t檢驗來替代了,而且還必須嚴格限于正態(tài)總體。[解]根據題意,可作如下的假設,并做雙側檢驗H0:μ=2330元H1:μ≠2330元因α=0.05,查正態(tài)分布表得Zα/2=1.96,故否定域|Z|≥1.96所以,不能認為該單位人均月收入不是2330元,即不能認為該統計報表有誤。提醒:這個統計量最初是由戈塞特(1876一1937)用筆名“學生”發(fā)表,所以這個統計量的抽樣分布稱為學生t分布。比較t和Z,我們注意到它們的分子相同,而分母卻稍有不同:①σ為S所代替(這一點無須解釋);②根號下是n―1。2.小樣本總體均值的檢驗(學生t分布)中心極限定理解決了大樣本均值的檢驗問題。但是當n較小時,用這種方法求出的概率可能是錯誤的,有必要做某種修正。于是有人設計了另一種檢驗統計量當Z為t替代時,雖用因子n—I所導致的修正看起來不大,但在樣本容量較小時,這種修正就會起很大作用了。所以當不知道σ值、且樣本容量較小時,我們應該考慮應用t分布而不是Z分布。通過下式可以編制出t分布表(見附錄5)[例]已知初婚年齡服從正態(tài)分布。根據10人的調查有=23.5歲,S=3歲,問是否可以認為該地區(qū)的平均初婚年齡已超過20歲?(α=0.01)[解]H0:=20;H1:>20因為n小,又不知σ值,因此用t檢驗對自由度9來講,單側檢驗和顯著性水平0.01,查表知否定域為t值等于或大于2.821。再計算檢驗統計量3.大樣本成數的檢驗有時,需要對總體中具有某種特征的單位在總體中所占的的比例p(即總體成數)作顯著性檢驗,如人口中的失業(yè)率、學齡兒童中的失學率等等。成數檢驗與二項檢驗的聯系是不言而愈的。因為在二項檢驗中,隨機變量是樣本的“成功”次數x。而在成數檢驗中,隨機變量是樣本的“成功”比例(即樣本成數),這樣在n一定的情況下,顯然有[例]某地區(qū)成年男性中吸煙者占64%,經過戒煙宣傳后進行抽樣調查,發(fā)現100名被調查者中,有55人是吸煙者,試問戒煙宣傳是否有成效(α=0.05)[解]已知n=100>30,np=l00×0.64=64>5,故可使用正態(tài)檢驗。又知=0.55,p=0.64,q=0.36,則H0:p=0.64H1:p<0.64據題意,選擇單側檢驗,因α=0.05,查正態(tài)分布表得否定域為|Z|≥1.65。再計算檢驗統計量因此,否定零假設,即認為戒煙宣傳收到了顯著成效。練習:1.為了檢驗統計報表的正確性,作了共50人的抽樣調查,人均收入為871元,標準差為21元,問能否證明統計報表中人均收入880元是正確的?(α=0.05)2.許多人在周末睡懶覺以彌補工作日的睡眠不足。最佳睡眠協會的報告說,我們之中有61%的人在周末每夜睡眠多于7小時。從350個成年人的一組隨機樣本發(fā)現235人在上周末有多于7小時的睡眠。以0.05的顯著水平,這證據證明有61%以上該周末每夜多于7小時的睡眠嗎?3.原有的研究表明,上海家庭中不和的占30%。從上海隨機抽取20名戶家庭,調查得出20%的家庭不和。問能否得出上海家庭關系改善的結論?(α=0.05)4.一家保險公司說,客戶索賠的90%在30天以內辦好。為檢驗公司的這種說法,消協選取了75次公司索賠的一組隨機樣本,發(fā)現55次索賠在30天內辦好,他們有充分理由支持“在30天內辦好索賠小于90%”的論點嗎?(α=0.05)5.通過試管受精(IVF)懷孕的第一個嬰兒1978年在英格蘭出生。在此后的20年間,1000萬婦女因為不育接受了這種護理,這種方法的平均成功率為22.5%,但是隨著技術的不斷進步,其成功率還在不斷上升。假定使用IVF方法企圖克服不育的200個婦女的一項最新研究證明,61個是成功懷孕的。此結果證明樣本的成功率比基于歷史成功率所期望的更大嗎(α=0.05)6.某研究員為證實知識分子家庭的平均子女數低于工人家庭的平均子女數(2.5人),隨機抽取了100戶知識分子家庭進行調查,發(fā)現,平均子女數為2.1人,標準差為1.1人,上述看法能否得以證實?(α=0.05)7.據原有資料,某城市居民彩電的擁有率為60%,現根據最新100戶的抽樣調查,彩電的擁有率為62%。問能否認為彩電擁有率有所增長?(α=0.05)第八章常用統計分布第一節(jié)超幾何分布適用:小群體的兩分變量。假定總體為K個成功類、(N-K)個為失敗類1.超幾何分布為離散型隨機變量的概率分布,它的數學形式是2.超幾何分布的數學期望值和方差如果用,則有[例]以隨機方式自5男3女的小群體中選出5人組成一個委員會,求該委員會中女性委員人數的概率分布、期望值與變異數。[解]由題意可知:N=8.K=3,N―K=5.n=5,代入(8.1)式,故概率分布如下:3.關于超幾何分布的近似由于=0.002<0.1,用二項分布近似
計算有,由(8.6)式得第二節(jié)泊松分布適用:稀有事件的研究。一個事件的平均發(fā)生次數是大量實驗的結果,在這些試驗中,此事件可能發(fā)生,但是發(fā)生的概率非常小。泊松分布亦為離散型隨機變量的概率分布,隨機變量X為樣本內成功事件的次數。若λ為成功次數的期望值,假定它為已知。而且在某一時空中成功的次數很少,超過5次的成功概率可忽不計,那么X的某一具體取值x(即稀有事件出現的次數)的概率分布為泊松分布的性質:x的取值為零和一切正整數;圖形是非對稱的,但隨著的λ增加,圖形變得對稱;泊松分布的數學期望和方差均為λ。[例]某城市50天交通事故的頻數分布如表所示,試求泊松理論分布。第三節(jié)卡方分布卡方分布是一種連續(xù)型隨機變量的概率分布,主要用于列聯表檢驗。1.數學形式設隨機變量X1,X2,…Xk,相互獨立,且都服從同一的正態(tài)分布N(μ,σ2)。那么,我們可以先把它們變?yōu)闃藴收龖B(tài)變量Z1,Z2,…Zk,k個獨立標準正態(tài)變量的平方和被定義為卡方分布(分布)的隨機變量(讀作卡方),且關于卡方分布的分布函數,附表7對不同的自由度k及不同的臨界概率α(0<α<1),給出了滿足下面概率式的的值(參見圖)。[解]查卡方分布表(附表7)得[例]試求下列各值:式中:σ2代表總體方差,自由度為n―l。2.卡方分布的性質(1)恒為正值。(2)卡方分布的期望值是自由度k,方差為2k??ǚ椒植既Q于自由度k,每一個可能的自由度對應一個具體的卡方分布??ǚ椒植贾慌c自由度有關,這就給卡方分布的實際應用帶來很大方便。分布由正態(tài)分布導出,但它之所以與正態(tài)分布的參數μ和σ無關,是因為標準正態(tài)變量Z與原來的參數無關。(3)卡方分布具有可加性(4)利用卡方分布可以推出樣本方差S2的分布所以,樣本方差S2落在3.3和8.7之間的概率約為90%。3.樣本方差的抽樣分布[例]由一正態(tài)總體抽出容量為25的一隨機樣本,已知σ2=6,求樣本方差S2在3.3到8.7之間的概率。[解]已知n=25,σ2=6,由得第四節(jié)F分布F分布是連續(xù)性隨機變量的另一種重要的小樣本分布,可用來檢驗兩個總體的方差是否相等,多個總體的均值是否相等。還是方差分析和正交設計的理論基礎。1.數學形式設和相互獨立,那么隨機變量我們把隨機變量F的概率分布稱為F分布,其概率密度記作。本書附表8,對不同自由度(k1,k2)及不同的臨界概率α(0<α<1),給出滿足下列概率式的Fα(k1,k2)的值(參見圖)。[例]試求下列各值:2.F分布性質(1)隨機變量F恒為正值,F分布也是一個連續(xù)的非對稱分布。(2)分布具有一定程度的反對稱性。(3)F分布的期望值與變異數(方差)第九章參數估計
(Parameter’sestimation)參數估計,通俗地說,就是根據抽樣結果來合理地、科學地估計總體的參數很可能是什么?或者在什么范圍。點估計:根據樣本數據算出一個單一的估計值,用來估計總體的參數值。區(qū)間估計:計算抽樣平均誤差,指出估計的可信程度,進而在點估計的基礎上,確定總體參數的所在范圍或區(qū)間。第一節(jié)點估計(Pointestimation)點估計:點值估計,是以一個最適當的樣本統計值來代表總體參數值。估計量如果具有無偏性、一致性和有效性,就可以認為這種統計量是總體參數的合理估計或最佳估計。二、點估計值的計算1.總體均值的點估計2.總體方差的點估計值[例]研究者要調查某社區(qū)居民家庭收入分布的差異情況,現隨機抽查了10戶,得到樣本方差為=200(元2)。試以此資料估計總體家庭收入分布的差異情況。[解]因為樣本容量較小,宜用修正樣本方差作為總體方差點估計量。即===222.2第二節(jié)區(qū)間估計(Intervalestimation)一、有關區(qū)間估計的幾個概念1.置信區(qū)間:區(qū)間估計是求所謂置信區(qū)間的方法。置信區(qū)間就是我們?yōu)榱嗽黾訁当还烙嫷降男判亩邳c估計兩邊設置的估計區(qū)間。2.顯著性水平:用置信區(qū)間來估計的不可靠程度。3.置信度(水平):用置信區(qū)間估計的可靠性(把握度)4.抽樣平均誤差與概率度Z抽樣平均誤差:樣本均值抽樣分布的標準差。反映在參數周圍抽樣平均值的平均變異程度。越大,樣本均值越分散。概率度:Z在參數估計中被稱為概率度,其大小由決定.顯著性水平、置信水平、概率度之間的關系:=0.10時,=0.90,Zα/2=1.65=0.05時,=0.95,Zα/2=1.96=0.01時,=0.99,Zα/2=2.58二、區(qū)間估計的做法從點估計值開始,向兩側展開一定倍數的抽樣平均誤差,并估計總體參數很可能就包含在這個區(qū)間之內。對參數的區(qū)間估計的步驟:1.首先從總體抽取一個樣本,根據收集的樣本資料求出它的均值。2.根據合乎實際的置信水平查表求得概率度3.根據總體標準差和樣本容量求出抽樣平均誤差4.以均值為基準,向兩側展開倍抽樣平均誤差的區(qū)間。抽樣極限誤差(更普遍地可以寫成抽樣估計的允許誤差)抽樣估計的精度三、大樣本,總體均值的區(qū)間估計(根據總體方差是否知道,估計分兩種情況)1.已知2.未知,用代替[例]設某工廠婦女從事家務勞動服從正態(tài)分布[,0.662],根據36人的隨機抽樣調查,樣本每天平均從事家務勞動的時間為2.65小時,求的置信區(qū)間(置信度=0.95)。[解]按題意,此為大樣本,且總體方差已知,又=36,=2.65,=0.66,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年特色小鎮(zhèn)開發(fā)建設合作合同
- 職業(yè)衛(wèi)生課程設計崔曉紅
- 統計學課程設計作業(yè)
- 化工安全生產管理制度
- 自動循環(huán)配料課程設計
- 照明課程設計日志模板
- 中國石化集團公司安全生產監(jiān)督管理制度
- 電骰子 課程設計
- 碩士課程設計論文格式
- 自動大門plc組態(tài)課程設計
- 《建筑施工模板安全技術規(guī)范》(JGJ 162-2008)
- 菜品作業(yè)指導書-06
- 柴油發(fā)電機使用說明書
- 小學勞動教育調查報告
- 電動叉車控制系統詳解帶電路圖
- JGJ-16--民用建筑電氣設計規(guī)范
- 義務教育數學課程標準(2022年版)
- 倉央嘉措詩全集
- 海洛斯操作手冊(說明書)
- 深基坑施工危險源辨識控制措施
- 文史資料選輯合訂本(46卷本第1輯至第136輯)
評論
0/150
提交評論