版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、統(tǒng)計學:思想、方法與應用統(tǒng)計學:思想、方法與應用袁衛(wèi)袁衛(wèi) 劉超劉超 第第1章章1. 1. 什么是統(tǒng)計學?什么是統(tǒng)計學?2. 2.如何運用統(tǒng)計學?如何運用統(tǒng)計學?3. 3. 統(tǒng)計學的基本概念統(tǒng)計學的基本概念4. 4.數(shù)據(jù)的收集數(shù)據(jù)的收集5. 5.數(shù)據(jù)陣數(shù)據(jù)陣/ /數(shù)據(jù)文件數(shù)據(jù)文件6. 6.統(tǒng)計學和數(shù)學、統(tǒng)計軟件的關(guān)系統(tǒng)計學和數(shù)學、統(tǒng)計軟件的關(guān)系學習目標學習目標 用一句話說明統(tǒng)計學;用一句話說明統(tǒng)計學; 理解我們?yōu)槭裁匆獙W習統(tǒng)計學;理解我們?yōu)槭裁匆獙W習統(tǒng)計學; 懂得如何運用統(tǒng)計學;懂得如何運用統(tǒng)計學; 知道統(tǒng)計學的基本概念;知道統(tǒng)計學的基本概念; 什么是描述統(tǒng)計學和推斷統(tǒng)計學;什么是描述統(tǒng)計學和推
2、斷統(tǒng)計學; 了解數(shù)據(jù)如何收集以及數(shù)據(jù)收集中存在的問題;了解數(shù)據(jù)如何收集以及數(shù)據(jù)收集中存在的問題; 知道常用的統(tǒng)計軟件。知道常用的統(tǒng)計軟件。 數(shù)據(jù)顯示,數(shù)據(jù)顯示,2010年中國名義年中國名義GDP為為58786億美元,億美元,GDP增速為增速為10%左右。而左右。而2010年日本名義年日本名義GDP為為54742億美元,億美元,GDP增速為增速為3.9。中國。中國GDP比日本多比日本多4044億美億美元,這意味著中國超越日本成為世界第二大經(jīng)濟體。盡管中元,這意味著中國超越日本成為世界第二大經(jīng)濟體。盡管中國總量國總量GDP超過日本,但中國人均超過日本,但中國人均GDP卻只有日本卻只有日本1/10,
3、在世界排名第在世界排名第100位左右,不到世界平均水平的一半。這樣位左右,不到世界平均水平的一半。這樣的結(jié)果對我們的結(jié)果對我們意味著意味著什么呢?毫無疑問,我們需要知道一些什么呢?毫無疑問,我們需要知道一些統(tǒng)計知識。統(tǒng)計知識。1960到到2009全球主要國家人均全球主要國家人均GDP的增長圖表(來源:的增長圖表(來源:Google網(wǎng)站)網(wǎng)站) 作為一名潛在的汽車購買者和一名有責任心的市民,你作為一名潛在的汽車購買者和一名有責任心的市民,你樂意為保護地球生態(tài)環(huán)境應有的貢獻。你應該買使用柴油發(fā)動樂意為保護地球生態(tài)環(huán)境應有的貢獻。你應該買使用柴油發(fā)動機的汽車,還是購買電動車,或者干脆騎自行車呢?報紙
4、、雜機的汽車,還是購買電動車,或者干脆騎自行車呢?報紙、雜志或網(wǎng)絡(luò)中的志或網(wǎng)絡(luò)中的統(tǒng)計結(jié)果統(tǒng)計結(jié)果對于你的決定非常關(guān)鍵,這些結(jié)果建議對于你的決定非常關(guān)鍵,這些結(jié)果建議你該有怎樣的消費觀。你該有怎樣的消費觀。 低碳社會要求汽車廠商根據(jù)他們的總產(chǎn)量生產(chǎn)一定比例的低碳社會要求汽車廠商根據(jù)他們的總產(chǎn)量生產(chǎn)一定比例的電動車,以減少機動車造成的空氣污染,這已開始成為整個國電動車,以減少機動車造成的空氣污染,這已開始成為整個國家的趨勢。對于立法者來說,統(tǒng)計信息在使他們家的趨勢。對于立法者來說,統(tǒng)計信息在使他們相信相信并檢測使并檢測使用電動車在改進空氣質(zhì)量上的有效性方面起著關(guān)鍵性的作用。用電動車在改進空氣質(zhì)量
5、上的有效性方面起著關(guān)鍵性的作用。 在金融危機發(fā)生后,各國政府對于國家經(jīng)濟在金融危機發(fā)生后,各國政府對于國家經(jīng)濟的現(xiàn)狀和對未來經(jīng)濟走勢的預測十分的現(xiàn)狀和對未來經(jīng)濟走勢的預測十分關(guān)注關(guān)注,每個,每個月都要編制月都要編制CPI等各類指數(shù)以評價通貨膨脹情況。等各類指數(shù)以評價通貨膨脹情況。有關(guān)商品銷售額、新開工的住宅、貨幣流通以及有關(guān)商品銷售額、新開工的住宅、貨幣流通以及工業(yè)生產(chǎn)的信息僅僅是構(gòu)成預測基礎(chǔ)的成百上千工業(yè)生產(chǎn)的信息僅僅是構(gòu)成預測基礎(chǔ)的成百上千類信息的一小部分。我們該如何解讀這些數(shù)據(jù)呢類信息的一小部分。我們該如何解讀這些數(shù)據(jù)呢?知道一些統(tǒng)計知識?知道一些統(tǒng)計知識有助于有助于我們知道這些數(shù)據(jù)是我
6、們知道這些數(shù)據(jù)是如何與我們的生活息息相關(guān)的。如何與我們的生活息息相關(guān)的。 假設(shè)你是市場部的新任經(jīng)理,一次廣告活動假設(shè)你是市場部的新任經(jīng)理,一次廣告活動的統(tǒng)計結(jié)果擺到了你面前,聲稱某個結(jié)果是的統(tǒng)計結(jié)果擺到了你面前,聲稱某個結(jié)果是“統(tǒng)計統(tǒng)計顯著顯著”的。你如何解釋這份報告而又不暴露你對該的。你如何解釋這份報告而又不暴露你對該術(shù)語的無知呢?趕快學點統(tǒng)計,這對你和你的事術(shù)語的無知呢?趕快學點統(tǒng)計,這對你和你的事業(yè)都非常有用。業(yè)都非常有用。1.11.1什么是統(tǒng)計學什么是統(tǒng)計學 在三百多年前,統(tǒng)計的英文單詞在三百多年前,統(tǒng)計的英文單詞Sta atistics首次被人首次被人們應用。們應用。 統(tǒng)計學是研究收
7、集數(shù)據(jù)、整理數(shù)據(jù)、分析數(shù)據(jù)以及統(tǒng)計學是研究收集數(shù)據(jù)、整理數(shù)據(jù)、分析數(shù)據(jù)以及由數(shù)據(jù)分析得出結(jié)論的方法,簡稱為由數(shù)據(jù)分析得出結(jié)論的方法,簡稱為“數(shù)據(jù)的科學數(shù)據(jù)的科學” 2010 2010年年6月月3日,第日,第64屆聯(lián)合國大會第屆聯(lián)合國大會第90次會議通過次會議通過決議確定每年決議確定每年10月月20日為日為“世界統(tǒng)計日世界統(tǒng)計日”。 2011年初,國務(wù)院學位委員會在新的研究生專業(yè)目年初,國務(wù)院學位委員會在新的研究生專業(yè)目錄中將統(tǒng)計學上升為錄中將統(tǒng)計學上升為一級學科一級學科,為統(tǒng)計學科和統(tǒng)計教,為統(tǒng)計學科和統(tǒng)計教育的發(fā)展提供了更廣闊的平臺,也顯示出統(tǒng)計對科學育的發(fā)展提供了更廣闊的平臺,也顯示出統(tǒng)計
8、對科學研究、經(jīng)濟增長和社會發(fā)展的重要性。研究、經(jīng)濟增長和社會發(fā)展的重要性。人物小傳:瓦爾德人物小傳:瓦爾德 有人把統(tǒng)計學定義為數(shù)據(jù)處理的一門藝術(shù),有人把統(tǒng)計學定義為數(shù)據(jù)處理的一門藝術(shù),瓦爾德瓦爾德(A. WaldA. Wald,1902190219501950年)年)的事例就是明證。的事例就是明證。 瓦爾德是二戰(zhàn)時期的統(tǒng)計學家,他發(fā)明的一些統(tǒng)計方瓦爾德是二戰(zhàn)時期的統(tǒng)計學家,他發(fā)明的一些統(tǒng)計方法在戰(zhàn)時被視為法在戰(zhàn)時被視為軍事機密軍事機密。 瓦爾德被咨詢飛機上什么部位應該瓦爾德被咨詢飛機上什么部位應該加強加強鋼板時,他開鋼板時,他開始研究從戰(zhàn)役中返航的軍機上受敵軍創(chuàng)傷的始研究從戰(zhàn)役中返航的軍機上受
9、敵軍創(chuàng)傷的彈孔位置彈孔位置。他。他畫了飛機的輪廓,并且標示出彈孔的位置。資料累積一段畫了飛機的輪廓,并且標示出彈孔的位置。資料累積一段時間后,幾乎把機身各部位都填滿了。于是瓦爾德時間后,幾乎把機身各部位都填滿了。于是瓦爾德提議提議,把剩下少數(shù)幾個沒有彈孔的部位補強把剩下少數(shù)幾個沒有彈孔的部位補強因為這些部位被因為這些部位被擊中的飛機都沒有返航。擊中的飛機都沒有返航。 這是一個簡單但近乎完美的實例,簡單的統(tǒng)計方法一這是一個簡單但近乎完美的實例,簡單的統(tǒng)計方法一旦融入了統(tǒng)計學家的智慧,便顯得生動而唯美!旦融入了統(tǒng)計學家的智慧,便顯得生動而唯美! 1.21.2如何運用統(tǒng)計學如何運用統(tǒng)計學 統(tǒng)計在許多
10、學科中得到廣泛的應用統(tǒng)計在許多學科中得到廣泛的應用。 比如說,學術(shù)研究雜志就依賴于統(tǒng)計結(jié)果比如說,學術(shù)研究雜志就依賴于統(tǒng)計結(jié)果。在許多學科中,一篇文章是否能夠發(fā)表在主要雜在許多學科中,一篇文章是否能夠發(fā)表在主要雜志上,在很大程度上志上,在很大程度上取決于取決于該文章是否能正確地該文章是否能正確地使用統(tǒng)計方法使用統(tǒng)計方法。 除了除了學術(shù)領(lǐng)域,統(tǒng)計在其他領(lǐng)域也被人們廣學術(shù)領(lǐng)域,統(tǒng)計在其他領(lǐng)域也被人們廣泛使用。泛使用。 統(tǒng)計在工業(yè)中得到大量使用,尤其統(tǒng)計在工業(yè)中得到大量使用,尤其用于用于研究研究新產(chǎn)品、質(zhì)量控制和市場開發(fā)中;市場調(diào)查也需新產(chǎn)品、質(zhì)量控制和市場開發(fā)中;市場調(diào)查也需要統(tǒng)計。要統(tǒng)計。讀者文
11、摘的總統(tǒng)選舉調(diào)查讀者文摘的總統(tǒng)選舉調(diào)查 這個故事有關(guān)一次著名的失敗的統(tǒng)計調(diào)查。這個故事有關(guān)一次著名的失敗的統(tǒng)計調(diào)查。 在在19361936年美國總統(tǒng)選舉前,一份名為讀者文摘年美國總統(tǒng)選舉前,一份名為讀者文摘( (Literry Digest)Literry Digest)的雜志曾進行了一次民意調(diào)查。的雜志曾進行了一次民意調(diào)查。調(diào)查的焦點是誰將成為下一屆總統(tǒng)調(diào)查的焦點是誰將成為下一屆總統(tǒng)是挑戰(zhàn)者,堪是挑戰(zhàn)者,堪薩斯州州長阿爾夫薩斯州州長阿爾夫蘭登蘭登( (Alf Landon)Alf Landon),還是現(xiàn)任總,還是現(xiàn)任總統(tǒng)富蘭克林統(tǒng)富蘭克林德拉諾德拉諾羅斯福羅斯福( (Franklin Del
12、ano Franklin Delano Roosevelt)Roosevelt)。 為了了解選民意向,民意調(diào)查專家們?yōu)榱肆私膺x民意向,民意調(diào)查專家們根據(jù)根據(jù)電話簿電話簿和車輛登記簿上的名單給一大批人發(fā)了簡單的調(diào)查表和車輛登記簿上的名單給一大批人發(fā)了簡單的調(diào)查表( (電話和汽車在電話和汽車在1936-1936-年并不像現(xiàn)在這樣年并不像現(xiàn)在這樣普遍普遍,但是這,但是這些名單比較容易得到些名單比較容易得到) )。盡管發(fā)出的調(diào)查表大約有一。盡管發(fā)出的調(diào)查表大約有一千萬張,但收回的千萬張,但收回的比例比例并不高。在收回的調(diào)查表中,并不高。在收回的調(diào)查表中,蘭登蘭登非常受歡迎。于是,該雜志預測蘭登將贏得選
13、舉非常受歡迎。于是,該雜志預測蘭登將贏得選舉。 讀者文摘的總統(tǒng)選舉調(diào)查讀者文摘的總統(tǒng)選舉調(diào)查 你可能對聲稱蘭登將贏得選舉的預測結(jié)果有疑問你可能對聲稱蘭登將贏得選舉的預測結(jié)果有疑問。正如你所懷疑的,在經(jīng)濟大蕭條時期調(diào)查擁有電話。正如你所懷疑的,在經(jīng)濟大蕭條時期調(diào)查擁有電話和汽車的人們,和汽車的人們,并不能并不能夠很好地反映全體選民的觀點夠很好地反映全體選民的觀點。此外此外,只有少數(shù)的調(diào)查表被收回,這一點也是值得,只有少數(shù)的調(diào)查表被收回,這一點也是值得懷疑的。事實表明,懷疑的。事實表明,最終最終是羅斯福而不是蘭登贏得了是羅斯福而不是蘭登贏得了這次選舉。這次選舉。 由此可見,那次的調(diào)查結(jié)果有多么錯誤
14、了。當前由此可見,那次的調(diào)查結(jié)果有多么錯誤了。當前大多數(shù)應用統(tǒng)計不會像這個例子錯得那樣厲害,但即大多數(shù)應用統(tǒng)計不會像這個例子錯得那樣厲害,但即便在今天,我們也很容易發(fā)現(xiàn)統(tǒng)計便在今天,我們也很容易發(fā)現(xiàn)統(tǒng)計被誤用被誤用的情況,尤的情況,尤其在需要考慮選擇正確的樣本時。其在需要考慮選擇正確的樣本時。1.3 1.3 統(tǒng)計學的基本概念統(tǒng)計學的基本概念 1.3.1隨機性和規(guī)律性隨機性和規(guī)律性 我們不能預測我們不能預測某某事情的結(jié)果時,它就和事情的結(jié)果時,它就和隨機性隨機性聯(lián)系起來了。聯(lián)系起來了。例如,擲硬幣,參加統(tǒng)計考試是否會達到預期的分數(shù)。例如,擲硬幣,參加統(tǒng)計考試是否會達到預期的分數(shù)。 把大量隨機事件
15、放在一起時,就表現(xiàn)出令人驚奇的把大量隨機事件放在一起時,就表現(xiàn)出令人驚奇的規(guī)律性規(guī)律性。 比如,考察擲硬幣這樣的隨機事件,如果你將同樣的硬幣擲比如,考察擲硬幣這樣的隨機事件,如果你將同樣的硬幣擲100100次,次,經(jīng)驗經(jīng)驗告訴我們差不多告訴我們差不多5050次正面朝上,次正面朝上,5050次反面朝上。次反面朝上。 類似地,盡管每個人死于二手煙的可能性很小,但是全球每類似地,盡管每個人死于二手煙的可能性很小,但是全球每年有年有6060萬人死于二手煙,這個數(shù)字卻令人難以置信地萬人死于二手煙,這個數(shù)字卻令人難以置信地穩(wěn)定穩(wěn)定。 通過對看起來隨機的現(xiàn)象進行統(tǒng)計分析,統(tǒng)計知識能夠幫助通過對看起來隨機的現(xiàn)
16、象進行統(tǒng)計分析,統(tǒng)計知識能夠幫助我們把隨機性我們把隨機性歸納于歸納于可能的規(guī)律性中可能的規(guī)律性中。統(tǒng)計從我們?nèi)绾斡^察事統(tǒng)計從我們?nèi)绾斡^察事物和事物本身如何真正發(fā)生物和事物本身如何真正發(fā)生這兩個方面這兩個方面幫助我們理解隨機性和幫助我們理解隨機性和規(guī)律性的重要性。規(guī)律性的重要性。 統(tǒng)計可以看做是一項對隨機性中的規(guī)律性的統(tǒng)計可以看做是一項對隨機性中的規(guī)律性的研究研究。1.3.11.3.1隨機性和規(guī)律性隨機性和規(guī)律性 規(guī)律也表現(xiàn)出某種規(guī)律也表現(xiàn)出某種隨機性隨機性。 如果你再擲如果你再擲100100次硬幣次硬幣,正面朝上的次數(shù)正面朝上的次數(shù)幾乎幾乎不會和前不會和前1 10000次完全一樣。在第一個次完
17、全一樣。在第一個100100次中,也許有次中,也許有5252次硬幣的正面朝上次硬幣的正面朝上,然而在第二個,然而在第二個100100次中,也許就有次中,也許就有4949次正面朝上。次正面朝上。 這種偏差發(fā)生于調(diào)查、實驗和其它任何一種方式的數(shù)據(jù)收這種偏差發(fā)生于調(diào)查、實驗和其它任何一種方式的數(shù)據(jù)收集中集中。 比如在某次調(diào)查中,如果對兩個不同群的人做同樣的調(diào)查比如在某次調(diào)查中,如果對兩個不同群的人做同樣的調(diào)查,則有不同的比例的人支持這一觀點,則有不同的比例的人支持這一觀點。這這兩兩個個比例之間的差比例之間的差異主要是由于數(shù)據(jù)本身的隨機性異主要是由于數(shù)據(jù)本身的隨機性引起引起的。的。 在這種意義下來說,
18、統(tǒng)計就成在這種意義下來說,統(tǒng)計就成了對了對數(shù)數(shù)據(jù)中的偏差問題的據(jù)中的偏差問題的研研究究。根。根據(jù)作為統(tǒng)計基礎(chǔ)的數(shù)學理論,我們可以確定一項調(diào)查據(jù)作為統(tǒng)計基礎(chǔ)的數(shù)學理論,我們可以確定一項調(diào)查中的某一比例有多大的隨機性,以及中的某一比例有多大的隨機性,以及在在下一次的重復調(diào)查中下一次的重復調(diào)查中,這個比例可能有多大的偏差。我們還可以指出,兩個比例,這個比例可能有多大的偏差。我們還可以指出,兩個比例之間的差之間的差異異是否大到了隨機性本身所是否大到了隨機性本身所不能解釋不能解釋的地步。我們的地步。我們將在以后章節(jié)中詳細討論這些思想將在以后章節(jié)中詳細討論這些思想。比如人的壽命在比如人的壽命在70-90歲
19、歲之間。某人的壽命為之間。某人的壽命為130歲,則不能用隨機性解釋歲,則不能用隨機性解釋1.3.21.3.2概率概率 因為涉及到隨機性因為涉及到隨機性,統(tǒng)計學還需要統(tǒng)計學還需要一一個很重要個很重要的概念的概念概率概率(probability) (probability) 。 概率是一個概率是一個0 0到到1 1之間的數(shù),它告訴我們某一事之間的數(shù),它告訴我們某一事件發(fā)生的機會有多大件發(fā)生的機會有多大。 概率為統(tǒng)計學的第三個方面概率為統(tǒng)計學的第三個方面如何從數(shù)據(jù)中如何從數(shù)據(jù)中得出結(jié)論得出結(jié)論奠定了奠定了基石基石。 我們我們可能可能永遠不能確定兩個數(shù)字的差異是否超永遠不能確定兩個數(shù)字的差異是否超出了
20、隨機性本身所預期的范圍,但是我們可以出了隨機性本身所預期的范圍,但是我們可以確確定定,這種差異發(fā)生的概率是大還是小。根據(jù)這個,這種差異發(fā)生的概率是大還是小。根據(jù)這個基本思想,在很多情況下,我們可以得出關(guān)于我基本思想,在很多情況下,我們可以得出關(guān)于我們所處的這個世界的重要結(jié)論們所處的這個世界的重要結(jié)論。 我們我們將在將在第四章及其后章節(jié)中詳細闡述。第四章及其后章節(jié)中詳細闡述。1.3.31.3.3變量變量 變量變量(variable)(variable) 是是指指一個可以取兩個或一個可以取兩個或更多個可能值的特征、特質(zhì)或?qū)傩?。更多個可能值的特征、特質(zhì)或?qū)傩浴?比如,比如,性別是取兩個值的變量,因為
21、一性別是取兩個值的變量,因為一個人只可能是男性或女性個人只可能是男性或女性。還有其它變量的還有其它變量的例子例子,如人的壽命,體重,以及汽車每升汽如人的壽命,體重,以及汽車每升汽油所能行駛的距離,等等油所能行駛的距離,等等。1.3.31.3.3變量變量圖圖1.1 1.1 變量及其取值變量及其取值1.3.31.3.3變量變量變量的值值(value)通常是對某一特定個體的度量,特定個體可能是指一個人,一個家庭,一個地區(qū),或一個國家。表1.1列出了一些變量、變量的取值及其所測量的個體的例子。從表中可知,性別變量是以人為個體的觀測,孩子的數(shù)目是以家庭為個體的觀測。表表1.1 1.1 變量,值和個體變量
22、,值和個體變量變量變量的值變量的值個體個體性別男,女人學歷小學,中學,本科,碩士,博士人失業(yè)有工作,無工作人孩子數(shù)0, 1, 2, 3,家庭貧困程度嚴重,一般,邊緣,沒有地區(qū)1.3.31.3.3變量變量上面介紹的是經(jīng)經(jīng)驗驗變量變量(empirical variables) ,級處理的對像是我們周圍可觀測到的物質(zhì)世界中的事物。用數(shù)學方法推導的變量稱為理論變量理論變量(theoretical variables)z,t, 和F變量。 與變量相對的概念是常數(shù)常數(shù)(constant)(constant)。在統(tǒng)計中經(jīng)常使用的一種被稱做參數(shù)參數(shù)(parameter)(parameter)的常數(shù)。1.4 1
23、.4 數(shù)據(jù)的收集數(shù)據(jù)的收集 1.4.1 定義變量定義變量 數(shù)據(jù)收集的第一個準則是要清楚測量的是什么。換句話說,變量必須有一個明確的適合研究目的的定義。 這有時是說起來容易做起來難。如果我們對問題考慮得不全面,那么就沒理由指望回答問題的人(一般稱為響應者)能按照我們期望的回答問題。 在我們做研究之前,對變量必須要有一個清晰、詳盡的定義。1.4 1.4 數(shù)據(jù)的收集數(shù)據(jù)的收集 1.4.1 定義變量定義變量 假定我們在一次食品企業(yè)的市場調(diào)查中包含了這樣的問題在您的家庭中有多少個孩子?我們也許認為自己知道想要了解的是什么,但是,沒有理由期待響應者和我們有同樣的想法。1.4 1.4 數(shù)據(jù)的收集數(shù)據(jù)的收集
24、1.4.1 定義變量定義變量 我們也許不加考慮地認為,孩子應定義為一個不滿18歲并和他(她)的親生父母一起生活的人。但如果一個家庭中包含大于18歲的親生子女、前妻或前夫的孩子、養(yǎng)子或養(yǎng)女、過繼子女或者其他年輕的親戚,那該怎么辦呢?對于不和親生父母生活在一起的孩子怎么算呢?對于父母離了婚而共同撫養(yǎng)的孩子怎么算呢?這有很多種發(fā)生混淆的可能。因此,我們在調(diào)查之前首先需要明確孩子的定義。1.4.2 1.4.2 觀測數(shù)據(jù)觀測數(shù)據(jù) 數(shù)據(jù)收集有兩種主要方法,其中一種是當我們觀測現(xiàn)實世界時收集到的數(shù)據(jù),如在不同城市中的流動人口數(shù)量。觀觀測數(shù)據(jù)測數(shù)據(jù)(observational data)(observatio
25、nal data)是指僅通過對世界的觀察是指僅通過對世界的觀察( (而而沒有操縱或控制它沒有操縱或控制它) )所得到的數(shù)據(jù)所得到的數(shù)據(jù)。收集觀測數(shù)據(jù)的研究者們盡量不干涉研究對象的行為模式。 例如,證券分析人員可能會記錄某即將被收購的公司在被收購的前一天的股市收盤價格,并與其宣布被收購的當天的收盤價比較??傮w和樣本總體和樣本收集數(shù)據(jù)是為了從收集的個體中得出結(jié)論。所有我們感興趣的個體就組成了總體總體 (population) (population) 。比如,你讀本教材這一時刻,我國所有居民就構(gòu)成了一個總體。 有時我們能夠收集到總體中所有個體的數(shù)據(jù)。在這種情況下,我們就是對總體做了普查普查(cen
26、sus)(census)。 我國進行的第六次全國人口普查就是希望確定我國所有居民數(shù)。 然而,在苛刻的現(xiàn)實生活中,由于資金、時間有限以及不斷變化的環(huán)境條件,普查通常是很困的。此時,我們需要把收集數(shù)據(jù)限制在總體的一個樣本樣本(sample)(sample)上,樣本是總體的中的一個被選中的部分。樣本的選擇樣本的選擇 統(tǒng)計研究者所面臨的一個關(guān)鍵問題是如何選擇樣本。 我們希望基于樣本得出的結(jié)論能夠適用于該樣本所屬的總體,這依賴于獲得一個好的樣本,否則這是不可能實現(xiàn)的。 以烹調(diào)為例子來幫助你理解為什么一個好的樣本如此重要。 當我們品嘗一勺我們做的湯時,我們關(guān)心的不是這勺湯怎樣,而是整個鍋里的湯味道如何。如
27、果鍋里的湯被充分攪拌了,我們只需品嘗一勺即可知道整鍋湯的味道。我們品嘗的這一勺湯無論是來自家庭廚房中的一個小鍋,還是來自一個更大的鍋,我們都可以窺一斑而知全豹。 這正如我們從總體中選擇一個樣本,從某種意義上來說,需要選擇一個來自攪拌均勻的總體的樣本。如果總體能被攪拌均勻,那么一個包含1000個個體的樣本,不管它是以整個國家為總體,還是以一個城市為總體,都可以告訴我們同樣多的內(nèi)容。樣本的選擇樣本的選擇 我們可以把這個例子應用于樣本調(diào)查。某產(chǎn)品上市之前的市場調(diào)查表明,有70%的人喜該產(chǎn)品。如果樣本選擇正確,這個比例將和整個市場中的消費者中的比例大致相同。類似地,在對大學畢業(yè)生就業(yè)狀況的研究中,檢查
28、畢業(yè)生的某個樣本的目的,不是要看這些抽查到的畢業(yè)生是否能順利就業(yè),而是要要看所有大學畢業(yè)生組成的總體能否順利就業(yè)。選擇的這個樣本應該能夠很好地反映總體,因此也就能夠很好地反映大學畢業(yè)生就業(yè)狀況。 如果不能正確地選擇樣本,那么對于整鍋湯的判斷可能導致錯誤的結(jié)論。如果市場調(diào)查專家們只對他們的家人和朋友提問,那么將可能產(chǎn)生壞樣本。如果只對已經(jīng)就業(yè)的畢業(yè)生進行調(diào)查,而忽略校漂族,那么此樣本將產(chǎn)生錯誤的結(jié)論。由于樣本選擇對于結(jié)果的可信度有重要作用,所以根據(jù)正確的統(tǒng)計原理選擇樣本是非常必要的。 隨機樣本隨機樣本 隨機樣本隨機樣本(random sample)指一個合適的、能夠被推廣應用于更大的總體的統(tǒng)計樣
29、本。從一個紙箱子中抽簽對學生點名回答問題,是選擇隨機樣本的最簡單的例子。疊好的寫有學生名字的紙簽是組成整個總體的個體,每一個個體都有相等的被選中的機會。從這種意義上說完全可能實現(xiàn)總體中所有的群體在某樣本中的代表的數(shù)量比例大致等于這些群體在總體中的比例。比如,如果一個工科院系的班級有25個男生和5個女生,那么在該班級的一個隨機樣本中,每5個男生應該對應著大約1個女生。 當一個總體中的名字或代碼被放進一個紙箱子里,攪拌均勻,并隨機抽取,其結(jié)果就是一個簡單隨機樣本單隨機樣本(simple (simple random sample)random sample) 。本書中每一章末尾的所有公式都基于簡單
30、隨機樣本的使用。方便樣本:如何產(chǎn)生一個方便樣本:如何產(chǎn)生一個 壞的壞的 樣本樣本 研究者們經(jīng)常習慣于研究手頭方便的總體中的個體。例如,醫(yī)學研究者經(jīng)常對他們自己的病人做研究;市場調(diào)查者研究被他們說服進行合作的消費者。 能夠很容易、很經(jīng)濟地得到的樣本稱為方便樣本方便樣本(convenience sample)(convenience sample) 。 從方便樣本中得出的結(jié)果有時候很難推廣到整個總體。 有時候大型商場會要求他們的顧客回答某些問題并收回問卷,由此得到一些樣本。根據(jù)隨機取樣的原則,我們可以對此提出疑問:不在該商場買東西的人顯然不包含在樣本中,而回答問卷的人構(gòu)成了方便樣本,從他們那兒得到
31、的數(shù)據(jù)是不能夠作為該樣本以外的其他人的推廣的;即使對于該商場的顧客總體本身而言,它們也不一定是典型的。這些數(shù)據(jù)只是很好地描述了那些花了時間和精力回答問卷的顧客,僅此而已。抽樣的其它形式抽樣的其它形式 抽取比簡單隨機樣本更復雜的樣本也是可能的。其中一種抽樣方法是隨機選取若干小的地區(qū),然后隨機選取居住在這個地區(qū)的一些人進行直接調(diào)查。這是得到樣本的一種有效途徑。通過調(diào)查每一地區(qū)居住相臨的一些人,研究者們就避免了走好遠的路從一個居住區(qū)到另一個居住區(qū)。任何一種抽樣程序的一個普遍的困難是,很少能完全包含屬于某一特定總體的所有樣本。1.4.3 1.4.3 收集觀測數(shù)據(jù)時的錯誤和誤差收集觀測數(shù)據(jù)時的錯誤和誤差
32、 研究抽樣技術(shù)使我們意識到,很多因素可使樣本中的數(shù)據(jù)產(chǎn)生錯誤并導致錯誤結(jié)論。若僅憑某一樣本中有55%的人認為他們的生活很幸福,我們還不能夠得出結(jié)論說全國人口中的55%的人生活很幸福。從剛開始決定調(diào)查到最后報告結(jié)果,任何一件事情都有可能出錯。大部分調(diào)查也的確犯了這樣或那樣的錯誤。抽樣誤差:并非錯誤的抽樣誤差:并非錯誤的 誤差誤差 調(diào)查中的有些誤差純粹是統(tǒng)計上的,主要的統(tǒng)計誤差即所謂的抽抽樣誤差樣誤差( (sampling error)sampling error)。這并不是某件事出錯造成的誤差,而是指這樣的一個事實:如果研究被再做一遍,結(jié)果未必會和上次一模一樣。例如,前面提到過的在第二個100次
33、擲硬幣中,也許就有49次正面朝上,即正面朝上的比例為49%,不同于第一個100次擲硬幣中正面朝上的比例52%。又例如,在下一次的抽樣中,也許并不是60%的人贊同政府開征的房地產(chǎn)稅,而是57%或63%或其它相近比例的人贊同房地產(chǎn)稅。但是,即便不同的樣本會產(chǎn)生不同的答案,大部分答案仍都位于總體中的真正比例的某一變化范圍內(nèi)。例如,通過每次大約1000個響應者的多次抽樣,大部分樣本(95%)得出的比例和實際的比例至多相差3個百分點。也就是說,抽樣誤差等于加或減三個百分點( 3%)。 這種結(jié)果僅僅是每一個統(tǒng)計研究所固有的隨機性的反映。別忘了這些比例是來自不同的樣本,我們沒有理由相信一個樣本的結(jié)果會和另一
34、個樣本的結(jié)果一模一樣。并且,沒有理由相信某一特定樣本的結(jié)果恰好等于從整個總體可能得到的結(jié)果。抽樣誤差:并非錯誤的抽樣誤差:并非錯誤的 誤差誤差 圖1.2表明當實際的總體比例為50%時,計算機產(chǎn)生的數(shù)據(jù)的情況。其中,100個不同樣本中的95個樣本比例位于47%和53%之間。在這種情況下,我們說有3%的抽樣誤差53%比50%多( +)3個百分點,47%比50%少( -)3個百分點。圖1.2 實際的總體比例和抽樣誤差為3%的例子這一例子是基于實際的總體比例為50%的基礎(chǔ)之上的。而現(xiàn)實中,我們幾乎從來不知道這個數(shù)字。實際上,我們之所以做調(diào)查,就是要估計總體比例。然而,我們通過樣本依然可以計算出抽樣誤差
35、有多大。在第5章和第6章的參數(shù)估計和假設(shè)檢驗中會給出一些計算抽樣誤差的公式。抽樣誤差的大小依賴于得到樣本的方式和樣本中包含的觀測的個數(shù)。樣本越大,誤差越小。如果樣本等于整個總體,則樣本比例就等于總體比例。在總體變化以前,對整個總體做重復研究,就會得到相同的結(jié)果。在這種情況下,抽樣誤差是0。抽樣誤差:并非錯誤的抽樣誤差:并非錯誤的 誤差誤差 在公布任何一次抽樣調(diào)查的結(jié)果時都應說明抽樣誤差的大小,不管是比例、均值還是其它形式。抽樣誤差告訴我們,樣本離總體的實際值可能有多遠。我們將在第5章和第6章的參數(shù)估計和假設(shè)檢驗中再次提到抽樣誤差。未響應誤差未響應誤差 另外一種影響抽樣調(diào)查結(jié)果的誤差是未響應誤差
36、未響應誤差( ( nonresponnonrespons se error)e error) 。未響應誤差是指由于包含在樣本中未響應誤差是指由于包含在樣本中的一部分人未回答調(diào)查而造成的誤差。的一部分人未回答調(diào)查而造成的誤差。這可能是由于某一選定的電話號碼撥了多次也沒有反應或接通后那人拒絕回答問題。郵寄調(diào)查通常比電話調(diào)查有更多的未響應誤差,因為不理會一封信比不理會一個響著的電話容易得多,而且信被寄錯地址的可能性也要比撥一個無人使用的電話號碼的可能性大得多。有時,一次好的電話調(diào)查,通常會有85%至90%的響應率;而一次郵寄調(diào)查的響應率很少有到達50%的. 對研究者來說,高拒絕率是一個很大的問題,因
37、為他們對于被選中但未參與調(diào)查的人了解很少。于是出現(xiàn)許多無法回答的問題:是什么使得人們有了不響應和響應的區(qū)別?相對響應者來說,未響應者是富有還是貧窮?保守還是自由?有影響力還是缺乏影響力?如果他們響應,他們的回答會怎樣影響研究結(jié)果?未響應誤差未響應誤差 我們通過一個最壞的假設(shè)情況來表明未響應誤差的影響可能有多大。假定我們計劃調(diào)查1200個人,卻只有1000人接受了調(diào)查,這意味著我們?nèi)绷?00人的數(shù)據(jù)。在1000個我們調(diào)查的響應者中,我們發(fā)現(xiàn)600人(或60%)贊成某事物而其余人反對它。如果我們假定另外200人也贊成,那么在1200人中就有800人贊成,比例為67%。但另一方面,如果我們假定那20
38、0人反對,那么1200人中只有600人贊成,比例為50%。因此,僅僅由于未響應誤差,觀測樣本中60%的贊成比例有可能實際只是50%和67%之間的一個隨機數(shù)。這就可能給我們的研究結(jié)論帶來很大的差別。 一些經(jīng)驗表明,在大部分情況下,未響應者和響應者并無多大差別。如果我們開始時有一個高的響應率,那么可假定未響應者也依同樣的比例作出回答。但是如果響應率很低,例如不超過50%,那么不響應的影響可能會很大。響應誤差響應誤差如果研究者小心一點的話,由調(diào)查得來的數(shù)據(jù)是有可能避免響應誤差響應誤差(response error)(response error)的。響應誤差是在調(diào)查過程中,由于問題的提問方式、問題所
39、響應誤差是在調(diào)查過程中,由于問題的提問方式、問題所處的位置或訪員的影響而使得響應者在回答問題時產(chǎn)生的處的位置或訪員的影響而使得響應者在回答問題時產(chǎn)生的偏差。偏差。我們在這里討論其中的一部分(而不是全部)情況。即使所有的問題都有了回答,我們所知道的也僅僅是調(diào)查時人們告訴訪員的,而未必是他們實際上做的、感覺的或想的。當我們在報紙上讀到,在最近的一次調(diào)查中有55%的人認為他們的生活很幸福,那么我們應該知道這句話其實是這個意思:被調(diào)查并回答了問題的人在當時有55%對訪員說他們認為生活很幸福。1.4.4 1.4.4 實驗數(shù)據(jù):尋找造成結(jié)果的原因?qū)嶒灁?shù)據(jù):尋找造成結(jié)果的原因 收集數(shù)據(jù)的另一種辦法是在實驗中
40、控制一個或多個變量并測量操縱的結(jié)果。例如,如果我們給一組植物施肥,另外一組不給施肥,那么我們就是在控制植物土壤的成分。我們可以測量像增長率、成活率等變量。 實驗數(shù)據(jù)(實驗數(shù)據(jù)(exexp pe erimental datarimental data)是指在實驗中控制實驗對象而收集到的變量的數(shù)據(jù)。實驗是檢驗變量間因果關(guān)系的一種方法。在實驗中,研究者試圖控制某一情形的所有相關(guān)方面,操縱少數(shù)感興趣的變量,然后觀察實驗結(jié)果。1.5 1.5 數(shù)據(jù)陣數(shù)據(jù)陣/ /數(shù)據(jù)文件數(shù)據(jù)文件數(shù)據(jù)表通常叫做數(shù)據(jù)陣或數(shù)據(jù)文件。表1.2是一個根據(jù)抽樣調(diào)查得來的數(shù)據(jù)生成的小數(shù)據(jù)陣的例子。 表表1.21.2一次抽樣調(diào)查的原始數(shù)據(jù)
41、一次抽樣調(diào)查的原始數(shù)據(jù)序號年齡性別態(tài)度120男反對223男贊成317女反對438女中立525女贊成643男贊成738男中立851女贊成935男贊成1.5 1.5 數(shù)據(jù)陣數(shù)據(jù)陣/ /數(shù)據(jù)文件數(shù)據(jù)文件在計算機分析數(shù)據(jù)時,需要把數(shù)據(jù)文件中的描述性文字轉(zhuǎn)化成數(shù)字。每一個人都被分配一個身份號碼作為名字。年齡變量本來就是用數(shù)字測量的,因此不需要任何轉(zhuǎn)化。性別變量的兩個取值是“女”或“男”,因此,“女”用數(shù)字0代替,“男”用數(shù)字1代替。當然還可以使用任何兩個別的數(shù)字,比如用17代替“女”,用23代替“男”。“態(tài)度”這個值可以用三個等級數(shù)1、2和3表示反對、中立和贊成。表表1.3 1.3 適合計算機處理的適合計算機處理的一次抽樣調(diào)查的數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025舊版商品房買賣合同范本
- 移動醫(yī)療與學生心理健康管理服務(wù)的新模式
- 2023年水資源專用機械投資申請報告
- 游戲化學習提升小學生數(shù)學能力的秘密武器
- 2025年粵人版選修4地理上冊階段測試試卷含答案
- 2025年冀教新版選擇性必修1生物上冊月考試卷含答案
- 2025年粵教版七年級物理下冊月考試卷
- 2025年統(tǒng)編版必修2生物上冊月考試卷含答案
- 2025年度智能門禁系統(tǒng)租賃合同范本8篇
- 二零二五版定制門窗個性化定制合同范本4篇
- 物業(yè)民法典知識培訓課件
- 2023年初中畢業(yè)生信息技術(shù)中考知識點詳解
- 2024-2025學年八年級數(shù)學人教版上冊寒假作業(yè)(綜合復習能力提升篇)(含答案)
- 《萬方數(shù)據(jù)資源介紹》課件
- 醫(yī)生定期考核簡易程序述職報告范文(10篇)
- 第一章-地震工程學概論
- 《中國糖尿病防治指南(2024版)》更新要點解讀
- 初級創(chuàng)傷救治課件
- 交通運輸類專業(yè)生涯發(fā)展展示
- 2024年山東省公務(wù)員錄用考試《行測》試題及答案解析
- 神經(jīng)重癥氣管切開患者氣道功能康復與管理專家共識(2024)解讀
評論
0/150
提交評論