![北京大學(xué)光華管理學(xué)院應(yīng)用統(tǒng)計(jì)分析課件1.1基本概念回顧01_第1頁(yè)](http://file4.renrendoc.com/view/245f25f5cf0a8e7d4ca4f4035cfd93f9/245f25f5cf0a8e7d4ca4f4035cfd93f91.gif)
![北京大學(xué)光華管理學(xué)院應(yīng)用統(tǒng)計(jì)分析課件1.1基本概念回顧01_第2頁(yè)](http://file4.renrendoc.com/view/245f25f5cf0a8e7d4ca4f4035cfd93f9/245f25f5cf0a8e7d4ca4f4035cfd93f92.gif)
![北京大學(xué)光華管理學(xué)院應(yīng)用統(tǒng)計(jì)分析課件1.1基本概念回顧01_第3頁(yè)](http://file4.renrendoc.com/view/245f25f5cf0a8e7d4ca4f4035cfd93f9/245f25f5cf0a8e7d4ca4f4035cfd93f93.gif)
![北京大學(xué)光華管理學(xué)院應(yīng)用統(tǒng)計(jì)分析課件1.1基本概念回顧01_第4頁(yè)](http://file4.renrendoc.com/view/245f25f5cf0a8e7d4ca4f4035cfd93f9/245f25f5cf0a8e7d4ca4f4035cfd93f94.gif)
![北京大學(xué)光華管理學(xué)院應(yīng)用統(tǒng)計(jì)分析課件1.1基本概念回顧01_第5頁(yè)](http://file4.renrendoc.com/view/245f25f5cf0a8e7d4ca4f4035cfd93f9/245f25f5cf0a8e7d4ca4f4035cfd93f95.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
應(yīng)用統(tǒng)計(jì)分析
1課程介紹主要內(nèi)容:多元統(tǒng)計(jì)為主講授方式:數(shù)據(jù)分析+基礎(chǔ)理論考試:平時(shí)作業(yè)、測(cè)驗(yàn)+
期中期末考試1—16周2參考教材AppliedMultivariateMethodsforDataAnalysis,byDallasE.Johnson,HigherEducationPress,2005.實(shí)用多元統(tǒng)計(jì)分析
陸璇,葉俊譯清華大學(xué)出版社,2008從數(shù)據(jù)到結(jié)論吳喜之中國(guó)統(tǒng)計(jì)出版社多元統(tǒng)計(jì)分析引論張堯庭方開(kāi)泰科學(xué)出版社3統(tǒng)計(jì)基本概念回顧4隨機(jī)性和規(guī)律性5現(xiàn)實(shí)中的隨機(jī)性和規(guī)律性中學(xué)時(shí),就知道自然科學(xué)的許多定律,例如物理中的牛頓三定律,物質(zhì)不滅定律以及化學(xué)中的各種定律等等。但是在許多領(lǐng)域,很難用如此確定的公式或論述來(lái)描述一些現(xiàn)象。比如,人的壽命是很難預(yù)先確定的。一個(gè)吸煙、喝酒、不鍛煉、而且一口長(zhǎng)葷的人可能比一個(gè)很少得病、生活習(xí)慣良好的人活得長(zhǎng)。因此,可以說(shuō),活得長(zhǎng)短是有一定隨機(jī)性的(randomness)。這種隨機(jī)性可能和人的經(jīng)歷、基因、習(xí)慣等無(wú)數(shù)說(shuō)不清的因素都有關(guān)系。6現(xiàn)實(shí)中的隨機(jī)性和規(guī)律性從總體來(lái)說(shuō),我國(guó)公民的預(yù)期壽命卻是非常穩(wěn)定的。而且女性的預(yù)期壽命也穩(wěn)定地比男性高幾年。這就是規(guī)律性。一個(gè)人可能活過(guò)這個(gè)壽命,也可能活不到這個(gè)年齡,這是隨機(jī)的。但是總體來(lái)說(shuō),預(yù)期壽命的穩(wěn)定性,卻說(shuō)明了隨機(jī)之中有規(guī)律性。這種規(guī)律就是統(tǒng)計(jì)規(guī)律。7概率和機(jī)會(huì)你可能經(jīng)常聽(tīng)到概率(probability)這個(gè)名詞。最常見(jiàn)的是在天氣預(yù)報(bào)中提到的降水概率。大家都明白,如果降水概率是百分之九十,那就很可能下雨;但如果是百分之十,就不大可能下雨。因此,從某種意義說(shuō)來(lái),概率描述了某件事情發(fā)生的機(jī)會(huì)。顯然,這種概率不可能超過(guò)百分之百,也不可能少于百分之零。換言之,概率是在0和1之間的一個(gè)數(shù),說(shuō)明某事件發(fā)生的機(jī)會(huì)有多大。8有些概率是無(wú)法精確推斷的比如你對(duì)別人說(shuō)你下一個(gè)周末去公園的概率是百分之八十。但你無(wú)法精確說(shuō)出為什么是百分之八十而不是百分之八十四或百分之七十八。其實(shí)你想說(shuō)的是你很可能去,但又沒(méi)有完全肯定。實(shí)際上,到了周末,你或者去,或者不去;不可能有分身術(shù)把百分之八十的你放到公園,而其余的放在別處。9有些概率是可以估計(jì)的如擲骰子。只要沒(méi)有人在骰子上做手腳,你得到任何點(diǎn)的概率都應(yīng)該是六分之一。這反映了擲骰子的規(guī)律性。但擲出骰子之后所得到的結(jié)果還只可能是六個(gè)數(shù)目之一。這體現(xiàn)了隨機(jī)性。如果你擲1000次骰子,那么,大約有六分之一的可能會(huì)得到6;這也說(shuō)明隨機(jī)結(jié)果也具有規(guī)律;而且有可能通過(guò)試驗(yàn)等方法來(lái)推測(cè)其規(guī)律。10變量做任何事情都有對(duì)象。比如一個(gè)班上注冊(cè)的學(xué)生有200人,這是一個(gè)固定的數(shù)目,稱為常數(shù)(constant)或者常量。但是,如果猜測(cè)今天這個(gè)班有多少人會(huì)來(lái)上課,那就沒(méi)準(zhǔn)了。這有隨機(jī)性??赡苡姓?qǐng)病假或事假的,也可能有逃課的。這樣,將要來(lái)上課的人數(shù)是個(gè)變量(variable)。另外對(duì)某項(xiàng)政策同意與否的回答,也有“同意”、“不同意”或者“不知道”三種可能值;這也是變量,只不過(guò)不是數(shù)量而已。11變量當(dāng)變量按照隨機(jī)規(guī)律所取的值是數(shù)量時(shí)該變量稱為定量變量或數(shù)量變量(quantitativevariable);因?yàn)槭请S機(jī)的,也稱為隨機(jī)變量(randomvariable)。象性別,觀點(diǎn)之類的取非數(shù)量值的變量就稱為定性變量或?qū)傩宰兞炕蚍诸愖兞浚╭ualitativevariable,categoricalvariable)。這些定性變量也可以由隨機(jī)變量來(lái)描述,比如男性和女性的數(shù)目,同意某政策人數(shù)的比例等等。只有當(dāng)變量用數(shù)量來(lái)描述時(shí),才有可能建立數(shù)學(xué)模型,才可能使用計(jì)算機(jī)來(lái)分析。12數(shù)據(jù)有了變量的概念,什么是數(shù)據(jù)呢?拿擲骰子來(lái)說(shuō),擲骰子會(huì)得到什么值,是個(gè)隨機(jī)變量;而每次取得1至6點(diǎn)中任意點(diǎn)數(shù)的概率它在理論上都是六分之一(如果骰子公平)。這依賴于在擲骰子背后的理論或假定;而在實(shí)際擲骰子過(guò)程中,如果擲100次,會(huì)得到100個(gè)由1至6點(diǎn)組成的數(shù)字串;再擲100次,又得到一個(gè)數(shù)字串,和前一次的結(jié)果多半不一樣。這些試驗(yàn)結(jié)果就是數(shù)據(jù)。所以說(shuō),數(shù)據(jù)是關(guān)于變量的觀測(cè)值.13數(shù)據(jù)通過(guò)數(shù)據(jù)可以驗(yàn)證有關(guān)的理論或假定,比如通過(guò)多次擲骰子驗(yàn)證得到每個(gè)點(diǎn)的概率是不是1/6。顧客是否喜歡某種飲品?事先不易猜測(cè)顧客喜歡與否的概率。在問(wèn)了1000人之后,可能有364人說(shuō)喜歡,而480人說(shuō)不喜歡,其余的人可能不回答,或說(shuō)不知道,或從來(lái)沒(méi)有喝過(guò)這種飲料。當(dāng)然,它僅僅反映了1000個(gè)被問(wèn)到的人的觀點(diǎn);但這對(duì)于估計(jì)整個(gè)消費(fèi)群體的觀點(diǎn)還是有用的。從該數(shù)據(jù)可以估計(jì)喜歡該飲料的人占大約左右。14統(tǒng)計(jì)和計(jì)算機(jī)人們?cè)絹?lái)越依賴計(jì)算機(jī)了。最早使用計(jì)算機(jī)的統(tǒng)計(jì)當(dāng)然更離不開(kāi)計(jì)算機(jī)了。事實(shí)上,最初的計(jì)算機(jī)僅僅是為科學(xué)計(jì)算而建造的。大型計(jì)算機(jī)的最早一批用戶就包含統(tǒng)計(jì)。而現(xiàn)在統(tǒng)計(jì)仍然是進(jìn)行數(shù)字計(jì)算最多的用戶。計(jì)算機(jī)現(xiàn)在早已脫離了僅有計(jì)算功能的單一模式,而成為百姓生活的一部分。計(jì)算機(jī)的使用,也從過(guò)去必須學(xué)會(huì)計(jì)算機(jī)語(yǔ)言到只需要“傻瓜式”地點(diǎn)擊鼠標(biāo)。結(jié)果也從單純的數(shù)字輸出到包括漂亮的表格和圖形的各種形式。15統(tǒng)計(jì)軟件統(tǒng)計(jì)軟件的發(fā)展,也使得統(tǒng)計(jì)從統(tǒng)計(jì)學(xué)家的工具變成了大眾的游戲。只要你輸入數(shù)據(jù),點(diǎn)幾下鼠標(biāo),做些選項(xiàng),馬上得到漂亮結(jié)果。是否傻瓜式的統(tǒng)計(jì)軟件的使用可以代替統(tǒng)計(jì)課程了?數(shù)據(jù)的整理和識(shí)別,方法的選用,計(jì)算機(jī)輸出結(jié)果的理解都不象使用傻瓜相機(jī)那樣簡(jiǎn)單可靠。16統(tǒng)計(jì)軟件統(tǒng)計(jì)軟件的種類很多。有些功能齊全,有些價(jià)格便宜;有些容易操作,有些需要更多的實(shí)踐才能掌握。還有些是專門的軟件,只處理某一類統(tǒng)計(jì)問(wèn)題。面對(duì)太多的選擇往往給決策帶來(lái)困難。這里介紹最常見(jiàn)的幾種。17統(tǒng)計(jì)軟件SPSS:很受歡迎;容易操作,輸出漂亮,功能齊全,價(jià)格合理。它也有自己的程序語(yǔ)言,但基本上已經(jīng)“傻瓜化”。它對(duì)于非專業(yè)統(tǒng)計(jì)工作者是很好的選擇。Excel:嚴(yán)格說(shuō)來(lái)并不是統(tǒng)計(jì)軟件,但作為數(shù)據(jù)表格軟件,必然有一定統(tǒng)計(jì)計(jì)算功能。而且凡是有MicrosoftOffice的計(jì)算機(jī),基本上都裝有Excel。對(duì)于簡(jiǎn)單分析,Excel還算方便,但隨著問(wèn)題的深入,Excel就不那么“傻瓜”,需要使用函數(shù),甚至根本沒(méi)有相應(yīng)的方法了。多數(shù)專門一些的統(tǒng)計(jì)推斷問(wèn)題還需要其他專門的統(tǒng)計(jì)軟件來(lái)處理。18統(tǒng)計(jì)軟件SAS:這是功能非常齊全(不如R齊全)的軟件;盡管價(jià)格相當(dāng)不菲,許多公司,特別是美國(guó)制藥公司,還是因?yàn)槠涔δ鼙姸嗪湍承┟绹?guó)政府機(jī)構(gòu)認(rèn)可而使用。盡管現(xiàn)在已經(jīng)盡量“傻瓜化”(遠(yuǎn)不如SPSS“傻”),但仍然需要一定的訓(xùn)練才可以進(jìn)入。也可以對(duì)它編程;但對(duì)于基本統(tǒng)計(jì)課程則不那么方便。19S-plus:這是R出現(xiàn)之前統(tǒng)計(jì)學(xué)家最喜愛(ài)的軟件。不僅由于其功能齊全,而且由于其強(qiáng)大的編程功能,使得研究人員可以編制自己的程序來(lái)實(shí)現(xiàn)自己的理論和方法。它也在進(jìn)行“傻瓜化”以爭(zhēng)取顧客。但仍然以編程方便為顧客所青睞。R軟件:這是一個(gè)免費(fèi)的,由志愿者管理的軟件。其編程語(yǔ)言與S-plus所基于的S語(yǔ)言一樣,很方便。還有不斷加入的各個(gè)方向統(tǒng)計(jì)學(xué)家編寫(xiě)的統(tǒng)計(jì)軟件包。同時(shí)從網(wǎng)上可以不斷更新和增加有關(guān)的軟件包和程序。這是發(fā)展最快的軟件,受到世界上統(tǒng)計(jì)師生的歡迎。包括網(wǎng)上程序資源是方法最齊全的軟件。是用戶量增加最快的統(tǒng)計(jì)軟件。由于易學(xué),它沒(méi)有“傻瓜化”。20統(tǒng)計(jì)軟件Minitab:這個(gè)軟件是很方便的功能強(qiáng)大而又齊全的軟件,也已經(jīng)“傻瓜化”,在我國(guó)用的不如SPSS與SAS那么普遍。Statistica:也是功能強(qiáng)大而齊全的“傻瓜化”的軟件,在我國(guó)用的也不如SAS與SPSS那么普遍。Eviews:一個(gè)主要處理回歸和時(shí)間序列的軟件。FORTRAN:這是應(yīng)用于各個(gè)領(lǐng)域的歷史很長(zhǎng)的非常優(yōu)秀的數(shù)學(xué)編程軟件,功能強(qiáng)大,也有一定的統(tǒng)計(jì)軟件包。計(jì)算速度比這里介紹的都快得多。但需要編程和編譯。操作不那么容易。MATLAB:這也是應(yīng)用于各個(gè)領(lǐng)域的以編程為主的軟件,在工程上應(yīng)用廣泛。編程類似于S和R。但是統(tǒng)計(jì)方法不多。21統(tǒng)計(jì)軟件當(dāng)然,還有其他的軟件,沒(méi)有必要一一羅列。其實(shí),只要學(xué)會(huì)使用一種“傻瓜式”軟件,使用其他的僅僅是舉一反三之勞;最多看看幫助和說(shuō)明即可。22問(wèn)題舉出你所知道的統(tǒng)計(jì)應(yīng)用例子。舉出日常生活中隨機(jī)性和規(guī)律性的例子。你使用過(guò)統(tǒng)計(jì)軟件或者利用過(guò)其他軟件中的統(tǒng)計(jì)功能嗎?你有什么經(jīng)驗(yàn)和體會(huì)?23數(shù)據(jù)的收集24二手?jǐn)?shù)據(jù)報(bào)紙、電視和雜志提供各種數(shù)據(jù)。比如高速公路通車?yán)锍獭⑽飪r(jià)指數(shù)、股票行情、外匯牌價(jià)、犯罪率、房?jī)r(jià)、流行病的有關(guān)數(shù)據(jù)(確診病例、疑似病例、死亡人數(shù)和出院人數(shù)等等);當(dāng)然還有國(guó)家統(tǒng)計(jì)局定期發(fā)布的各種國(guó)家經(jīng)濟(jì)數(shù)據(jù)、海關(guān)發(fā)布的進(jìn)出口貿(mào)易數(shù)據(jù)等等。從中可以選取對(duì)自己有用的信息。這些間接得到的數(shù)據(jù)都是二手?jǐn)?shù)據(jù)。25第一手?jǐn)?shù)據(jù)獲得第一手?jǐn)?shù)據(jù)并不象得到二手?jǐn)?shù)據(jù)那么輕松。某些在華的外資企業(yè)每年至少要花三四千萬(wàn)元來(lái)收集和分析數(shù)據(jù)。他們調(diào)查其產(chǎn)品目前在市場(chǎng)中的狀況和地位并確定其競(jìng)爭(zhēng)對(duì)手的態(tài)勢(shì);調(diào)查不同地區(qū),不同階層的民眾對(duì)其產(chǎn)品的認(rèn)知程度和購(gòu)買意愿以改進(jìn)產(chǎn)品和服務(wù)來(lái)爭(zhēng)取顧客收集各地方的經(jīng)濟(jì)交通等信息以決定如何保住現(xiàn)有市場(chǎng)和開(kāi)發(fā)新市場(chǎng)。市場(chǎng)信息數(shù)據(jù)對(duì)企業(yè)是至關(guān)重要的。他們很舍得在這方面花錢。因?yàn)檫@是企業(yè)生存所必需的,絕不是可有可無(wú)的。26觀測(cè)數(shù)據(jù)和試驗(yàn)數(shù)據(jù)上面所說(shuō)的數(shù)據(jù)是在自然的未被控制的條件下觀測(cè)到的,稱為觀測(cè)數(shù)據(jù)(observationaldata)。而對(duì)于有些問(wèn)題,比如在不同的醫(yī)療手段下某疾病的治療結(jié)果有什么不同、不同的肥料和土壤條件下某農(nóng)作物的產(chǎn)量有沒(méi)有區(qū)別、用什么成分可以提高某物質(zhì)變成超導(dǎo)體的溫度等等。這種在人工干預(yù)和操作情況下收集的數(shù)據(jù)就稱為試驗(yàn)數(shù)據(jù)(experimentaldata)。
27試驗(yàn)數(shù)據(jù)有助于找出必要的因果關(guān)系28總體和樣本29總體和樣本要想了解北京市民對(duì)建設(shè)北京交通設(shè)施是以包括軌道運(yùn)輸在內(nèi)的公共交通工具為主還是以小汽車為主的觀點(diǎn),需要調(diào)查;調(diào)查對(duì)象是所有北京市民,調(diào)查目的是希望知道市民中對(duì)這個(gè)問(wèn)題的不同看法各自占有的比例。顯然,不可能去問(wèn)所有的北京市民,而只能夠問(wèn)一部分;并根據(jù)這部分觀點(diǎn)來(lái)理解整個(gè)北京市民的總體觀點(diǎn)。30總體和樣本在這個(gè)例子中,單個(gè)北京市民的觀點(diǎn)稱為個(gè)體(element,unit或individual),而稱所有北京市民對(duì)這個(gè)問(wèn)題的觀點(diǎn)為一個(gè)總體(population),總體是包含所有要研究的個(gè)體的集合。而調(diào)查時(shí)問(wèn)到的那部分市民的觀點(diǎn)(也就是部分個(gè)體)稱為該總體的一個(gè)樣本(sample),是總體中選出的一部分。當(dāng)然,也有可能試圖調(diào)查所有的人(比如人口普查),那叫做普查(census)。普查就一定比抽樣準(zhǔn)嗎?31隨機(jī)樣本在從有限總體抽取樣本時(shí),如果總體中的每一個(gè)體都有同等機(jī)會(huì)被選到樣本中,這種抽樣稱為簡(jiǎn)單隨機(jī)抽樣(simplerandomsampling),而這樣得到的樣本則稱為隨機(jī)樣本(randomsample)。32隨機(jī)樣本就北京交通問(wèn)題的調(diào)查為例,在隨機(jī)抽樣的情況下,如果樣本量(samplesize,也就是樣本中個(gè)體的數(shù)目)在總體中的比例為1/5000,那么,無(wú)論在東城區(qū)或者在延慶縣,無(wú)論在白領(lǐng)階層還是藍(lán)領(lǐng)階層被問(wèn)到的人的比例都應(yīng)該大體是1/5000。也就是說(shuō),這種比例在總體的任何部分是大體不變的。33隨機(jī)樣本抽樣就像從一鍋八寶粥中舀出一勺如果粥和勻了,那么一勺中的各種成分比例應(yīng)該和鍋中的比例類似。就如一個(gè)抽樣調(diào)查隨機(jī)樣本所包含的各種人群比例應(yīng)該和總體類似。一個(gè)非隨機(jī)的抽樣就像從沒(méi)有和勻的八寶粥中舀出的一勺一樣。34方便樣本實(shí)踐中,得到隨機(jī)樣本不容易。很多搞調(diào)查的人就采取簡(jiǎn)單的辦法。假定按照隨機(jī)選出的電話號(hào)碼進(jìn)行調(diào)查,肯定節(jié)省時(shí)間和資源,但就不是一個(gè)隨機(jī)樣本了。如果按照隨機(jī)選擇的數(shù)字(無(wú)論號(hào)碼本上有沒(méi)有)打電話,那很多電話是空號(hào)或單位電話;顯然這種樣本也不是隨機(jī)樣本,這些稱為方便樣本(conveniencesample)。在調(diào)查中,即使選擇對(duì)象的確是隨機(jī)的,最理想的情況所得到的樣本也只代表那些愿意回答問(wèn)題人的觀點(diǎn)所組成的總體;沒(méi)有回答問(wèn)題的人的觀點(diǎn)永遠(yuǎn)不會(huì)被這種調(diào)查的樣本所代表。35這種不回答的問(wèn)題是抽樣調(diào)查特有的問(wèn)題在其他問(wèn)題中,也有使用方便樣本的情況。比如在肺癌研究中,人們往往看到吸煙和肺癌的關(guān)系的數(shù)據(jù);這些數(shù)據(jù)并不是整個(gè)人群中采集的隨機(jī)樣本;它們可能只是醫(yī)院中的病人記錄中得到的。在雜志和報(bào)紙上也有問(wèn)卷,但得到的只是擁有這份報(bào)刊,而且愿意回答的人的觀點(diǎn)。36誤差
假定在某一職業(yè)人群中女性占的比例為60%。如果在這個(gè)人群中抽取一些隨機(jī)樣本,這些隨機(jī)樣本中女性的比例并不一定是剛好60%,可能稍微多些或稍微少些。這是很正常的,因?yàn)闃颖镜奶卣鞑灰欢ê涂傮w完全一樣。這種差異不是錯(cuò)誤,而是必然會(huì)出現(xiàn)的抽樣誤差(samplingerror)。剛才提到在抽樣調(diào)查中,一些人因?yàn)榉N種原因沒(méi)有對(duì)調(diào)查作出反映(或回答),這種誤差稱為未響應(yīng)誤差(nonresponseerror)。而另有一些人因?yàn)楦鞣N原因回答時(shí)并沒(méi)有真實(shí)反映他們的觀點(diǎn),這稱為響應(yīng)誤差(responseerror)。和抽樣誤差不一樣,未響應(yīng)誤差和響應(yīng)誤差都會(huì)影響對(duì)真實(shí)世界的了解;應(yīng)該在設(shè)計(jì)調(diào)查方案時(shí)盡量避免。37抽樣調(diào)查的一些常用方法在抽樣調(diào)查時(shí),最理想的樣本是前面提到的隨機(jī)樣本。但是由于實(shí)踐起來(lái)不方便,在大規(guī)模調(diào)查時(shí)一般不用這種全部隨機(jī)抽樣的方式,而只是在局部采用隨機(jī)抽樣的方法。下面介紹幾種抽樣方法。這里沒(méi)有深?yuàn)W的理論;讀者完全可以根據(jù)常識(shí)判斷在什么情況下簡(jiǎn)單的隨機(jī)樣本不方便以及下面的每個(gè)方法有什么好處和缺陷。對(duì)于它們具體的設(shè)計(jì)、實(shí)施,有許多專門的書(shū)籍,就不在這里贅述了。38一些抽樣方法1.分層抽樣(stratifiedsampling)。這是先把要研究的總體按照某些性質(zhì)分類(stratum),再在各類中分別抽取樣本。在每類中調(diào)查的人數(shù)通常是按照這該類人的比例,但出于各種考慮,也可能不按照比例,也可能需要加權(quán)(加權(quán)就是在求若干項(xiàng)的和時(shí),對(duì)各項(xiàng)乘以不同的系數(shù),這些系數(shù)的和通常為1)。比如按照教育程度把要訪問(wèn)的人群分成幾類;再在每一類中調(diào)查和該類成比例數(shù)目的人。以確保每一類都有按比例的代表。39一些抽樣方法2.整群抽樣(clustersampling)。這是先把總體劃分成若干群(cluster),再(通常是隨機(jī)地)從這些群中抽取幾群;然后再在這些抽取的群中對(duì)個(gè)體進(jìn)行抽樣。比如,在某縣進(jìn)行調(diào)查,首先在所有村中選取若干村子,然后只對(duì)這些村子的人進(jìn)行調(diào)查。顯然,如果各村情況差異不大,這種抽樣還是方便的。否則就會(huì)增大誤差了。40一些抽樣方法3.多級(jí)抽樣(multistagesampling)。在群體很大時(shí),往往在抽取若干群之后,再在其中抽取若干子群,甚至再在子群中抽取子群,等等。最后只對(duì)最后選定的最下面一級(jí)進(jìn)行調(diào)查。比如在全國(guó)調(diào)查時(shí),先抽取省,再抽取市地,再抽取縣區(qū),再抽取鄉(xiāng)、村直到戶。在多級(jí)抽樣中的每一級(jí)都可能采取各種抽樣方法。因此,整個(gè)抽樣計(jì)劃可能比較復(fù)雜,也稱為多級(jí)混和型抽樣。41一些抽樣方法4.系統(tǒng)抽樣(systematicsampling)。這是先把總體中的每個(gè)單元編號(hào),然后隨機(jī)選取其中之一作為抽樣的開(kāi)始點(diǎn)進(jìn)行抽樣。如果編號(hào)是隨機(jī)選取的,則這和簡(jiǎn)單隨機(jī)抽樣是等價(jià)的。在選取開(kāi)始點(diǎn)之后,通常從開(kāi)始點(diǎn)開(kāi)始按照編號(hào)進(jìn)行所謂等距抽樣;也就是說(shuō),如果開(kāi)始點(diǎn)為5號(hào),“距離”為10,則下面的調(diào)查對(duì)象為15號(hào)、25號(hào)等等。42抽樣方法的選擇不能一概而論實(shí)際上每個(gè)抽樣通常都可能是各種抽樣方法的組合。既要考慮精確度,還要根據(jù)客觀情況考慮方便性、可行性和經(jīng)濟(jì)性。不能一概而論。43不僅抽樣方法,而且問(wèn)卷設(shè)計(jì)、調(diào)查過(guò)程等,均可能是致命的提問(wèn)題的方式(和目的有關(guān))問(wèn)卷中問(wèn)題的次序問(wèn)題的語(yǔ)言提問(wèn)的人作假44計(jì)算機(jī)中常用的數(shù)據(jù)形式通常是方陣(SAS,SPSS等)每一列代表一個(gè)變量每一行代表一個(gè)觀測(cè)值(有和變量相同數(shù)目的數(shù)字)也可能有其他形式,但方陣是最通常的形式4546思考1.
舉出一些觀測(cè)數(shù)據(jù)和試驗(yàn)數(shù)據(jù)的例子。2.
舉出簡(jiǎn)單隨機(jī)樣本的例子。3.
根據(jù)你的經(jīng)驗(yàn),舉出總體和樣本的一些具體例子。4.
舉出調(diào)查抽樣時(shí)可能發(fā)生的各種影響調(diào)查結(jié)果的問(wèn)題,并且提出你認(rèn)為可以減少或避免這些問(wèn)題的建議。5.
根據(jù)你的直覺(jué),本章提到的幾種抽樣方法的優(yōu)缺點(diǎn)是什么?原因何在?6.
舉出一些書(shū)報(bào)上發(fā)表的數(shù)據(jù)例子,并指出那些是變量,哪些是觀測(cè)值。47數(shù)據(jù)的描述如同給人畫(huà)像一樣48直方圖(數(shù)據(jù)rich.txt,Rich.sav,rich.sas7bdat,Rich.xls)該數(shù)據(jù)摘自福布斯是世界富豪排行榜,展示了世界最富有的一些人的名次(Rank,為正整數(shù),越小越富),所屬區(qū)域(Region,1至5分別代表北美、歐洲、亞洲和太平洋、南美、非洲),年齡(Age)和凈財(cái)富(NetWorth,單位10億美圓)。其中除了區(qū)域之外,均為定量變量。我們關(guān)心財(cái)富和年齡這兩個(gè)變量。如何用圖形來(lái)表示這兩個(gè)個(gè)變量的數(shù)據(jù),使人們能夠看出這些數(shù)目的大體分布或“形狀”呢?一個(gè)辦法就是畫(huà)直方圖(histogram)。
49rich=read.table("D:/booktj1/data/rich.txt",header=T)rich[1,]
RankRegionAgeNetWorth1115050dim(rich)[1]743450attach(rich);par(mfrow=c(1,2));hist(Age);hist(NetWorth)51SPSS:Graphs>Histogram>age/Networth盒型圖比直方圖簡(jiǎn)單一些的是盒形圖(boxplot,又稱箱圖、箱線圖、盒子圖)。后面圖的用數(shù)據(jù)所繪的富人在不同區(qū)域的年齡的盒形圖.52par(mfrow=c(1,1));boxplot(Age~Region)53Spss:Graphs>boxplot>simple>summarizesforgroupsofcases>variable[age]>categoryAxis[Region]第三四分位點(diǎn)中位數(shù)第一四分位點(diǎn)地區(qū)1高三男生身高數(shù)據(jù)的盒形圖h=read.table("D:/booktj1/data/height2.txt",header=T);boxplot(h)54莖葉圖以例的歐洲區(qū)域富人的年齡為例,下頁(yè)的莖葉圖既展示了年齡的分布形狀又有原始數(shù)據(jù)。它象一片帶有莖的葉子。莖為較大位數(shù)的數(shù)字,葉為較小位數(shù)的數(shù)字。
stem(rich[rich[,2]==2,3])55SPSS:Analysis>descriptivestatistics>explore>dependentlist[age]>factorlist[region]>plots>stem-and-leafThedecimalpointis1digit(s)totherightofthe|2|22|3|443|7899999994|555556777899995|55556666667778888899996|555555666788888888999997|00000001111233337|5556666778889999998|0002222333448|55668999|229|556散點(diǎn)圖人們得到的數(shù)據(jù)也可能有兩個(gè)變量,比如例中的年齡和財(cái)富,我們可以以年齡為橫坐標(biāo),而財(cái)富為縱坐標(biāo)在二維空間畫(huà)出所謂散點(diǎn)圖(scatterplot)。plot(NetWorth~Age)
5758Spss:Graphs>Scatter>Simplescatter>YAxis[Networth];XAxis[age];SetMarkerby[Region]>OK散點(diǎn)圖往往人們得到的數(shù)據(jù)有兩對(duì)連續(xù)變量,比如美國(guó)男士和女士初婚年限的數(shù)據(jù)。該數(shù)據(jù)描述了自1900年到1998年男女第一次結(jié)婚延續(xù)的時(shí)間的中位數(shù)。當(dāng)然,不可能將所有人的婚姻年限都給出來(lái)。所以,每年就取了一個(gè)中間的值(中位數(shù))作為代表。自1900到1960年是每十年一個(gè)值,以后到1990是每五年取一個(gè)數(shù),1995年以后是每年一個(gè)數(shù)。這里的一個(gè)變量為記錄年份,另一個(gè)是結(jié)婚時(shí)間長(zhǎng)短。由于分男士和女士,因此有兩二維數(shù)據(jù)。這時(shí)可以以一個(gè)變量為橫坐標(biāo)(如年份),另一個(gè)為縱坐標(biāo)(這里是結(jié)婚年限)來(lái)點(diǎn)圖。這種圖稱為散點(diǎn)圖(scatterplot)。還可以看出在二十世紀(jì)六十年代婚姻年限降低,而后來(lái)又升高。而男子的年限平均比女性長(zhǎng)。這個(gè)圖是用SPSS畫(huà)的。
5960定性變量的點(diǎn)圖定性變量(或?qū)傩宰兞?,分類變量)不能點(diǎn)出直方圖、散點(diǎn)圖或莖葉圖,但可以描繪出它們各類的比例。下面用SPSS繪的圖表示了說(shuō)世界各種主要語(yǔ)言的人數(shù)的比例
61餅圖62條形圖language2.savSPSS:Graphs>bar>clustered>summariesforgroupofcases>variable[Freq]>categoryaxis[Lang]>defineclustersby[group]
63匯總統(tǒng)計(jì)量或概括統(tǒng)計(jì)量(summarystatistic)64匯總統(tǒng)計(jì)量(位置)均值(mean):樣本值的算術(shù)平均值中位數(shù)(median):中間大小的數(shù)(一半樣本點(diǎn)小于中位數(shù))(第一或第三)(下、上)四分位數(shù)(點(diǎn))(firstquantile,thirdquantile)(分別有1/4或3/4的數(shù)目小于它們)k-百分位數(shù)(k-percentile)a分位數(shù)(acentile):k-百分位數(shù)=k%分位數(shù):有k%的數(shù)目小于它眾數(shù)(mode):樣本中出現(xiàn)最多的數(shù)65匯總統(tǒng)計(jì)量(尺度)(scalestatistic)極差(range):極端值之差四分位間距(四分位極差)(interquantilerange)四分位數(shù)之差標(biāo)準(zhǔn)差(standarddeviation)
方差平方根方差(variance)各點(diǎn)到均值距離平方的平均66兩個(gè)尺度不同的數(shù)據(jù)的直方圖,左邊的標(biāo)準(zhǔn)差大約只有右邊的一半
67數(shù)據(jù)的標(biāo)準(zhǔn)得分(standardscore)兩個(gè)類似的班級(jí)(一班和二班)上同一門課,但是由于兩個(gè)任課老師的評(píng)分標(biāo)準(zhǔn)不同,使得兩個(gè)班成績(jī)的均值和標(biāo)準(zhǔn)差都不一樣(數(shù)據(jù):grade.sav)。一班分?jǐn)?shù)的均值和標(biāo)準(zhǔn)差分別為和,而二班的均值和標(biāo)準(zhǔn)差分別為和。那么得到90分的一班的A同學(xué)是不是比得到82分的二班的B同學(xué)成績(jī)更好呢?68數(shù)據(jù)的標(biāo)準(zhǔn)得分(standardscore)怎么比較才能合理呢?雖然這種均值和標(biāo)準(zhǔn)差不同的數(shù)據(jù)不能夠直接比較,但是可以把它們進(jìn)行標(biāo)準(zhǔn)化,然后再比較標(biāo)準(zhǔn)化后的數(shù)據(jù)。一個(gè)標(biāo)準(zhǔn)化的方法是把原始觀測(cè)值(亦稱得分,score)和均值之差除以標(biāo)準(zhǔn)差;得到的度量稱為標(biāo)準(zhǔn)得分(standardscore):(x-m)/s
(這里m和s為均值和標(biāo)準(zhǔn)差)6970思考1.
根據(jù)你的經(jīng)驗(yàn),給出定性和定量變量的例子。2.
對(duì)于問(wèn)題1中你的例子,試圖畫(huà)出各種描述性圖形并計(jì)算匯總統(tǒng)計(jì)量。3.
舉例說(shuō)明眾數(shù)、中位數(shù)和均值的優(yōu)缺點(diǎn)。4.
舉例說(shuō)明尺度統(tǒng)計(jì)量說(shuō)明了數(shù)據(jù)的什么特性。5.
標(biāo)準(zhǔn)得分實(shí)際上是對(duì)原始數(shù)據(jù)的一種標(biāo)準(zhǔn)化。試舉出標(biāo)準(zhǔn)得分的用處。71復(fù)習(xí):概率分布72離散分布73n
次同等條件的獨(dú)立試驗(yàn)每次試驗(yàn)僅有兩種結(jié)果,通常記為S(成功)和
F(失敗).成功(S)的概率在每次試驗(yàn)保持不變,用p表示,失敗
(F)概率則為
q=1-p.n
次試驗(yàn)中成功的數(shù)目x,
則為二項(xiàng)隨機(jī)變量.二項(xiàng)隨機(jī)變量74
二項(xiàng)分布背景:n
重Bernoulli試驗(yàn)中,每次試驗(yàn)感興趣的事件A
在n次試驗(yàn)中發(fā)生的次數(shù)——X是一離散型隨機(jī)變量若P(A)=p,則稱X服從參數(shù)為n,p
的二項(xiàng)分布,記作0–1分布是n=1的二項(xiàng)分布75二項(xiàng)分布的取值情況設(shè).039.156.273.273.179.068.017.0024.00000123456780.273?由圖表可見(jiàn),當(dāng)
時(shí),分布取得最大值此時(shí)的稱為最可能成功次數(shù)xP?0?1?2?3?4?5?6?7?876參數(shù)為
n和
p的二項(xiàng)分布,總體均值m,方差
s2
和標(biāo)準(zhǔn)差
s
為:77連續(xù)分布情況78連續(xù)分布的密度函數(shù):
(Thefollowingisanormaldistribution)TheprobabilityofP(-.5<x<1),say,isthearea
underthecurveontheintervalof(-.5,1).79均值m=0,標(biāo)準(zhǔn)差
s=1的正態(tài)分布稱為標(biāo)準(zhǔn)正態(tài)分布.通常用z
表示標(biāo)準(zhǔn)正態(tài)隨機(jī)變量.
如果x為有均值和
m
標(biāo)準(zhǔn)差
s的正態(tài)變量,那么
z=(x-m)/s,即x的標(biāo)準(zhǔn)得分
z-score為標(biāo)準(zhǔn)正態(tài)分布.比如,x
為均值
m=2標(biāo)準(zhǔn)差s的正態(tài)變量,則
z=(x-m)/s=(x-2)/.5為標(biāo)準(zhǔn)正態(tài)分布.80Thecurveisstandardnormaldensity,m=0,s=1.F(1.96)=P(Z<1.96)=0.9750021=1-P(Z>1.96)P(Z>1.96)=1-F81DensitycurvesofN(0,1)andN(-2,0.5)Distributionswithdifferentm
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《金屬與金屬材料》課件
- 《壓力容器零部》課件
- 《焦慮抑郁概述》課件
- 《預(yù)防醫(yī)學(xué)基礎(chǔ)》課件
- 婦幼保健院中醫(yī)科培訓(xùn)資料心身性疾病
- 品質(zhì)管理講座之品質(zhì)意識(shí)培訓(xùn)
- 2025年湖南c1貨運(yùn)從業(yè)資格證考試題下載
- 汽車銷售半年總結(jié)模板
- 部編版三年級(jí)語(yǔ)文《古詩(shī)詞大會(huì)比賽》精美課件
- 新員工服務(wù)技巧培訓(xùn)模板
- 高中數(shù)學(xué)知識(shí)點(diǎn)大全
- 常州市旅游資源調(diào)查與評(píng)價(jià)
- 人機(jī)料法環(huán)測(cè)5M1E分析法
- 游泳社會(huì)指導(dǎo)員專項(xiàng)理論考試復(fù)習(xí)題庫(kù)匯總(附答案)
- 《簡(jiǎn)單教數(shù)學(xué)》讀書(shū)-分享-
- 口腔頜面外科學(xué) 功能性外科
- 脊椎動(dòng)物學(xué)知識(shí)點(diǎn)歸納各綱特征
- GB/T 27476.5-2014檢測(cè)實(shí)驗(yàn)室安全第5部分:化學(xué)因素
- 一級(jí)醫(yī)院基本標(biāo)準(zhǔn)1
- 霍亂病例分析課件
- 金屬非金屬礦山重大生產(chǎn)安全事故隱患判定標(biāo)準(zhǔn)課件
評(píng)論
0/150
提交評(píng)論