醫(yī)療行業(yè)統(tǒng)計基礎(chǔ)知識培訓_第1頁
醫(yī)療行業(yè)統(tǒng)計基礎(chǔ)知識培訓_第2頁
醫(yī)療行業(yè)統(tǒng)計基礎(chǔ)知識培訓_第3頁
醫(yī)療行業(yè)統(tǒng)計基礎(chǔ)知識培訓_第4頁
醫(yī)療行業(yè)統(tǒng)計基礎(chǔ)知識培訓_第5頁
已閱讀5頁,還剩73頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

本課內(nèi)容包含統(tǒng)計回顧方差分析主成分分析和因子分析聚類分析判別分析典型相關(guān)分析對應分析列聯(lián)表Logistic回歸Poisson對數(shù)線性模型時間序列分析。。。。統(tǒng)計基本概念回顧隨機性和規(guī)律性現(xiàn)實中的隨機性和規(guī)律性從中學起,我們就知道自然科學的許多定律,例如物理中的牛頓三定律,物質(zhì)不滅定律以及化學中的各種定律等等。但是在許多領(lǐng)域,很難用如此確定的公式或論述來描述一些現(xiàn)象。比如,人的壽命是很難預先確定的。一個吸煙、喝酒、不鍛煉、而且一口長葷的人可能比一個很少得病、生活習慣良好的人活得長。因此,可以說,活得長短是有一定隨機性的(randomness)。這種隨機性可能和人的經(jīng)歷、基因、習慣等無數(shù)說不清的因素都有關(guān)系?,F(xiàn)實中的隨機性和規(guī)律性但是從總體來說,我國公民的平均年齡卻是非常穩(wěn)定的。而且女性的平均年齡也穩(wěn)定地比男性高幾年。這就是規(guī)律性。一個人可能活過這個平均年齡,也可能活不到這個年齡,這是隨機的。但是總體來說,平均年齡的穩(wěn)定性,卻說明了隨機之中有規(guī)律性。這種規(guī)律就是統(tǒng)計規(guī)律。概率和機會你可能經(jīng)常聽到概率(probability)這個名詞。例如在天氣預報中會提到降水概率。大家都明白,如果降水概率是百分之九十,那就很可能下雨;但如果是百分之十,就不大可能下雨。因此,從某種意義說來,概率描述了某件事情發(fā)生的機會。顯然,這種概率不可能超過百分之百,也不可能少于百分之零。換言之,概率是在0和1之間的一個數(shù),說明某事件發(fā)生的機會有多大。有些概率是無法精確推斷的比如你對別人說你下一個周末去公園的概率是百分之八十。但你無法精確說出為什么是百分之八十而不是百分之八十四或百分之七十八。其實你想說的是你很可能去,但又沒有完全肯定。實際上,到了周末,你或者去,或者不去;不可能有分身術(shù)把百分之八十的你放到公園,而其余的放在別處。有些概率是可以估計的比如擲骰子。只要沒有人在骰子上做手腳,你得到6點的概率應該是六分之一。得到其他點的概率也是一樣。得到6的概率或者機會是可以知道的,但擲骰子的結(jié)果還只可能是六個數(shù)目之一。這個已知的規(guī)律就反映了規(guī)律性,而得到哪個結(jié)果則反映了隨機性。如果你擲1000次骰子,那么,大約有六分之一的可能會得到6;這也是隨機性呈現(xiàn)有規(guī)律的一個體現(xiàn)。變量做任何事情都要有對象。比如一個班上注冊的學生有200人,這是一個固定的數(shù)目,稱為常數(shù)(constant)或者常量。但是,如果猜測今天這個班有多少人會來上課,那就沒準了。這有隨機性。可能有請病假或事假的,也可能有逃課的。這樣,就要來上課的人數(shù)是個變量(variable)。另外對于某項政策同意與否的回答,也有“同意”、“不同意”或者“不知道”三種可能值;這也是變量,只不過不是數(shù)量而已。變量當變量按照隨機規(guī)律所取的值是數(shù)量時該變量稱為定量變量或數(shù)量變量(quantitativevariable);因為是隨機的,也稱為隨機變量(randomvariable)。象性別,觀點之類的取非數(shù)量值的變量就稱為定性變量或?qū)傩宰兞炕蚍诸愖兞浚╭ualitativevariable,categoricalvariable)。這些定性變量也可以由隨機變量來描述,比如男性和女性的數(shù)目,同意某政策人數(shù)的比例等等。只有當變量用數(shù)量來描述時,才有可能建立數(shù)學模型,才可能使用計算機來分析。數(shù)據(jù)據(jù)有了了變變量量的的概概念念,,什什么么是是數(shù)數(shù)據(jù)據(jù)呢呢??拿拿擲擲骰骰子子來來說說,,擲擲骰骰子子會會得得到到什什么么值值,,是是個個隨隨機機變變量量;;而而每每次次取取得得1至至6點點中中任任意意點點數(shù)數(shù)的的概概率率它它在在理理論論上上都都是是六六分分之之一一((如如果果骰骰子子公公平平))。。這這依依賴賴于于在在擲擲骰骰子子背背后后的的理理論論或或假假定定;;而而在在實實際際擲擲骰骰子子過過程程中中,,如如果果擲擲100次次,,會會得得到到100個個由由1至至6點點組組成成的的數(shù)數(shù)字字串串;;再再擲擲100次次,,又又得得到到一一個個數(shù)數(shù)字字串串,,和和前前一一次次的的結(jié)結(jié)果果多多半半不不一一樣樣。。這這些些試試驗驗結(jié)結(jié)果果就就是是數(shù)數(shù)據(jù)據(jù)。。所所以以說說,數(shù)據(jù)據(jù)是是關(guān)關(guān)于于變變量量的的觀觀測測值值.通過過數(shù)數(shù)據(jù)據(jù)可可以以驗驗證證有有關(guān)關(guān)的的理理論論或或假假定定(比比如如每每一一次次得得到到每每個個點點的的概概率率是是不不是是1/6等等等等))。。對對于于顧顧客客是是否否喜喜歡歡某某種種飲飲品品的的調(diào)調(diào)查查也也類類似似,,但但這這里里不不象象擲擲骰骰子子那那樣樣事事先先可可以以大大致致猜猜測測顧顧客客喜喜歡歡與與否否的的概概率率。。在在問問了了1000人人之之后后,,可可能能有有364人人說說喜喜歡歡,,而而480人人說說不不喜喜歡歡,,其其余余的的人人可可能能不不回回答答,,或或說說不不知知道道,,或或從從來來沒沒有有喝喝過過這這種種飲飲料料。。這這些些數(shù)數(shù)目目就就是是數(shù)數(shù)據(jù)據(jù)。。當當然然,,它它僅僅僅僅反反映映了了1000個個被被問問到到的的人人的的觀觀點點;;但但這這對對于于估估計計整整個個消消費費群群體體的的觀觀點點還還是是有有用用的的。。統(tǒng)計計和和計計算算機機現(xiàn)代代生生活活越越來來越越離離不不開開計計算算機機了了。。最最早早使使用用計計算算機機的的統(tǒng)統(tǒng)計計當當然然更更離離不不開開計計算算機機了了。。事實實上上,,最初初的的計計算算機機僅僅僅是是為為科科學學計計算算而而建建造造的的。。大大型型計計算算機機的的最最早早一一批批用用戶戶就就包包含含統(tǒng)統(tǒng)計計。。而而現(xiàn)現(xiàn)在在統(tǒng)統(tǒng)計計仍仍然然是是進進行行數(shù)數(shù)字字計計算算最最多多的的用用戶戶。。計算算機機現(xiàn)現(xiàn)在在早早已已脫脫離離了了僅僅有有計計算算功功能能的的單單一一模模式式,,而而成成為為百姓姓生生活活的的一一部部分分。計算算機機的的使使用用,,也也從從過過去去必必須須學學會會計計算算機機語語言言到到只只需需要要““傻傻瓜瓜式式””地地點點擊擊鼠鼠標標。。結(jié)結(jié)果果也也從從單單純純的的數(shù)數(shù)字字輸輸出出到到包包括括漂漂亮亮的的表表格格和和圖圖形形的的各各種種形形式式。。統(tǒng)計計軟軟件件統(tǒng)計計軟軟件件的的發(fā)發(fā)展展,,也也使使得得統(tǒng)統(tǒng)計計從從統(tǒng)統(tǒng)計計學學家家的的圈圈內(nèi)內(nèi)游游戲戲變變成成了了大大眾眾的的游游戲戲。。只只要要你你輸輸入入你你的的數(shù)數(shù)據(jù)據(jù),,點點幾幾下下鼠鼠標標,,做做一一些些選選項項,,馬馬上上就就得得到到令令人人驚驚嘆嘆的的漂漂亮亮結(jié)結(jié)果果了了。。你可可能能會會問問,,是是否否傻傻瓜瓜式式的的統(tǒng)統(tǒng)計計軟軟件件使使用用可可以以代代替替統(tǒng)統(tǒng)計計課課程程了了??當然然不不是是。。數(shù)數(shù)據(jù)據(jù)的的整整理理和和識識別別,,方方法法的的選選用用,,計計算算機機輸輸出出結(jié)結(jié)果果的的理理解解都都不不象象使使用用傻傻瓜瓜相相機機那那樣樣簡簡單單可可靠靠。。統(tǒng)計計軟軟件件有些些諸諸如如法法律律和和醫(yī)醫(yī)學學方方面面的的軟軟件件都都有有不不少少警警告告,,不不時時提提醒醒你你去去咨咨詢詢專專家家。。但統(tǒng)統(tǒng)計計軟軟件件則則不不那那么么負負責責。。只只要要數(shù)數(shù)據(jù)據(jù)格格式式無無誤誤、、方方法法不不矛矛盾盾而而且且不不用用零零作作為為除除數(shù)數(shù)就就一一定定給給你你結(jié)結(jié)果果,,而而且且沒有有任任何何警警告告。另外外,,統(tǒng)統(tǒng)計計軟軟件件輸出出的的結(jié)結(jié)果果太太多多;即即使使是是同同樣樣的的方方法法,,不不同同軟軟件件輸輸出出的的內(nèi)內(nèi)容容還還不不一一樣樣;;有有時時同同樣樣的的內(nèi)內(nèi)容容名名稱稱也也不不一一樣樣。。這這就就使使得得使使用用者者大大傷傷腦腦筋筋。。即即使使是是統(tǒng)統(tǒng)計計學學家家也也不不一一定定能能解解釋釋所所有有的的輸輸出出。。因因此此,,就就應應該該特特別別留留神神,,明明白白自自己己是是在在干干什什么么。。不要要在在得得到到一一堆堆毫毫無無意意義義的的垃垃圾圾之之后后還還沾沾沾沾自自喜喜。統(tǒng)計計軟軟件件統(tǒng)計軟軟件的的種類類很多多。有有些功功能齊齊全,,有些些價格格便宜宜;有有些容容易操操作,,有些些需要要更多多的實實踐才才能掌掌握。。還有有些是是專門門的軟軟件,,只處處理某某一類類統(tǒng)計計問題題。面面對太太多的的選擇擇往往往給決決策帶帶來困困難。。這里里介紹紹最常常見的的幾種種。統(tǒng)計軟軟件SPSS::這是一一個很很受歡歡迎的的統(tǒng)計計軟件件;它它容易易操作作,輸輸出漂漂亮,,功能能齊全全,價價格合合理。。對于于非統(tǒng)統(tǒng)計工工作者者是很很好的的選擇擇。Excel:它嚴格格說來來并不不是統(tǒng)統(tǒng)計軟軟件,,但作作為數(shù)數(shù)據(jù)表表格軟軟件,,必然然有一一定統(tǒng)統(tǒng)計計計算功功能。。而且且凡是是有MicrosoftOffice的的計算算機,,基本本上都都裝有有Excel。。但要要注意意,有有時在在裝Office時時沒有有裝數(shù)數(shù)據(jù)分分析的的功能能,那那就必必須裝裝了才才行。。當然然,畫畫圖功功能是是都具具備的的。對對于簡簡單分分析,,Excel還還算方方便,,但隨隨著問問題的的深入入,Excel就不不那么么“傻傻瓜””,需需要使使用函函數(shù),,甚至至根本本沒有有相應應的方方法了了。多多數(shù)專專門一一些的的統(tǒng)計計推斷斷問題題還需需要其其他專專門的的統(tǒng)計計軟件件來處處理。。SAS:這是功功能非非常齊齊全的的軟件件;盡盡管價價格不不菲,,許多多公司司還是是因為為其功功能眾眾多和和某些些美國國政府府機構(gòu)構(gòu)認可可而使使用。。盡管管現(xiàn)在在已經(jīng)經(jīng)盡量量“傻傻瓜化化”,,仍然然需要要一定定的訓訓練才才可以以進入入。對對于基基本統(tǒng)統(tǒng)計課課程則則不那那么方方便。。統(tǒng)計軟軟件S-plus:這是是統(tǒng)計計學家家喜愛愛的軟軟件。。不僅僅由于于其功功能齊齊全,,而且且由于于其強強大的的編程程功能能,使使得研研究人人員可可以編編制自自己的的程序序來實實現(xiàn)自自己的的理論論和方方法。。它也也在進進行““傻瓜瓜化””以爭爭取顧顧客。。但仍仍然以以編程程方便便為顧顧客所所青睞睞。R軟件件:這是一一個免費的的,由志志愿者者管理理的軟軟件。。其編編程語語言與與S-plus所基基于的的S語語言一一樣,,很方方便。。還有有不斷斷加入入的各各個方方向統(tǒng)統(tǒng)計學學家編編寫的的統(tǒng)計計軟件件包。。同時時從網(wǎng)網(wǎng)上可可以不不斷更更新和和增加加有關(guān)關(guān)的軟軟件包包和程程序。。這是是發(fā)展最最快的軟件件,受受到世世界上上統(tǒng)計計師生生的歡歡迎。。是用戶戶量增增加最最快的的統(tǒng)計計軟件件。對于于一般般非統(tǒng)統(tǒng)計工工作者者來說說,主主要問問題是是它沒沒有““傻瓜瓜化””。統(tǒng)計軟軟件Minitab:這個軟軟件是是很方方便的的功能能強大大而又又齊全全的軟軟件,,也已已經(jīng)““傻瓜瓜化””,在在我國國用的的不如如SPSS與SAS那么么普遍遍。Statistica::也是功功能強強大而而齊全全的““傻瓜瓜化””的軟軟件,,在我我國用用的也也不如如SAS與與SPSS那么么普遍遍。Eviews::這是一一個主主要處處理回回歸和和時間間序列列的軟軟件。。GAUSS:這是一個很很好用的統(tǒng)統(tǒng)計軟件,,許多搞經(jīng)經(jīng)濟的喜歡歡它。主要要也是編程程功能強大大。目前在在我國使用用的人不多多。FORTRAN:這是應用于于各個領(lǐng)域域的歷史很很長的非常常優(yōu)秀的編編程軟件,,功能強大大,也有一一定的統(tǒng)計計軟件包。。計算速度度比這里介介紹的都快快得多。但但需要編程程和編譯。。操作不那那么容易。。MATLAB:這也是應用用于各個領(lǐng)領(lǐng)域的以編編程為主的的軟件,在在工程上應應用廣泛。。編程類似似于S和R。但是統(tǒng)統(tǒng)計方法不不多。統(tǒng)計計軟軟件件當然然,,還還有有其其他他的的軟軟件件,,沒沒有有必必要要一一一一羅羅列列。。其其實實,,聰聰明明的的讀讀者者只只要要學學會會使使用用一一種種““傻傻瓜瓜式式””軟軟件件,,使使用用其其他他的的僅僅僅僅是是舉舉一一反反三三之之勞勞;;最最多多看看看看幫幫助助和和說說明明即即可可。。如如果果只只有有英英文文幫幫助助,,那那還還可可以以順順便便提提高高你你的的英英文文閱閱讀讀能能力力。。想想想看看舉出出你你所所知知道道的的統(tǒng)統(tǒng)計計應應用用例例子子。。舉出出日日常常生生活活中中隨隨機機性性和和規(guī)規(guī)律律性性的的例例子子。。你使使用用過過統(tǒng)統(tǒng)計計軟軟件件或或者者利利用用過過其其他他軟軟件件中中的的統(tǒng)統(tǒng)計計功功能能嗎嗎??你你有有什什么么經(jīng)經(jīng)驗驗和和體體會會??數(shù)據(jù)據(jù)的的收收集集二手手數(shù)數(shù)據(jù)據(jù)每天天翻翻開開報報紙紙或或打打開開電電視視,,就就可可以以看看到到各各種種數(shù)數(shù)據(jù)據(jù)。。比比如如高高速速公公路路通通車車里里程程、、物物價價指指數(shù)數(shù)、、股股票票行行情情、、外外匯匯牌牌價價、、犯犯罪罪率率、、房房價價、、流流行行病病的的有有關(guān)關(guān)數(shù)數(shù)據(jù)據(jù)((確確診診病病例例、、疑疑似似病病例例、、死死亡亡人人數(shù)數(shù)和和出出院院人人數(shù)數(shù)等等等等));;當當然然還還有有國國家家統(tǒng)統(tǒng)計計局局定定期期發(fā)發(fā)布布的的各各種種國國家家經(jīng)經(jīng)濟濟數(shù)數(shù)據(jù)據(jù)、、海海關(guān)關(guān)發(fā)發(fā)布布的的進進出出口口貿(mào)貿(mào)易易數(shù)數(shù)據(jù)據(jù)等等等等。。從從中中可可以以選選取取對對自自己己有有用用的的信信息息。。這些些間間接接得得到到的的數(shù)數(shù)據(jù)據(jù)都都是是二手手數(shù)數(shù)據(jù)據(jù)。第一一手手數(shù)數(shù)據(jù)據(jù)獲得得第第一一手手數(shù)數(shù)據(jù)據(jù)并并不不象象得得到到二二手手數(shù)數(shù)據(jù)據(jù)那那么么輕輕松松。。某些些在在華華的的外外資資企企業(yè)業(yè)每每年年至至少少要要花花三三四四千千萬萬元元來來收收集集和和分分析析數(shù)數(shù)據(jù)據(jù)。。他們們調(diào)調(diào)查查其其產(chǎn)產(chǎn)品品目目前前在在市市場場中中的的狀狀況況和和地地位位并并確確定定其其競競爭爭對對手手的的態(tài)態(tài)勢勢;;他們調(diào)查不同同地區(qū),不同同階層的民眾眾對其產(chǎn)品的的認知程度和和購買意愿以以改進產(chǎn)品或或推出新品種種爭取新顧客客;他們還收集各各地方的經(jīng)濟濟交通等信息息以決定如何何保住現(xiàn)有市市場和開發(fā)新新市場。市場場信息數(shù)據(jù)對對企業(yè)是至關(guān)關(guān)重要的。他們很舍得在在這方面花錢錢。因為這是是企業(yè)生存所所必需的,絕絕不是可有可可無的。觀測數(shù)據(jù)和試驗數(shù)據(jù)上面所說的數(shù)數(shù)據(jù)是在自然的未被控控制的條件下下觀測到的,,稱為觀測數(shù)數(shù)據(jù)(observationaldata)。而對于有些問問題,比如在不同的的醫(yī)療手段下下某疾病的治治療結(jié)果有什什么不同、不不同的肥料和和土壤條件下下某農(nóng)作物的的產(chǎn)量有沒有有區(qū)別、用什什么成分可以以提高某物質(zhì)質(zhì)變成超導體體的溫度等等等。這種在人工干干預和操作情情況下收集的的數(shù)據(jù)就稱為為試驗數(shù)據(jù)(experimentaldata)??傮w和樣本要想了解北京京市民對建設(shè)設(shè)北京交通設(shè)設(shè)施是以包括括軌道運輸在在內(nèi)的公共交交通工具為主主還是以小汽汽車為主的觀觀點,需要進進行調(diào)查;調(diào)查對象是所有北京市民民,調(diào)查目的是希望知道市市民中對這個個問題的不同同看法各自占占有的比例。顯然,不可能去問所所有的北京市市民,而只能能夠問一部分分;并且根據(jù)這這一部分的觀觀點來理解整整個北京市民民的總體觀點點。總體和樣本這種情況下,,稱所有(每每個)北京市市民對這個問問題的觀點為為一個總體(population),而調(diào)查查時問到的那那部分市民的的觀點為該總體的一個樣本(sample)。當然,也有可可能調(diào)查所有有的人(比如如人口普查)),那叫做普查(census)??傮w是包含所所有要研究的的個體(element)的集合。。而樣本是總總體中選中的的一部分。隨機樣本在抽取樣本時時,如果總體體中的每一個個體都有同等等機會被選到到樣本中,這這種抽樣稱為為簡單隨機抽樣(simplerandomsampling),而這樣得到的的樣本則稱為為隨機樣本(randomsample)。。隨機樣本就北京交通問問題的調(diào)查為為例,在隨機機抽樣的情況況下,如果樣樣本量(samplesize,,也就是樣本本中個體的數(shù)數(shù)目)在總體體中的比例為為1/5000,那么,無論在在東城區(qū)或者者在延慶縣,,無論在白領(lǐng)領(lǐng)階層還是藍藍領(lǐng)階層被問問到的人的比比例都應該大大體是1/5000。也就是說,這種比例在總總體的任何部部分是大體不不變的。方便樣本在實踐中,得得到隨機樣本本不容易。很很多搞調(diào)查的的人就采取簡單的辦法。還以北京的交交通問題的調(diào)調(diào)查為例。假假定按照隨機機選出的電話話號碼進行調(diào)調(diào)查。這樣肯肯定節(jié)省時間間和資源,但但這樣得到的的就不是一個個隨機樣本了了。如果按照隨機機選擇的數(shù)字字(無論號碼碼本上有沒有有)打電話,,那很多電話話是空號或單單位電話;顯顯然這種樣本本也不是隨機機樣本,它稱稱為方便樣本本(conveniencesample))。在調(diào)查中,即即使選擇對象象的確是隨機機的,最理想想的情況所得得到的樣本也也只代表那些些愿意回答問問題人的觀點點所組成的總總體;沒有回答問題題的人的觀點點永遠不會被被這種調(diào)查的的樣本所代表表。方便樣本這種不回答的的問題是抽樣樣調(diào)查特有的的問題。在其他問題中中,也有使用用方便樣本的的情況。比如如在肺癌研究究中,人們往往往看到吸煙煙和肺癌的關(guān)關(guān)系的數(shù)據(jù);;這些數(shù)據(jù)并并不是整個人人群中采集的的隨機樣本;;它們可能只只是醫(yī)院中的的病人記錄中中得到的。在雜志和報紙紙上也有問卷卷,但得到的的只是擁有這這份報刊,而而且愿意回答答的人的觀點點。誤差假定在某一職職業(yè)人群中女女性占的比例例為60%。。如果在這個個人群中抽取取一些隨機樣樣本,這些隨隨機樣本中女女性的比例并并不一定是剛剛好60%,,可能稍微多多些或稍微少少些。這是很很正常的,因因為樣本的特特征不一定和和總體完全一一樣。這種差差異不是錯誤誤,而是必然然會出現(xiàn)的抽樣誤差(samplingerror))。剛才提到在抽抽樣調(diào)查中,,一些人因為為種種原因沒沒有對調(diào)查作作出反映(或或回答),這這種誤差稱為為未響應誤差(nonresponseerror)。而另有一些人人因為各種原原因回答時并并沒有真實反反映他們的觀觀點,這稱為為響應誤差(responseerror))。和抽樣誤差不不一樣,未響響應誤差和響響應誤差都會會影響對真實實世界的了解解;應該在設(shè)設(shè)計調(diào)查方案案時盡量避免免。抽樣調(diào)查的一一些常用方法法在抽樣調(diào)查時時,最理想的的樣本是前面面提到的隨機機樣本。但是由于實踐起來來不方便,在大規(guī)模調(diào)調(diào)查時一般不不用這種全部部隨機抽樣的的方式,而只只是在局部采采用隨機抽樣樣的方法。下面介紹幾種種抽樣方法。。這里沒有深深奧的理論;;讀者完全可可以根據(jù)常識識判斷在什么么情況下簡單單的隨機樣本本不方便以及及下面的每個個方法有什么么好處和缺陷陷。對于它們們具體的設(shè)計計、實施與數(shù)數(shù)據(jù)分析,有有許多專門的的書籍,就不不在這里贅述述了。一些抽樣方法法1.分層抽樣(stratifiedsampling))。這是先把把要研究的總總體按照某些些性質(zhì)分類((stratum),再再在各類中分分別抽取樣本本。在每類中中調(diào)查的人數(shù)數(shù)通常是按照照這該類人的的比例,但出出于各種考慮慮,也可能不不按照比例,,也可能需要要加權(quán)(加權(quán)權(quán)就是在求若若干項的和時時,對各項乘乘以不同的系系數(shù),這些系系數(shù)的和通常常為1)。比如可以按照照教育程度把把要訪問的人人群分成幾類類;再在每一一類中調(diào)查和和該類成比例例數(shù)目的人。。這樣就確保了了每一類都有有成比例的代代表。一些抽樣方法法2.整群抽樣(clustersampling)。這是是先把總體劃劃分成若干群群(cluster),,再(通常是是隨機地)從從這些群中抽抽取幾群;然然后再在這些些抽取的群中中對個體進行行抽樣。比如,在某縣縣進行調(diào)查,,首先在所有有村中選取若若干村子,然然后只對這些些村子的人進進行調(diào)查。顯然,如果各各村情況差異異不大,這種種抽樣還是方方便的。否則則就會增大誤誤差了。一些抽樣方法法3.多級抽樣(multistagesampling))。在群體很很大時,往往往在抽取若干干群之后,再再在其中抽取取若干子群,,甚至再在子子群中抽取子子群,等等。。最后只對最最后選定的最最下面一級進進行調(diào)查。比如在全國調(diào)調(diào)查時,先抽抽取省,再抽抽取市地,再再抽取縣區(qū),,再抽取鄉(xiāng)、、村直到戶。。在多級抽樣中中的每一級都都可能采取各各種抽樣方法法。因此,整整個抽樣計劃劃可能比較復復雜,也稱為為多級混和型型抽樣。一些抽樣方法法4.系統(tǒng)抽樣(systematicsampling))。這是先把把總體中的每每個單元編號號,然后隨機機選取其中之之一作為抽樣樣的開始點進進行抽樣。如如果編號是隨隨機選取的,,則這和簡單單隨機抽樣是是等價的。在在選取開始點點之后,通常常從開始點開開始按照編號號進行所謂等等距抽樣;也也就是說,如如果開始點為為5號,“距距離”為10,則下面的的調(diào)查對象為為15號、25號等等。。抽樣方方法的的選擇擇不能能一概概而論論實際上上每個個抽樣樣通常常都可可能是是各種種抽樣樣方法法的組組合。。既要要考慮慮精確確度,,還要要根據(jù)據(jù)客觀觀情況況考慮慮方便便性、、可行行性和和經(jīng)濟濟性。。不能能一概概而論論。計算機機中常常用的的數(shù)據(jù)據(jù)形式式數(shù)據(jù)是是由一一些變變量和和它們們的觀觀測值值所組組成。。下面面就是是調(diào)查查人們們對某某個問問題觀觀點的的一個個數(shù)據(jù)據(jù)的方方陣形形式。。其中中有6個變變量::觀點點(觀觀測值值為支支持、、反對對和不不知道道三種種)、、教育育程度度(有有高中中低三三種取取值,,用H、M、L表示示)、、月收收入((取值值為實實際數(shù)數(shù)字))、性性別((取值值有男男女兩兩個,,用M和F表示示)以以及地地區(qū)號號(用用數(shù)字字1,,2,,3,,4表表示))等。。該表表一共共有1364個個觀測測值((問卷卷回答答)。??梢砸钥闯龀鲞@些些變量量有定定性((屬性性)變變量,,也有有定量量(數(shù)數(shù)值))變量量。按按照這這個數(shù)數(shù)據(jù)的的格式式,每每一列列為一一個變變量的的不同同觀測測值;;而每每一行行則稱稱為一一個觀觀測值值,它它是個個由數(shù)數(shù)量值值和屬屬性值值組成成的向向量,,每一一個值值相應應于一一個變變量。。思考1.舉舉出一一些觀觀測數(shù)數(shù)據(jù)和和試驗驗數(shù)據(jù)據(jù)的例例子。。2.舉舉出簡簡單隨隨機樣樣本的的例子子。3.根根據(jù)你你的經(jīng)經(jīng)驗,,舉出出總體體和樣樣本的的一些些具體體例子子。4.舉舉出調(diào)調(diào)查抽抽樣時時可能能發(fā)生生的各各種影影響調(diào)調(diào)查結(jié)結(jié)果的的問題題,并并且提提出你你認為為可以以減少少或避避免這這些問問題的的建議議。5.根根據(jù)你你的直直覺,,本章章提到到的幾幾種抽抽樣方方法的的優(yōu)缺缺點是是什么么?原原因何何在??6.舉舉出一一些書書報上上發(fā)表表的數(shù)數(shù)據(jù)例例子,,并指指出那那些是是變量量,哪哪些是是觀測測值。。數(shù)據(jù)的的描述述如同給給人畫畫像一一樣直方圖圖比如某某個地地區(qū)((地區(qū)區(qū)1))學校校高三三男生生的身身高;;有163個度度量如如何用用圖形形來表表示這這個數(shù)數(shù)據(jù),,使人人們能能夠看看出這這個數(shù)數(shù)據(jù)的的大體體分布布或““形狀狀”呢呢?一一個辦辦法就就是畫畫一個個直方方圖(histogram)。盒型圖圖比直方方圖簡簡單一一些的的是盒盒形圖圖(boxplot,又又稱箱箱圖、、箱線線圖、、盒子子圖)。后后面圖圖的左左邊一一個是是根據(jù)據(jù)地區(qū)區(qū)1高高三男男生的的身高高數(shù)據(jù)據(jù)所繪繪的盒盒形圖圖;其其右邊邊的圖圖代表表另一一個地地區(qū)((地區(qū)區(qū)2))的高高三學學生的的身高高莖葉圖地區(qū)1高三三男生身高高數(shù)據(jù)的莖莖葉圖HEIGHTStem-and-LeafPlotFrequencyStem&Leaf9.0015.00122334417.0015.5566666777889999920.0016.0111222222333333344435.0016.5555566666666777778888888888899999925.0017.000000001111222223333334424.0017.55566667777777777788889913.0018.011111112233311.0018.556677888994.0019.23332.0019.563.00Extremes(>=198)Stemwidth:10.00Eachleaf:1case(s)散點圖往往人們得得到的數(shù)據(jù)據(jù)有兩個變變量的,比比如美國男男士和女士士初婚年限限的數(shù)據(jù)。。該數(shù)據(jù)描描述了自1900年到1998年男女第一一次結(jié)婚延延續(xù)的時間間的中位數(shù)數(shù)。當然,,不可能將將所有人的的婚姻年限限都給出來來。所以,,每年就取取了一個中中間的值(中位數(shù))作為代表。。自1900到1960年是每十年年一個值,,以后到1990是每五年取取一個數(shù),,1995年以后是每每年一個數(shù)數(shù)。這里的的一個變量量為記錄年年份,另一一個是結(jié)婚婚時間長短短。由于分分男士和女女士,因此此有兩二維維數(shù)據(jù)。這這時可以以以一個變量量為橫坐標標(如年份份),另一一個為縱坐坐標(這里里是結(jié)婚年年限)來點點圖。這種種圖稱為散散點圖(scatterplot)。還可以以看出在二二十世紀六六十年代婚婚姻年限降降低,而后后來又升高高。而男子子的年限平平均比女性性長。這個個圖是用SPSS畫的。定性變量的的點圖定性變量((或?qū)傩宰冏兞?,分類類變量)不不能點出直直方圖、散散點圖或莖莖葉圖,但但可以描繪繪出它們各各類的比例例。下面用用SPSS繪的圖表示示了說世界界各種主要要語言的人人數(shù)的比例例餅圖條形圖匯總統(tǒng)計量量或概括統(tǒng)計量量(summarystatistic)匯總統(tǒng)計量量(位置))均值(mean)中位數(shù)(median)(第一,第第三)四分分位數(shù)(點點)(firstquantile,thirdquantile)k-百分位位數(shù)(k-percentile)眾數(shù)(mode)匯總統(tǒng)計量量(尺度))(scalestatistic)極差(range)四分位間距距(四分位位極差)(interquantilerange)標準差(standarddeviation)方差(variance)兩個尺度不不同的數(shù)據(jù)據(jù)的直方圖圖,左邊的的標準差大大約只有右右邊的一半半數(shù)據(jù)的標準準得分(standardscore)兩個水平類類似的班級級(一班和和二班)上上同一門課課,但是由由于兩個任任課老師的的評分標準準不同,使使得兩個班班成績的均均值和標準準差都不一一樣(數(shù)據(jù)據(jù):grade.sav)。。一班分數(shù)數(shù)的均值和和標準差分分別為78.53和和9.43,而二班班的均值和和標準差分分別為70.19和和7.00。那么得得到90分分的一班的的張穎是不不是比得到到82分的的二班的劉劉疏成績更更好呢?怎怎么比較才才能合理呢呢?雖然這這種均值和和標準差不不同的數(shù)據(jù)據(jù)不能夠直直接比較,,但是可以以把它們進進行標準化化,然后再再比較標準準化后的數(shù)數(shù)據(jù)。一個個標準化的的方法是把把原始觀測測值(亦稱稱得分,score)和均值值之差除以以標準差;;得到的度度量稱為標標準得分(standardscore)。。思考1.根根據(jù)你的經(jīng)經(jīng)驗,給出出定性和定定量變量的的例子。2.對對于問題1中你的例例子,試圖圖畫出各種種描述性圖圖形并計算算匯總統(tǒng)計計量。3.舉舉例說明眾眾數(shù)、中位位數(shù)和均值值的優(yōu)缺點點。4.舉舉例說明尺尺度統(tǒng)計量量說明了數(shù)數(shù)據(jù)的什么么特性。5.

標準準得分實際際上是對原原始數(shù)據(jù)的的一種標準準化。試舉舉出標準得得分的用處處。統(tǒng)計計推推斷斷從數(shù)數(shù)據(jù)據(jù)得得到到對對現(xiàn)現(xiàn)實實世世界界的的結(jié)結(jié)論論的的過過程程估計計總體體它它代代表表我我們們所所關(guān)關(guān)心心的的那那部部分分現(xiàn)現(xiàn)實實世世界界。。而而在在利利用用樣樣本本中中的的信信息息來來對對總總體體進進行行推推斷斷之之前前人人們們一一般般對對代代表表總總體體的的變變量量假假定定了了分分布布族族。。比比如如假假定定人人們們的的身身高高屬屬于于正正態(tài)態(tài)分分布布族族;;對對抽抽樣樣調(diào)調(diào)查查假假定定了了二二項項分分布布族族等等等等。。這這些些模模型型基基本本上上是是根根據(jù)據(jù)經(jīng)經(jīng)驗驗來來假假定定的的,,所所以以僅僅僅僅是是對對現(xiàn)現(xiàn)實實世世界界的的一一個個近近似似。。在在假假定定了了總總體體分分布布族族之之后后,,進進一一步步對對總總體體的的認認識識就就是是要要在在這這個個分分布布族族中中選選擇擇一一個個適適合合于于我我們們問問題題的的分分布布;;由由于于分分布布族族成成員員是是由由參參數(shù)數(shù)確確定定的的,,如如果果參參數(shù)數(shù)能能夠夠估估計計,,對對總總體體的的具具體體分分布布就就知知道道得得差差不不多多了了。。估計計一種種是是點點估估計計(pointestimation),,也也就就是是用用估估計計量量的的實實現(xiàn)現(xiàn)值值來來近近似似相相應應的的總總體體參參數(shù)數(shù)。。另一一種種是是區(qū)區(qū)間間估估計計(intervalestimation);;它它是是包包括括估估計計量量在在內(nèi)內(nèi)((有有時時是是以以估估計計量量為為中中心心))的的一一個個區(qū)區(qū)間間;;該該區(qū)區(qū)間間被被認認為為很很可可能能包包含含總總體體參參數(shù)數(shù)。。點估估計計給給出出一一個個數(shù)數(shù)字字,,用用起起來來很很方方便便;;而而區(qū)區(qū)間間估估計計給給出出一一個個區(qū)區(qū)間間,,說說起起來來留留有有余余地地;;不不象象點點估估計計那那么么絕絕對對。。無偏偏估估計計(大大樣樣本本性性質(zhì)質(zhì))區(qū)間間估估計計的的置置信信度度(大大樣樣本本性性質(zhì)質(zhì))估計計注意意置置信信區(qū)區(qū)間間的的論論述述是是由由區(qū)區(qū)間間和和置置信信度度兩兩部部分分組組成成。。有有些些新新聞聞媒媒體體報報道道一一些些調(diào)調(diào)查查結(jié)結(jié)果果只只給給出出百百分分比比和和誤誤差差((即即置置信信區(qū)區(qū)間間)),,并并不不說說明明置置信信度度,,也也不不給給出出被被調(diào)調(diào)查查的的人人數(shù)數(shù),,這這是是不不負負責責的的表表現(xiàn)現(xiàn)。。因因為為降降低低置置信信度度可可以以使使置置信信區(qū)區(qū)間間變變窄窄((顯顯得得““精精確確””)),,有有誤誤導導讀讀者者之之嫌嫌。。如如果果給給出出被被調(diào)調(diào)查查的的人人數(shù)數(shù),,則則內(nèi)內(nèi)行行可可以以由由推推算算出出置置信信度度((由由后后面面給給出出的的公公式式)),,反反之之亦亦然然。。一個描述述性例子子一個有10000個人人回答的的調(diào)查顯顯示,同同意某種種觀點的的人的比比例為70%((有7000人人同意)),可以以算出總總體中同同意該觀觀點的比比例的95%置置信區(qū)間間為(0.691,0.709);;另一個個調(diào)查聲聲稱有70%的的比例反反對該種種觀點,,還說總總體中反反對該觀觀點的置置信區(qū)間間也是((0.691,,0.709))。到底底相信誰誰呢?實實際上,,第二個個調(diào)查隱隱瞞了置置信度((等價于于隱瞞了了樣本量量)。如如果第二二個調(diào)查查僅僅調(diào)調(diào)查了50個人人,有35個人人反對該該觀點。。根據(jù)后后面的公公式可以以算出,,第二個個調(diào)查的的置信區(qū)區(qū)間的置置信度僅僅有11%。假設(shè)檢驗驗在假設(shè)檢檢驗中,,一般要要設(shè)立一一個原假假設(shè);而而設(shè)立該該假設(shè)的的動機主主要是企企圖利用用人們掌掌握的反反映現(xiàn)實實世界的的數(shù)據(jù)來來找出假假設(shè)和現(xiàn)現(xiàn)實的矛矛盾,從從而否定定這個假假設(shè)。在在多數(shù)統(tǒng)統(tǒng)計教科科書中((除了理理論探討討之外))的假設(shè)設(shè)檢驗都都是以否否定原假假設(shè)為目目標。如果否定定不了,,那就說說明證據(jù)據(jù)不足,,無法否否定原假假設(shè)。但但這不能能說明原原假設(shè)正正確。很很多教科科書在這這個問題題上不適適當?shù)赜糜谩敖邮苁茉僭O(shè)設(shè)”的說說法,犯犯了明顯顯的低級級邏輯錯錯誤。假設(shè)檢驗驗的過程程和邏輯輯首先要提提出一個個原假設(shè)設(shè),比如如某正態(tài)態(tài)總體的的均值等等于5((m=5)。。這種原原假設(shè)也也稱為零零假設(shè)((nullhypothesis),記記為H0。與此同時時必須提提出對立立假設(shè),,比如總總體均值值大于5(m>5)。。對立假假設(shè)又稱稱為備選選假設(shè)或或備擇假假設(shè)(alternativehypothesis)記為為記為H1或Ha。假設(shè)檢驗驗的過程程和邏輯輯根據(jù)零假假設(shè)(不是備備選假設(shè)設(shè)?。覀兛煽梢缘玫降皆摍z驗驗統(tǒng)計量量的分布布;然后再看看這個統(tǒng)統(tǒng)計量的的數(shù)據(jù)實實現(xiàn)值((realization))屬不屬屬于小概概率事件件。也就就是說把把數(shù)據(jù)代代入檢驗驗統(tǒng)計量量,看其其值是否否落入零零假設(shè)下下的小概概率范疇疇;如果的確確是小概概率事件件,那么么我們就就有可能能拒絕零零假設(shè),,否則我我們說沒沒有足夠夠證據(jù)拒拒絕零假假設(shè)。假設(shè)設(shè)檢檢驗驗的的過過程程和和邏邏輯輯注意意::零假假設(shè)設(shè)和和備備選選假假設(shè)設(shè)在在假假設(shè)設(shè)檢檢驗驗中中并并不不對對稱稱。因因檢檢驗驗統(tǒng)統(tǒng)計計量量的的分分布布是是從從零零假假設(shè)設(shè)導導出出的的,,因因此此,,如如果果發(fā)發(fā)生生矛矛盾盾,,當當然然就就對對零零假假設(shè)設(shè)不不利利了了。。不發(fā)發(fā)生生矛矛盾盾也也不不說說明明備備選選假假設(shè)設(shè)有有問問題題((因因為為和和備備選選假假設(shè)設(shè)無無關(guān)關(guān)))。。假設(shè)設(shè)檢檢驗驗的的過過程程和和邏邏輯輯檢驗驗統(tǒng)統(tǒng)計計量量在在零零假假設(shè)設(shè)下下等等于于這這個個樣樣本本的的數(shù)數(shù)據(jù)據(jù)實實現(xiàn)現(xiàn)值值或或更更加加極極端端值值的的概概率率稱稱為為p-值值((p-value))。。顯然然得得到到很很小小p-值值意意味味著著小小概概率率事事件件發(fā)發(fā)生生了了。。如如果果小小概概率率事事件件發(fā)發(fā)生生,,是是相相信信零零假假設(shè)設(shè),,還還是是相相信信數(shù)數(shù)據(jù)據(jù)呢呢??當然然是是相相信信數(shù)數(shù)據(jù)據(jù)。。于于是是就就拒拒絕絕零零假假設(shè)設(shè)。。但但小小概概率率并并不不能能說說明明不不會會發(fā)發(fā)生生,,僅僅僅僅發(fā)發(fā)生生的的概概率率很很小小罷罷了了。。拒絕絕正正確確零零假假設(shè)設(shè)的的錯錯誤誤常常被被稱稱為為第第一一類類錯錯誤誤((typeIerror))。。假設(shè)設(shè)檢檢驗驗的的過過程程和和邏邏輯輯有第第一一類類錯錯誤誤,,就就有有第第二二類類錯錯誤誤;;那那是是備備選選零零假假設(shè)設(shè)正正確確時時反反而而說說零零假假設(shè)設(shè)正正確確的的錯錯誤誤,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論