




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上精選優(yōu)質(zhì)文檔-傾情為你奉上專心-專注-專業(yè)專心-專注-專業(yè)精選優(yōu)質(zhì)文檔-傾情為你奉上專心-專注-專業(yè)SPSS數(shù)據(jù)分析高級(jí)應(yīng)用培訓(xùn)班培訓(xùn)資料(僅供培訓(xùn)使用)目 錄 TOC o 1-3 h z u 第1講 統(tǒng)計(jì)工具與SPSS軟件1.1 統(tǒng)計(jì)工具含義統(tǒng)計(jì)學(xué)是通過(guò)搜索、整理、分析數(shù)據(jù)等手段,以達(dá)到推斷所測(cè)對(duì)象的本質(zhì),甚至預(yù)測(cè)對(duì)象未來(lái)的一門綜合性科學(xué)。其中用到了大量的及其它學(xué)科的專業(yè)知識(shí),它的使用范圍幾乎覆蓋了和的各個(gè)領(lǐng)域。統(tǒng)計(jì)工具是實(shí)現(xiàn)上述過(guò)程的手段與方法,包括理論方法與計(jì)算軟件。1.2 統(tǒng)計(jì)工具作用在古代,治國(guó)安天下多數(shù)通過(guò)邏輯分析和簡(jiǎn)單計(jì)算就能滿足,在現(xiàn)今社會(huì),單純靠邏輯
2、分析和推斷無(wú)法滿足實(shí)際需要,人們往往需求的是隱藏在表面之后的規(guī)律,需要借助統(tǒng)計(jì)工具加以實(shí)現(xiàn),比如:利用C-D生產(chǎn)函數(shù)來(lái)判斷國(guó)家的GDP中,多大程度受固定資產(chǎn)影響,多大程度受人力資本影響,科技進(jìn)步有多大。諸如此類問(wèn)題都需要通過(guò)統(tǒng)計(jì)工具實(shí)現(xiàn),由此,可以得出統(tǒng)計(jì)工具的主要作用就是實(shí)現(xiàn)人們想了解到的、可以了解到的那些潛在的關(guān)系和規(guī)律。1.3運(yùn)用統(tǒng)計(jì)工具注意事項(xiàng)在說(shuō)明統(tǒng)計(jì)工具在使用中需注意問(wèn)題之前,舉個(gè)實(shí)際例子。【例1.1】有人說(shuō):“統(tǒng)計(jì)方法沒什么用,我想知道明天幾點(diǎn)幾分下雨,統(tǒng)計(jì)方法根本無(wú)法實(shí)現(xiàn)”。這樣的說(shuō)法正確嗎?分析與解答:該種說(shuō)法錯(cuò)誤,從供給和需求角度進(jìn)行分析。需求方面:實(shí)際生活中,人們期望獲取
3、一具體點(diǎn)值,屬于微觀問(wèn)題供給方面:利用統(tǒng)計(jì)方法得到的點(diǎn)估計(jì)屬于宏觀問(wèn)題,只有在大量重復(fù)情況下才能實(shí)現(xiàn),舉點(diǎn)估計(jì)的評(píng)價(jià)標(biāo)準(zhǔn)為例說(shuō)明(課堂講授)。從供給和需求方面可以看出,統(tǒng)計(jì)工具是在滿足某些約束條件下得出的結(jié)果,具體在統(tǒng)計(jì)工具運(yùn)用中需注意如下事項(xiàng):1、注意統(tǒng)計(jì)工具滿足的基本假定;2、統(tǒng)計(jì)工具計(jì)算的結(jié)果一定存在誤差;3、只要不影響實(shí)際決策的誤差可以認(rèn)為是統(tǒng)計(jì)上允許的誤差;4、統(tǒng)計(jì)結(jié)果往往具有實(shí)際意義,不要為了面子而濫用統(tǒng)計(jì)工具。1.4 統(tǒng)計(jì)工具與SPSS軟件關(guān)系SPSS軟件是一種實(shí)現(xiàn)理論計(jì)算方法,幫助統(tǒng)計(jì)研究者簡(jiǎn)化計(jì)劃,提高工作效率的電腦軟件,通過(guò)該軟件可迅速實(shí)現(xiàn)描述性統(tǒng)計(jì)分析、確定性統(tǒng)計(jì)分析、隨
4、機(jī)統(tǒng)計(jì)分析等。第2講 SPSS入門2.1 SPSS歷史沿革SPSS是世界上最早的統(tǒng)計(jì)分析軟件,全稱為Statistical Package for Social Science,也稱社會(huì)科學(xué)統(tǒng)計(jì)軟件。由的三位研究生Norman H. Nie、C. Hadlai (Tex) Hull 和 Dale H. Bent于1968年研究開發(fā)成功,同時(shí)成立了SPSS公司,并于1975年成立組織、在芝加哥組建了SPSS總部。1984年SPSS總部首先推出了世界上第一個(gè)統(tǒng)計(jì)分析軟件微機(jī)版本SPSS/PC+,開創(chuàng)了SPSS微機(jī)系列產(chǎn)品的開發(fā)方向,極大地?cái)U(kuò)充了它的應(yīng)用范圍,并使其能很快地應(yīng)用于、的各個(gè)領(lǐng)域。世界上
5、許多有影響的報(bào)刊雜志紛紛就SPSS的自動(dòng)統(tǒng)計(jì)繪圖、數(shù)據(jù)的深入分析、使用方便、功能齊全等方面給予了高度的評(píng)價(jià)。隨著應(yīng)用領(lǐng)域的不斷擴(kuò)大,SPSS已經(jīng)有原來(lái)的名字改為Statistics Product and Service Solution,即統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案。SPSS 15.0.1 - 2006年11月SPSS 16.0.2 - 2008年4月SPSS Statistics 17.0.1 - 2008年12月PASW Statistics 17.0.2 - 2009年3月PASW Statistics 17.0.3 - 2009年11月PASW Statistics 18.0.0 - 2
6、009年8月PASW Statistics 18.0.1 - 2009年12月PASW Statistics 18.0.2 - 2010年4月PASW Statistics 18.0.3 - 2010年9月IBM SPSS Statistics 19.0 - 2010年8月IBM SPSS Statistics 20.0 - 2011年8月IBM SPSS Statistics 21.0 - 2012年8月IBM SPSS Statistics 22.0 - 2013年8月2.2 SPSS基本界面安裝SPSS22.0之后,第一次啟動(dòng)將出現(xiàn)如下界面。在點(diǎn)擊“取消”可出現(xiàn)以下常規(guī)界面。2.3 常規(guī)
7、功能設(shè)置通過(guò)“編輯”“選項(xiàng)”,獲取如下對(duì)話框?qū)Φ谝恍忻钪鹨稽c(diǎn)開,會(huì)出現(xiàn)關(guān)于SPSS如阿年常規(guī)功能設(shè)置的所有界面(課堂演示)2.3 數(shù)據(jù)變量(詳細(xì)介紹在課堂上演示)2.3.1 計(jì)量尺度無(wú)論是觀測(cè)數(shù)據(jù)還是試驗(yàn)數(shù)據(jù),都需要度量。統(tǒng)計(jì)數(shù)據(jù)是對(duì)客觀現(xiàn)象進(jìn)行計(jì)量的結(jié)果,按照對(duì)事物的精確程度,可將所采用的計(jì)量尺度有低級(jí)到高級(jí)分為:名義尺度、定序尺度和間隔尺度(又分為定距尺度和定比尺度)2.3.2 常量與變量常量分為數(shù)值型常量、字符型常量、日期型常量變量分為數(shù)值型變量、字符型變量、日期型變量。數(shù)值型變量包括:標(biāo)準(zhǔn)型、逗號(hào)型、圓點(diǎn)型、科學(xué)計(jì)數(shù)法型、美元型和自定義貨幣型。2.3.3 變量標(biāo)簽變量標(biāo)簽是對(duì)變量名進(jìn)
8、一步解釋和說(shuō)明,包括變量名標(biāo)簽和變量值標(biāo)簽。變量名標(biāo)簽是對(duì)變量名含義的進(jìn)一步解釋和說(shuō)明,在SPSS界面中表現(xiàn)為“標(biāo)簽”列。變量值標(biāo)簽是對(duì)數(shù)值型變量各個(gè)取值的含義進(jìn)行解釋和說(shuō)明,尤其是定型數(shù)據(jù),在SPSS界面中表現(xiàn)為“值”列。2.3.4 變量缺失值在調(diào)查問(wèn)卷中,被調(diào)查者沒有填寫調(diào)查表要求填寫的某些數(shù)據(jù)或填寫的數(shù)據(jù)失真,造成缺失值。這些情況稱為數(shù)據(jù)缺失或數(shù)據(jù)不全,缺失或不完全的數(shù)據(jù)在統(tǒng)計(jì)分析中不能使用,需標(biāo)出,在在SPSS界面中表現(xiàn)為“缺失”列。第3講 數(shù)據(jù)采集與整理3.1數(shù)據(jù)編輯器簡(jiǎn)介數(shù)據(jù)編輯器主要由標(biāo)題欄、當(dāng)前數(shù)據(jù)欄、輸入數(shù)據(jù)欄和數(shù)據(jù)顯示區(qū)組成。3.2 數(shù)據(jù)文件的建立建立數(shù)據(jù)文件可通過(guò)如下兩種
9、方式實(shí)現(xiàn):1、“文件”“新建”命令2、在啟動(dòng)SPSS時(shí)選擇“輸入數(shù)據(jù)”選項(xiàng)數(shù)據(jù)錄入方法包括:按單元格輸入數(shù)據(jù)、按變量錄入數(shù)據(jù)、按觀測(cè)量錄入數(shù)據(jù)和輸入帶有變量標(biāo)簽的數(shù)據(jù)。3.3 數(shù)據(jù)的編輯3.3.1 查看數(shù)據(jù)信息1、查看變量信息在數(shù)據(jù)編輯器窗口中切換到“變量視圖”區(qū)域查看變量信息或者執(zhí)行菜單“應(yīng)用程序”“變量”命令2、查看文件信息執(zhí)行菜單“文件”“顯示數(shù)據(jù)文件信息”命令3.3.2 數(shù)據(jù)定位1、按個(gè)案序號(hào)自動(dòng)定位執(zhí)行菜單“編輯”“轉(zhuǎn)至個(gè)案”命令2、按變量值自動(dòng)定位執(zhí)行菜單“編輯”“查找”命令3.3.3 插入與刪除變量和觀測(cè)量插入變量可通過(guò)以下三種方式實(shí)現(xiàn):1、通過(guò)數(shù)據(jù)編輯器窗口中相關(guān)快捷命令2、利
10、用鼠標(biāo)右鍵完成3、執(zhí)行菜單“編輯”“插入變量”命令刪除變量可通過(guò)以下兩種方式實(shí)現(xiàn):1、利用鼠標(biāo)右鍵完成2、執(zhí)行菜單“編輯”“清除”命令觀測(cè)量(個(gè)案)的插入和刪除方法同變量類似,課堂演示。3.3.4 實(shí)用數(shù)據(jù)文件操作1、數(shù)據(jù)的打開和保存(略)2、數(shù)據(jù)排序(1)執(zhí)行菜單“數(shù)據(jù)”“排序個(gè)案”命令(2)需要根據(jù)哪個(gè)變量排序,則單擊該變量“排序依據(jù)”(3)選擇“升序”還是“降序”(4)點(diǎn)擊“確定”3、數(shù)據(jù)文件的分解(1)執(zhí)行菜單“數(shù)據(jù)”“拆分文件”命令(2)選擇不同的拆分方式:分析所有個(gè)案,不創(chuàng)建組(默認(rèn)方式)、比較組或按組組織輸出(3)選擇不創(chuàng)建組(默認(rèn)方式)、比較組或按組組織輸出需選取“分組方式”(
11、4)點(diǎn)擊“確定”4、數(shù)據(jù)文件的合并1、增加變量(1)執(zhí)行菜單“數(shù)據(jù)”“合并文件”“添加變量”命令(2)選中所添加的變量后點(diǎn)擊“繼續(xù)”命令(3)點(diǎn)擊“確定”2、增加觀測(cè)值(1)執(zhí)行菜單“數(shù)據(jù)”“合并文件”“添加個(gè)案”命令(2)選中所添加的變量后點(diǎn)擊“繼續(xù)”命令(3)點(diǎn)擊“確定”5、數(shù)據(jù)文件的轉(zhuǎn)置執(zhí)行菜單“數(shù)據(jù)”“變換”命令3.4 單選題、多選題與開放題的數(shù)據(jù)錄入,檢查異常值1、單選題的數(shù)據(jù)錄入通過(guò)具體例子說(shuō)明【例3.1】對(duì)馬航失聯(lián)客機(jī)的結(jié)果有如下幾種,選擇最可能的一種?( )A 墜入海洋 B 恐怖分子劫機(jī) C 被海盜劫機(jī) D 政府行為具體實(shí)現(xiàn)方法有兩種:(1)二分法。對(duì)每個(gè)選項(xiàng)賦值“0”或者“1
12、”(2)對(duì)每個(gè)選項(xiàng)分別賦值“1,2,3,4”2、多選題的數(shù)據(jù)錄入(1)多重二分法處理方法同單選題數(shù)據(jù)錄入的(1),此處略。(2)多重分類法若假定最多選2個(gè),先對(duì)對(duì)每個(gè)選項(xiàng)分別賦值“1,2,3,4”,后給出2個(gè)備選變量即可。若沒有限制選項(xiàng)個(gè)數(shù),則將所有的備選變量給出。3、開放題的錄入開放型問(wèn)題的處理一般不需要編碼的操作,當(dāng)然也不需要輸入到SPSS中進(jìn)行分析處理,只能通過(guò)調(diào)查者的匯總歸納概括,因此開放型問(wèn)題在問(wèn)卷中應(yīng)該盡可能的減少;原因在于一是不便于分析處理,二是開放型問(wèn)題的回答率一般較低。4、異常值的查找離群值:(箱圖)值與框的上下邊界的距離在1.5倍框的長(zhǎng)度到3倍框的長(zhǎng)度之間的個(gè)案??虻拈L(zhǎng)度是
13、內(nèi)距。極端值:(箱圖)值距離框的上下邊界超過(guò)3倍框的長(zhǎng)度的個(gè)案??虻拈L(zhǎng)度是內(nèi)距在回歸模型診斷里面,一般稱預(yù)測(cè)值與實(shí)際值的偏差為殘差,按照需要取一殘差,再按照某種標(biāo)準(zhǔn)取一個(gè)閥值來(lái)限定異常點(diǎn),只要那個(gè)點(diǎn)的殘差大于閥值,就可以認(rèn)為它是異常點(diǎn)。在時(shí)間序列分析中,異常值的統(tǒng)計(jì)檢驗(yàn)方法可以通過(guò)殘差的正態(tài)性檢驗(yàn)實(shí)現(xiàn)。3.5 SPSS函數(shù)SPSS函數(shù)是一個(gè)常用程序(rountine),并且利用一個(gè)或多個(gè)自變量(參數(shù))來(lái)執(zhí)行。每個(gè)SPSS函數(shù)均有一個(gè)關(guān)鍵名稱(keywordname),且絕不能寫錯(cuò)。通常,函數(shù)的格式為:函數(shù)名稱(自變量,自變量,),某些函數(shù)可能只含有一個(gè)自變量,而有些函數(shù)則可能含有多個(gè)自變量,當(dāng)
14、一個(gè)函數(shù)含有多個(gè)自變量時(shí),各自變量間用逗號(hào)(,)隔開,而函數(shù)的自變量通常又可分為以下三種:1)常數(shù),如SQRT(100):2)變量名稱,如MEAN(VAR1,VAR2,VAR3);3)表達(dá)式,如MIN(30,SQRT(100)。總之,SPSS函數(shù)和我們平時(shí)EXCEL里面函數(shù)格式規(guī)則并無(wú)差別。SPSS提供了180多種函數(shù),共可分為十多類。和EXCEL一樣,我們也不可能記住所有函數(shù),只要知道一些常用函數(shù),至于其他函數(shù)要用的時(shí)候再去查找也不遲,下面本人將列舉一些常用函數(shù):1 算術(shù)函數(shù)函數(shù)說(shuō)明范例(x=2.6,y=3)ABS(numbexpr)絕對(duì)值函數(shù)ABS(y-x)=0.4RND(numbexpr
15、)四舍五入函數(shù)RND(x)=3TRUNC(numbexpr)取整函數(shù)TRUNC(x)=2SORT(numbexpr)平方根函數(shù)SQRT(y)=1.71MOD(numbexpr,modulus)求算兩數(shù)相除后的余數(shù)MOD(y,x)=0.4EXP(numbexpr)以e為底的指數(shù)函數(shù)EXP(y)=20.09LG10(numbexpr)以10底的對(duì)數(shù)函數(shù)LG10(x*10)=1.41LN(numbexpr)自然對(duì)數(shù)函數(shù)LN(y)=1.12 統(tǒng)計(jì)函數(shù)函數(shù)說(shuō)明范例(X1=2X2=5X3=8)MEAN(numexpr,numexpr,)自變量的平均值MEAN(X1,X2,X3)=5MIN(value, v
16、alue,)自變量的最小值MIN(X1,X2,X3)=1MAX(value, value,)自變量的最大值MAX(X1,X2,X3)=8SUM(numexpr,numexpr,)求和SUM(X1,X2,X3)=15SD(numexpr,numexpr,)求標(biāo)準(zhǔn)差SD(X1,X2,X3)=3VARIANCE(numexpr,numexpr,)求方差VAR(X1,X2,X3)=9CFVAR(numexpr,numexpr,)求變異系數(shù)CFVAR(X1,X2,X3)=0.6 3 缺失值函數(shù)函數(shù)說(shuō)明范例MISSING(variable)若變量缺失,則為T或1,否則為F或0MISSING(X1)=1MI
17、SSING(X2)=1MISSING(X3)=0SYSMIS(numvar)若變量是系統(tǒng)缺失值則為T或1,如為自定缺失或非缺失則為F或0SYSMIS(X1)=0SYSMIS(X2)=1SYSMIS(X3)=0NMISS(variable,)缺失值個(gè)數(shù)NMISS(X1,X2,X3)=2NVALID(variable,)有效值個(gè)數(shù)NVALID(X1,X2,X3)=1VALUE(variable,)忽略自定義缺失值,當(dāng)作非缺失VALUE(X1)=X1注:X1為使用者界定缺失值,X2為系統(tǒng)缺失值,X3為非缺失值4 字符串型函數(shù)函數(shù)說(shuō)明范例ANY(test,value,value)若自變量1和后面自變量
18、竄相同則為真,記為1ANY(is, this)=0ANY(is,this,is)=1CONCAT(strexpr,strexpr)將自變量連成一個(gè)新自變量CONCAT(th,is)=thisINDEX(haystack,needle,divisor)Divisor在needle最左側(cè)開始出現(xiàn)的位置INDEX(this is,is)=3LENGTH(strexpr)自變量所含文字的個(gè)數(shù)(包括特殊字符和空格)LENGTH(th is)=5LOWER(strexpr)自變量中的大寫字母改為小寫字母LOWER(This)=thisUPCASE(strexpr)將自變量中的小寫字母改為大寫字母UPCAS
19、E(this)=THISLTRIM(strexpr,char)在strexpr開始處去除char所形成的常量,如無(wú)char則去除strexpr左側(cè)的空格LTRIM(this,t)=hisLTRIM(this,is)=thLTRIM( this)=thisNUMBER (strexpr,format)當(dāng)自變量為數(shù)字的文字變量時(shí),按文字變量指定格式轉(zhuǎn)換為數(shù)字變量NUMBER(23,F8.1)=2.3NUMBER(23,F8.0)=23RANGE(test,lo,hi,lo,hi)如果自變量1的值包含在自變量集lo至hi的范圍內(nèi),則為T或1RANGE(c,a,k)=TSTRING(strexpr,f
20、ormat)按指定格式將自變量轉(zhuǎn)換為文字型變量STRING(3+4,F8.2)=7.00SUBSTR(sterxpr,pos,length)從strexpr子竄的第pos位置開始取length的字符串長(zhǎng)度SUBSTR(this is,6,2)=is5 時(shí)間日期函數(shù)函數(shù)說(shuō)明范例DATA.DMY(d,m,y)與指定日月年對(duì)應(yīng)的日期DATA.DMY(3,5,99)=05/03/99DATA.MDY(m,d,y)與指定月日年對(duì)應(yīng)的日期DATA.MDY(5,3,99)=05/03/99DATA.YRDA(y,d)與指定年日對(duì)應(yīng)的日期DATA.YRDA(99,35)=02/04/99DATA.QYR(q,
21、y)指定的季節(jié)年份對(duì)應(yīng)的日期DATA.QYR(2,99)=04/01/99DATA.MOYR(m,y)與指定的月年度對(duì)應(yīng)的日期DATA.MOYR(5,99)=05/01/99DATA.WKYR(w,y)與指定的周年度對(duì)應(yīng)的日期DATA.WKYR(38,98)=9/17/98注:1. 要正確顯示以上函數(shù)值,必須先賦予其SPSS得日期型變量(DATA)格式,假設(shè)以上日期用mm/dd/yy格式顯示,時(shí)間則用hh:mm:ss格式表示 2. 1=d=31、1=m=12、1=w=52、1=q=4(六)其他函數(shù)SPSS除了上述函數(shù)外,尚有日期和時(shí)間轉(zhuǎn)換函數(shù)(YOMODACTMIESDAYSCTIMEHOUR
22、SMDAYS等)、連續(xù)幾率密度函數(shù)(CDFBINOMCHISQCDFEXPLOGISTIC等),此外還有NORMAL(stddev)可產(chǎn)生平均數(shù)為0,標(biāo)準(zhǔn)差為stddev的正態(tài)分布隨機(jī)數(shù)字。UNIFORM(max)可產(chǎn)生平均數(shù)為0與max間呈均等分布的隨機(jī)數(shù)字。第4講 描述性統(tǒng)計(jì)分析4.1 常用統(tǒng)計(jì)量4.1.1 描述集中趨勢(shì)的統(tǒng)計(jì)量(將融合在后續(xù)演示中)1、均值2、中位數(shù)3、眾數(shù)4、百分位數(shù)4.1.2 描述離散程度的統(tǒng)計(jì)量(將融合在后續(xù)演示中)1、樣本方差2、樣本標(biāo)準(zhǔn)差3、均值標(biāo)準(zhǔn)差4、極差5、離散系數(shù)4.1.3 描述分布形態(tài)的統(tǒng)計(jì)量(將融合在后續(xù)演示中)1、偏度系數(shù)(以眾數(shù)為衡量指標(biāo))2、峰
23、度系數(shù)(高矮) 全方位的刻畫和定義一組數(shù)據(jù),均數(shù)、方差、風(fēng)度系數(shù)偏度系數(shù)4.2 常用統(tǒng)計(jì)表4.2.1 在線處理分析報(bào)告(OLPA)該過(guò)程對(duì)于按一個(gè)或多個(gè)分組變量所分的組,計(jì)算所考察變量的總值、均值及其他統(tǒng)計(jì)量,并且以分層的方式輸出結(jié)果,表中每一層是依據(jù)一個(gè)分組變量的結(jié)果輸出。執(zhí)行菜單“分析”“報(bào)告”“OLPA多維數(shù)據(jù)集”命令4.2.2 個(gè)案摘要報(bào)告?zhèn)€案摘要報(bào)告又成觀測(cè)量摘要報(bào)告,主要用于按指定分組統(tǒng)計(jì)不同水平的交叉匯編,對(duì)變量進(jìn)行記錄列表,并計(jì)算相應(yīng)統(tǒng)計(jì)量。可通過(guò)“個(gè)案匯總”命令來(lái)預(yù)覽和打印數(shù)據(jù)。執(zhí)行菜單“分析”“報(bào)告”“個(gè)案匯總”命令4.2.3 行形式摘要報(bào)告和列形式摘要報(bào)告(略,學(xué)員可獨(dú)立
24、學(xué)習(xí))專門用于生成復(fù)雜報(bào)表,他們均可以對(duì)輸出表格進(jìn)行精密定義,以滿足客戶的各種嚴(yán)格要求,且輸出格式為文本格式4.3 頻數(shù)分析頻數(shù)分析是描述性統(tǒng)計(jì)分析中最常用的方法之一,可以通過(guò)對(duì)數(shù)據(jù)的分布趨勢(shì)進(jìn)行初步的分析,以便掌握數(shù)據(jù)分布的特征,對(duì)數(shù)據(jù)作進(jìn)一步分析。執(zhí)行菜單“分析”“描述統(tǒng)計(jì)”“頻率”命令在菜單欄中選擇“分析描述統(tǒng)計(jì)頻率”命令,打開如下所示的對(duì)話框。 選擇“分組后的人均面積”作為需要分析的變量,單擊按鈕進(jìn)入“變量”文本框。由于本案例中不要求計(jì)算其他統(tǒng)計(jì)量,所以不用在“統(tǒng)計(jì)量”中進(jìn)行相關(guān)設(shè)置,只需在“圖表”中選擇圖形類型即可。選擇“直方圖”項(xiàng),激活“在直方圖上方顯示正態(tài)曲線”復(fù)選框。單擊“確定
25、”按鈕,系統(tǒng)開始分析。4.4 描述性分析通過(guò)此過(guò)程可對(duì)變量進(jìn)行描述性統(tǒng)計(jì)量的分析,計(jì)算并列出一系列相應(yīng)的指標(biāo),包括平均值、算數(shù)和、標(biāo)準(zhǔn)差、最大值、最小值、方差、全距、和均值標(biāo)準(zhǔn)誤差等,并可以將原始數(shù)據(jù)轉(zhuǎn)換成標(biāo)準(zhǔn)Z分布存入數(shù)據(jù)庫(kù),在數(shù)據(jù)集中生成一個(gè)新的變量,該變量自動(dòng)命名為“Z+原變量名稱”。執(zhí)行菜單“分析”“描述統(tǒng)計(jì)”“描述”命令,在執(zhí)行該命令前,執(zhí)行菜單“數(shù)據(jù)”“拆分文件”“比較組”命令打開數(shù)據(jù)文件,按“班級(jí)”數(shù)量對(duì)數(shù)據(jù)進(jìn)行分組。從菜單欄中選擇“數(shù)據(jù)拆分文件”命令,打開“拆分文件”對(duì)話框。選擇“比較組”按鈕,然后將“班級(jí)”變量選入“分組方式”列表框。單擊“確定”按鈕,完成分組。打開下圖的“描
26、述性”對(duì)話框,從變量列表框中選擇變量年齡、體重和身高。單擊按鈕將選中的變量移動(dòng)到“變量”文本框,并且選擇“將標(biāo)準(zhǔn)化得分另存為變量”復(fù)選框,即要求以變量形式保存Z分值。選擇完變量后,單擊“選項(xiàng)”選項(xiàng),進(jìn)行統(tǒng)計(jì)量的選擇。在本例中,選擇范圍、最大值、最小值、均值、標(biāo)準(zhǔn)差和方差。單擊“繼續(xù)”按鈕確認(rèn)并返回主對(duì)話框。設(shè)置完畢后,單擊“確定”按鈕,系統(tǒng)將執(zhí)行描述性分析。4.5 探索性分析探索性分析可以對(duì)變量進(jìn)行更為深入詳盡的統(tǒng)計(jì)分析,主要用于當(dāng)對(duì)數(shù)據(jù)的性質(zhì)、分布特點(diǎn)等完全不知道的時(shí)候,檢查數(shù)據(jù)是否有錯(cuò)誤,獲得數(shù)據(jù)基本特征,以及對(duì)數(shù)據(jù)規(guī)律作初步觀察。在常用描述性統(tǒng)計(jì)指標(biāo)的基礎(chǔ)上,探索性分析增加了有關(guān)數(shù)據(jù)詳細(xì)
27、分布特征的文字與圖形描述,還可以為方差齊性為目的的變量變換提供線索。執(zhí)行菜單“分析”“描述統(tǒng)計(jì)”“探索”命令選擇“分析統(tǒng)計(jì)描述探索”命令,打開如下所示的“探索”對(duì)話框。 選擇height變量進(jìn)入“因變量列表”框作為待摘要變量;選擇area變量進(jìn)入“因子列表”框作為分組變量。在輸出欄中,選擇“兩者都”項(xiàng)。單擊“統(tǒng)計(jì)量”按鈕,打開統(tǒng)計(jì)量對(duì)話框。選中描述性、M-估計(jì)量、界外值和百分位數(shù)復(fù)選框,然后單擊“繼續(xù)”按鈕,確認(rèn)選擇并返回“探索”對(duì)話框。單擊“繪制”按鈕, “探索:圖”對(duì)話框。選擇“箱圖”欄中的“按因子水平分組”項(xiàng),選擇獎(jiǎng)分組結(jié)果顯示在同一張圖上;選擇“描述性”欄內(nèi)的“莖葉圖”復(fù)選框,輸出莖葉
28、圖,同時(shí)選中“帶檢驗(yàn)的正態(tài)圖”復(fù)選框,要求進(jìn)行正態(tài)性檢驗(yàn);選擇“伸展與級(jí)別Levene檢驗(yàn)”中的“冪估計(jì)”項(xiàng)估計(jì)冪次使組間方差齊次。單擊“繼續(xù)”按鈕,確認(rèn)并選擇返回“探索”對(duì)話框。在“探索”對(duì)話框中單擊“確定”按鈕,完成設(shè)置并執(zhí)行探索性分析。4.6 常用統(tǒng)計(jì)圖(課堂現(xiàn)場(chǎng)演示)常用的統(tǒng)計(jì)圖形包括條形圖、3-D條形圖、面積圖、線圖、餅圖、高低圖、箱圖、誤差條形圖、人口金子塔圖、散點(diǎn)/點(diǎn)狀圖、直方圖等。第5講 一般推斷性統(tǒng)計(jì)分析5.1 統(tǒng)計(jì)推斷理論(課堂現(xiàn)場(chǎng)講授)5.2 均值比較5.2.1 均值過(guò)程均值過(guò)程傾向于對(duì)樣本進(jìn)行描述,他可以對(duì)需要比較的各組計(jì)算描述指標(biāo)進(jìn)行檢驗(yàn)前的預(yù)分析。執(zhí)行菜單“分析”“
29、比較平均值”“平均值”命令在數(shù)據(jù)管理窗口中打開house. Sav數(shù)據(jù)文件。從菜單欄中選擇“分析比較均值均值”命令,打開如下所示的“均值”對(duì)話框。在“均值”對(duì)話框左側(cè)變量列表中選中price和sale變量,單擊按鈕將其移入“因變量列表”列表框中,并將district變量移入“自變量列表”列表框。單擊“選項(xiàng)”按鈕,打開“均值:選項(xiàng)”對(duì)話框,如下圖所示。在“選項(xiàng)”對(duì)話框中選擇需要分析的統(tǒng)計(jì)量,本例中選擇統(tǒng)計(jì)項(xiàng)目。從“單元格統(tǒng)計(jì)量”列表中,選中均值、標(biāo)準(zhǔn)差、最小值、最大值和個(gè)案數(shù)5個(gè)統(tǒng)計(jì)量,然后單擊“繼續(xù)”按鈕確認(rèn),返回“均值”對(duì)話框。在“均值”對(duì)話框中,單擊“確定”按鈕,完成設(shè)置并執(zhí)行操作。5.2
30、.2 單樣本t檢驗(yàn)用樣本均數(shù)代表的未知總體均數(shù)和已知總體均數(shù)進(jìn)行比較,來(lái)觀察此組樣本與總體的差異性。既是單樣本本身無(wú)法比較,進(jìn)行的是均數(shù)與已知總體均數(shù)間的比較。1基本假定(1) 樣本來(lái)自正態(tài)或近似正態(tài)總體;(2) 已知總體均值,可得到樣本均值和標(biāo)準(zhǔn)差2 t檢驗(yàn)統(tǒng)計(jì)量 其中 為樣本平均數(shù);為總體平均數(shù);為樣本標(biāo)準(zhǔn)差;n為樣本容量;t為樣本平均數(shù)與總體平均數(shù)的離差統(tǒng)計(jì)量;3 計(jì)算原理(1) 建立假設(shè),確定檢驗(yàn)水平 H0: = 0 H1: 0; (2) 計(jì)算統(tǒng)計(jì)量;(3) 查相應(yīng)的界值表,確定p值,下結(jié)論;4 SPSS實(shí)例演示執(zhí)行菜單“分析”“比較平均值”“單樣本t檢驗(yàn)”命令打開數(shù)據(jù)文件pulse.
31、sav之后,從菜單欄選擇“分析比較均值單樣本T檢驗(yàn)”命令,打開如下所示的“單樣本T檢驗(yàn)”對(duì)話框。將變量pulse選入“檢驗(yàn)變量”列表框。在“檢驗(yàn)值”框中輸入已知母體平均數(shù)72。單擊“確定”按鈕,完成設(shè)置并執(zhí)行上述操作。5.2.3獨(dú)立樣本t檢驗(yàn) “獨(dú)立樣本 T 檢驗(yàn)”過(guò)程比較兩組個(gè)案的均值。理想的情況下,對(duì)于此檢驗(yàn),主體應(yīng)隨機(jī)地分配到兩個(gè)組中,以便響應(yīng)的任何差別是由于處理(或缺少處理)而非其他因素造成的。例如而比較男性和女性的平均收入則不屬于此情況人不是隨機(jī)指定為男性或女性的。在這些情況下,應(yīng)確保其他因素中的差別沒有掩飾或夸大均值中的顯著性差異。平均收入的差值還可能受諸如教育之類的因素影響(而非
32、僅僅受性別影響)。1 基本假定(1) 兩個(gè)樣本獨(dú)立; (2) 樣本來(lái)自的正態(tài)總體服從正態(tài)分布;2 獨(dú)立樣本t檢驗(yàn)統(tǒng)計(jì)量t分兩種情況:(1) 兩總體方差未知且相等 (2) 兩總體方差未知且不等 , 3 計(jì)算原理設(shè)總X1服從正態(tài)分布N(1,12),總體X2服從正態(tài)分布N(2,22),分別從這兩個(gè)總體中抽取樣本(x11,x12,x13,x1n)和(x21,x22,x23,x2n),且兩樣本相互獨(dú)立,要求檢驗(yàn)1和2是否有顯著性差異。(1) 建立假設(shè),確定檢驗(yàn)水平;H0:1 = 2 H1:1 2; (2) 判斷兩總體方差是否相等,F(xiàn)檢驗(yàn)法(spss會(huì)自動(dòng)檢驗(yàn)方差是否相等),若F值所對(duì)應(yīng)的P值顯著水平,則
33、認(rèn)為總體方差不等,否則相等;(3) 構(gòu)造t統(tǒng)計(jì)量;(4) 根據(jù)t值和p值做出判斷,若p值顯著水平,拒絕原假設(shè),認(rèn)為兩總體均值存在差異;否則接受。4 實(shí)例演示執(zhí)行菜單“分析”“比較平均值”“獨(dú)立樣本t檢驗(yàn)”命令執(zhí)行“分析比較均值獨(dú)立樣本T檢驗(yàn)”命令,打開如下所示的“獨(dú)立樣本T檢驗(yàn)”對(duì)話框。將變量score選入“檢驗(yàn)變量”列表框中作為檢驗(yàn)變量。將變量sex選入“分組變量”文本框中作為分組變量。單擊“定義組”按鈕。打開 “定義組”對(duì)話框。在“組1”后的文本框中輸入1,在“組2”后的文本框中輸入2,然后單擊“繼續(xù)按鈕”,返回主對(duì)話框。單擊“確定”按鈕,結(jié)束設(shè)置并執(zhí)行操作。5.2.4配對(duì)樣本t檢驗(yàn)配對(duì)樣
34、本:是指對(duì)同一樣本進(jìn)行兩次測(cè)試所獲得的兩組數(shù)據(jù),或?qū)蓚€(gè)完全相同的樣本在不同條件下進(jìn)行測(cè)試所得的兩組數(shù)據(jù)。配對(duì)樣本t檢驗(yàn):根據(jù)樣本數(shù)據(jù)對(duì)兩個(gè)配對(duì)樣本來(lái)自的兩配對(duì)總體的均值是否有顯著差異進(jìn)行推斷。1 基本假定(1) 兩樣本應(yīng)該是配對(duì)的;既是兩樣本的觀察數(shù)目相同,且兩樣本的觀察值的順序不能隨意更改; (2) 樣本來(lái)自的兩個(gè)總體應(yīng)該服從正態(tài)分布;2 計(jì)算原理設(shè)總X1服從正態(tài)分布N(1,12),總體X2服從正態(tài)分布N(2,22),分別從這兩個(gè)總體中抽取樣本(x11,x12,x13,x1n)和(x21,x22,x23,x2n),且樣本兩兩配對(duì),要求檢驗(yàn)1和2是否有顯著性差異;(1) 引進(jìn)一個(gè)新的隨機(jī)變量
35、Y= X1-X2,對(duì)于樣本值為(y1,y2, yn),其中yi=x1i-x2i(i=1,2,n),檢驗(yàn)的問(wèn)題轉(zhuǎn)化為單樣本t檢驗(yàn),既是檢驗(yàn)Y的均值是否與0有顯著差異;(2) 建立假設(shè),H0:Y = 0;(3) 構(gòu)造t統(tǒng)計(jì)量;(4) 根據(jù)t值和P值做出推斷,若P值0;一般地,|r|0.95 存在顯著性相關(guān); |r|0.8 高度相關(guān);0.5|r|0.8 中度相關(guān);0.3|r|0.5 低度相關(guān);|r|0.3 關(guān)系極弱,認(rèn)為不相關(guān)2):如果x,y變化的方向相反,如吸煙與肺功能的關(guān)系,r0;3)無(wú)線性相關(guān):r=0。如果變量Y與X間是,則r=1或r=-1;如果變量Y與X間是統(tǒng)計(jì)關(guān)系,則-1rMSw(遠(yuǎn)遠(yuǎn)大于
36、)。MSb/MSw比值構(gòu)成F分布。用F值與其臨界值比較,推斷各樣本是否來(lái)自相同的總體。1 基本假定(1) 各處理?xiàng)l件下的樣本是的。(2) 各處理?xiàng)l件下的樣本是的,否則可能出現(xiàn)無(wú)法解析的輸出結(jié)果。(3) 各處理?xiàng)l件下的樣本分別來(lái)自正態(tài)分布總體,否則使用非分析。(4) 各處理?xiàng)l件下的相同,即具有齊效性2 計(jì)算原理 (1) 建立檢驗(yàn)假設(shè);H0:多個(gè)樣本總體均值相等;H1:多個(gè)樣本總體均值不相等或不全等。檢驗(yàn)水準(zhǔn)為0.05。(2) 計(jì)算檢驗(yàn)統(tǒng)計(jì)量F值;(3) 確定P值并作出推斷結(jié)果。3 應(yīng)用條件(1) 各樣本是相互獨(dú)立的隨機(jī)樣本(2) 各樣本均來(lái)自正態(tài)分布總體(3) 各樣本的總體方差相等,即具有方差齊
37、性(4) 在不滿足正態(tài)性時(shí)可以用非參數(shù)檢驗(yàn)5.5.1 單因素方差分析1 單因素方差分析概念理解步驟是用來(lái)研究一個(gè)的不同水平是否對(duì)觀測(cè)變量產(chǎn)生了顯著影響。這里,由于僅研究單個(gè)因素對(duì)觀測(cè)變量的影響,因此稱為。例如,分析不同施肥量是否給農(nóng)作物產(chǎn)量帶來(lái)顯著影響,考察地區(qū)差異是否影響婦女的生育率,研究學(xué)歷對(duì)工資收入的影響等。這些問(wèn)題都可以通過(guò)單因素方差分析得到答案。的第一步是明確觀測(cè)變量和。例如,上述問(wèn)題中的觀測(cè)變量分別是農(nóng)作物產(chǎn)量、婦女生育率、工資收入;分別為施肥量、地區(qū)、學(xué)歷。的第二步是剖析觀測(cè)變量的方差。方差分析認(rèn)為:觀測(cè)變量值的變動(dòng)會(huì)受控制變量和兩方面的影響。據(jù)此,將觀測(cè)變量總的分解為組間離差平
38、方和和組內(nèi)離差平方和兩部分,用數(shù)學(xué)形式表述為:SST=SSA+SSE。的第三步是通過(guò)比較觀測(cè)變量總各部分所占的比例,推斷是否給觀測(cè)變量帶來(lái)了顯著影響。2 原理總結(jié)容易理解:在觀測(cè)變量總中,如果組間離差平方和所占比例較大,則說(shuō)明觀測(cè)變量的變動(dòng)主要是由引起的,可以主要由控制變量來(lái)解釋,控制變量給觀測(cè)變量帶來(lái)了顯著影響;反之,如果組間離差平方和所占比例小,則說(shuō)明觀測(cè)變量的變動(dòng)不是主要由控制變量引起的,不可以主要由控制變量來(lái)解釋,控制變量的不同水平?jīng)]有給觀測(cè)變量帶來(lái)顯著影響,觀測(cè)變量值的變動(dòng)是由隨機(jī)因素引起的。3 計(jì)算原理(1) 提出原假設(shè):H0無(wú)差異;H1有顯著差異(2) 選擇:方差分析采用的檢驗(yàn)統(tǒng)
39、計(jì)量是,即F值檢驗(yàn)。(3) 計(jì)算檢驗(yàn)統(tǒng)計(jì)量的和概率P值:該步驟的目的就是計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測(cè)值和相應(yīng)的概率P值。(4) 給定,并作出決策4 的進(jìn)一步分析在完成上述的基本分析后,可得到關(guān)于是否對(duì)觀測(cè)變量造成顯著影響的結(jié)論,接下來(lái)還應(yīng)做其他幾個(gè)重要分析,主要包括方差齊性檢驗(yàn)、多重比較檢驗(yàn)。(1) 方差齊性檢驗(yàn)方差齊性檢驗(yàn)是對(duì)不同水平下各觀測(cè)變量是否相等進(jìn)行檢驗(yàn)。前面提到,不同水平下觀測(cè)變量總體方差無(wú)顯著差異是方差分析的前提要求。如果沒有滿足這個(gè)前提要求,就不能認(rèn)為各相同。因此,有必要對(duì)方差是否齊性進(jìn)行檢驗(yàn)。SPSS中,方差齊性檢驗(yàn)采用了方差同質(zhì)性(homogeneity of variance)方
40、法,其原假設(shè)是:各水平下觀測(cè)變量總體的方差無(wú)顯著差異。(2) 多重比較檢驗(yàn)單因素方差分析的基本分析只能判斷是否對(duì)觀測(cè)變量產(chǎn)生了顯著影響。如果確實(shí)對(duì)觀測(cè)變量產(chǎn)生了顯著影響,進(jìn)一步還應(yīng)確定控制變量的不同水平對(duì)觀測(cè)變量的影響程度如何,其中哪個(gè)水平的作用明顯區(qū)別于其他水平,哪個(gè)水平的作用是不顯著的,等等。例如,如果確定了不同施肥量對(duì)農(nóng)作物的產(chǎn)量有顯著影響,那么還需要了解10公斤、20公斤、30肥料對(duì)農(nóng)作物產(chǎn)量的影響是否有差異,其中哪種施肥量水平對(duì)提高農(nóng)作物產(chǎn)量的作用不明顯,哪種施肥量水平最有利于提高產(chǎn)量等。掌握了這些重要的信息就能夠幫助人們制定合理的施肥方案,實(shí)現(xiàn)低投入高產(chǎn)出。多重比較檢驗(yàn)利用了全部觀
41、測(cè)變量值,實(shí)現(xiàn)對(duì)各個(gè)水平下觀測(cè)變量總體的逐對(duì)比較。由于多重比較檢驗(yàn)問(wèn)題也是問(wèn)題,因此也遵循假設(shè)檢驗(yàn)的基本步驟。檢驗(yàn)統(tǒng)計(jì)量的構(gòu)造方法1)LSD方法LSD方法稱為最?。↙east Significant Difference)法。最小法的字畫就體現(xiàn)了其檢驗(yàn)敏感性高的特點(diǎn),即水平間的均值只要存在一定程度的微小差異就可能被檢驗(yàn)出來(lái)。正是如此,它利用全部觀測(cè)變量值,而非僅使用某兩組的。LSD方法適用于各總體方差相等的情況,但它并沒有對(duì)犯一類錯(cuò)誤的概率問(wèn)題加以有效控制。2)S-N-K方法S-N-K方法是一種有效劃分相似性子集的方法。該方法適合于各水平觀測(cè)值個(gè)數(shù)相等的情況,(3) 其他檢驗(yàn)1)先驗(yàn)對(duì)比檢驗(yàn)在
42、多重比較檢驗(yàn)中,如果發(fā)現(xiàn)某些水平與另外一些水平的均值差距顯著,如有五個(gè)水平,其中x1、x2、x3與x4、x5的均值有顯著差異,就可以進(jìn)一步分析比較這兩組總的均值是否存在顯著差異,即1/3(x1+x2+x3)與1/2(x4+x5)是否有顯著差異。這種事先指定各均值的系數(shù),再對(duì)其進(jìn)行檢驗(yàn)的分析方法稱為先驗(yàn)對(duì)比檢驗(yàn)。通過(guò)先驗(yàn)對(duì)比檢驗(yàn)?zāi)軌蚋_地掌握各水平間或各相似性子集間均值的差異程度。2)趨勢(shì)檢驗(yàn)當(dāng)為時(shí),趨勢(shì)檢驗(yàn)?zāi)軌蚍治鲭S著控制變量的變化,觀測(cè)變量值變化的總體趨勢(shì)是怎樣的,是呈現(xiàn)線性變化趨勢(shì),還是呈二次、三次等多項(xiàng)式變化。通過(guò)趨勢(shì)檢驗(yàn),能夠幫助人們從另一個(gè)角度把握不同水平對(duì)觀測(cè)變量總體作用的程度。
43、5 實(shí)例演示執(zhí)行菜單“分析”“比較平均值”“單因素ANOVA”命令在數(shù)據(jù)管理窗口中打開district and sale .sav 數(shù)據(jù)文件。從主菜單欄中選擇“分析比較均值單因素ANOVA”命令,打開如下所示的“單因素 方差分析”對(duì)話框。將“銷售額”作為觀測(cè)變量選入“因變量列表”框。將“廣告形式”作為控制變量選入“因子”文本框??刂谱兞坑袔讉€(gè)不同的取值,就表示控制變量有幾個(gè)水平。單擊“對(duì)比”按鈕,然后從打開的對(duì)比對(duì)話框中的“度”下拉列表框中選擇“線性”選項(xiàng)。單擊“繼續(xù)”按鈕確認(rèn),返回主對(duì)話框。在 “單因素ANOVA:事后多重比較”對(duì)話框中,選擇LSD方法進(jìn)行兩兩比較。單擊“繼續(xù)”按鈕確認(rèn),返回
44、主對(duì)話框。在 “選項(xiàng)”對(duì)話框中,選擇“描述性”項(xiàng)輸出描述性統(tǒng)計(jì)量和“均值圖”輸出頻數(shù)圖。單擊“確定”按鈕確認(rèn),返回主對(duì)話框。單擊“確定”按鈕完成設(shè)置,執(zhí)行單因素方差分析。SPSS將自動(dòng)分解觀測(cè)變量的變差,計(jì)算組間方差、組內(nèi)方差、F統(tǒng)計(jì)量以及對(duì)應(yīng)的概率P值,完成單因素方差分析的相關(guān)分析,并對(duì)計(jì)算結(jié)果輸出到結(jié)果輸出窗口中。5.5.2 多因素方差分析1 多因素方差分析基本思想多因素方差分析用來(lái)研究?jī)蓚€(gè)及兩個(gè)以上是否對(duì)觀測(cè)變量產(chǎn)生顯著影響。這里,由于研究多個(gè)因素對(duì)觀測(cè)變量的影響,因此稱為多因素方差分析。多因素方差分析不僅能夠分析多個(gè)因素對(duì)觀測(cè)變量的獨(dú)立影響,更能夠分析多個(gè)控制因素的交互作用能否對(duì)觀測(cè)變
45、量的分布產(chǎn)生顯著影響,進(jìn)而最終找到利于觀測(cè)變量的最優(yōu)組合。例如:分析不同品種、不同施肥量對(duì)農(nóng)作物產(chǎn)量的影響時(shí),可將農(nóng)作物產(chǎn)量作為觀測(cè)變量,品種和施肥量作為。利用多因素方差分析方法,研究不同品種、不同施肥量是如何影響農(nóng)作物產(chǎn)量的,并進(jìn)一步研究哪種品種與哪種水平的施肥量是提高農(nóng)作物產(chǎn)量的最優(yōu)組合。2 多因素方差分析的其他功能(1) 均值檢驗(yàn)在SPSS中,利用多因素方差分析功能還能夠?qū)Ω鞑煌较掠^測(cè)變量的均值是否存在顯著差異進(jìn)行比較,實(shí)現(xiàn)方式有兩種,即多重比較檢驗(yàn)和對(duì)比檢驗(yàn)。多重比較檢驗(yàn)的方法與類似。對(duì)比檢驗(yàn)采用的是單樣本的方法,它將不同水平下的觀測(cè)變量值看做來(lái)自不同總體的樣本,并依次檢驗(yàn)這些總體
46、的均值是否與某個(gè)指定的檢驗(yàn)值存在顯著差異。其中,檢驗(yàn)值可以指定為以下幾種:觀測(cè)變量的均值(Deviation);第一水平或最后一個(gè)水平上觀測(cè)變量的(Simple);前一水平上觀測(cè)變量的均值(Difference);后一水平上觀測(cè)變量的均值(Helmert)。(2) 交互作用的圖形分析控制變量的交互作用可以通過(guò)圖形直觀分析。3 多因素方差分析的進(jìn)一步分析在上述中,已經(jīng)對(duì)廣告形式、地區(qū)對(duì)銷售額的影響進(jìn)行了多因素方差分析,建立了飽和。由分析可知:廣告形式與地區(qū)的交互作用不顯著,先進(jìn)一步嘗試非飽和模型,并進(jìn)行均值比較分析、交互作用圖形分析。(1) 建立非飽和模型(2) 均值比較分析(3) 控制變量交互
47、作用的圖形分析4 實(shí)例演示執(zhí)行菜單“分析”“一般線性模型”“單變量”命令首先建立數(shù)據(jù)文件“教改成績(jī).sav”,然后再新建的數(shù)據(jù)文件中定義變量和錄入數(shù)據(jù)。關(guān)于新建數(shù)據(jù)文件的方法,在前面的章節(jié)中已詳細(xì)講解過(guò),此處不再贅述。從菜單欄中選擇“分析一般線性模型單變量”命令。將“教改成績(jī)”作為自變量選入“因變量”文本框中,將“教法”和“教材”作為固定量選入“固定因子”列表框中。單擊“選項(xiàng)”按鈕,打開如下所示的選項(xiàng)對(duì)畫框。在“輸出”欄選擇“描述統(tǒng)計(jì)”和“同質(zhì)性檢驗(yàn)”復(fù)選框,然后單擊“繼續(xù)”按鈕確認(rèn)并返回。單擊“事后多重比較”按鈕,打開如下所示的事后多重比較對(duì)話框。選擇變量“教法”進(jìn)入“事后檢驗(yàn)”列表框中,然
48、后在“假定方差齊性”欄下選擇LSD和Tukey項(xiàng)。單擊“確定”按鈕,并執(zhí)行上述操作。5.5.3重復(fù)測(cè)量方差分析實(shí)例演示執(zhí)行菜單“分析”“一般線性模型”“重復(fù)測(cè)量”命令輸入數(shù)據(jù)集,并將數(shù)據(jù)文件命名為repeated。用before表示前測(cè),用after表示后測(cè)。執(zhí)行“分析一般線性模型重復(fù)度量”命令,打開如下所示的“重復(fù)測(cè)量定義因子”窗口。從“被試內(nèi)因子名稱”文本框中刪除原有的“因子1”,然后輸入組內(nèi)因數(shù)名cla。在“級(jí)別數(shù)”文本框中輸入因素水平數(shù)3,然后單擊“添加”按鈕,則在右側(cè)的列表框中顯示cla(3)。此時(shí),“定義”按鈕有效。單擊“定義”按鈕,打開如下所示的“重復(fù)度量”主窗口。先后選擇變量c
49、lass、前測(cè)成績(jī)、后測(cè)成績(jī)進(jìn)入“群體內(nèi)部變量”列表框。單擊“模型”按鈕,打開模型對(duì)話框。選擇“定制”單選按鈕,并將cla變量選入“主體內(nèi)模型”列表框。單擊“繼續(xù)”按鈕并返回。單擊“選項(xiàng)”按鈕,打開選項(xiàng)對(duì)話框,。在“輸出”欄中選擇“描述統(tǒng)計(jì)”項(xiàng),然后單擊“繼續(xù)”按鈕返回。單擊“確定”按鈕并執(zhí)行上述操作。5.5.4 協(xié)方差分析1 分析基本思想通過(guò)上述的分析可以看到,不論是還是多因素方差分析,控制因素都是可控的,其各個(gè)水平可以通過(guò)人為的努力得到控制和確定。但在許多實(shí)際問(wèn)題中,有些控制因素很難人為控制,但它們的不同水平確實(shí)對(duì)觀測(cè)變量產(chǎn)生了較為顯著的影響例如,在研究農(nóng)作物產(chǎn)量問(wèn)題時(shí),如果僅考察不同施肥
50、量、品種對(duì)農(nóng)作物產(chǎn)量的影響,不考慮不同地塊等因素而進(jìn)行方差分析,顯然是不全面的。因?yàn)槭聦?shí)上有些地塊可能有利于農(nóng)作物的生長(zhǎng),而另一些卻不利于農(nóng)作物的生長(zhǎng)。不考慮這些因素進(jìn)行分析可能會(huì)導(dǎo)致:即使不同的施肥量、不同品種農(nóng)作物產(chǎn)量沒有產(chǎn)生顯著影響,但分析的結(jié)論卻可能相反。再例如,分析不同的飼料對(duì)生豬增重是否產(chǎn)生顯著差異。如果單純分析的作用,而不考慮生豬各自不同的身體條件(如初始體重不同),那么得出的結(jié)論很可能是不準(zhǔn)確的。因?yàn)轶w重增重的幅度在一定程度上是包含諸如初始體重等其他因素的影響的。2 協(xié)方差分析的原理將那些人為很難控制的控制因素作為,并在排除協(xié)變量對(duì)觀測(cè)變量影響的條件下,分析(可控)對(duì)觀測(cè)變量的
51、作用,從而更加準(zhǔn)確地對(duì)控制因素進(jìn)行評(píng)價(jià)。仍然沿承方差分析的基本思想,并在分析觀測(cè)變量變差時(shí),考慮了的影響,人為觀測(cè)變量的變動(dòng)受四個(gè)方面的影響:即的獨(dú)立作用、控制變量的交互作用、協(xié)變量的作用和隨機(jī)因素的作用,并在扣除協(xié)變量的影響后,再分析控制變量的影響。方差分析中的原假設(shè)是:對(duì)觀測(cè)變量的線性影響是不顯著的;在協(xié)變量影響扣除的條件下,各水平下觀測(cè)變量的總體均值無(wú)顯著差異,控制變量各水平對(duì)觀測(cè)變量的效應(yīng)同時(shí)為零。檢驗(yàn)仍采用F統(tǒng)計(jì)量,它們是各均方與隨機(jī)因素引起的均方比。3 實(shí)例演示執(zhí)行菜單“分析”“一般線性模型”“單變量”命令(1)執(zhí)行菜單“圖形”“舊對(duì)話框”“散點(diǎn)/點(diǎn)狀”命令(2)執(zhí)行“分析般線性模
52、型單變量”命令,打開如下所示的“單變量”對(duì)話框。在“單變量”對(duì)話框中,選擇“喂養(yǎng)后體重的增加”作為自變量選入“因變量”文本框;“飼料種類”作為固定變量,進(jìn)入“固定因子”文本框;而“喂養(yǎng)前體重”作為協(xié)變量進(jìn)入“協(xié)變量”文本框。(3)對(duì)話框中單擊“對(duì)比”按鈕,并選擇“簡(jiǎn)單”項(xiàng),然后單擊“更改”按鈕進(jìn)行簡(jiǎn)單對(duì)照,分別以“最后一個(gè)”和“第一個(gè)”作為參照對(duì)比進(jìn)行對(duì)比。在選項(xiàng)對(duì)話框中選擇“描述統(tǒng)計(jì)”項(xiàng)輸出描述性統(tǒng)計(jì)量。第6講 多元統(tǒng)計(jì)分析6.1 聚類分析聚類分析是研究(樣本或指標(biāo))分類問(wèn)題的一種多元統(tǒng)計(jì)方法。聚類分析是根據(jù)一批樣品的許多觀測(cè)指標(biāo),按照一定的數(shù)學(xué)公式具體地計(jì)算一些樣品或一些指標(biāo)的相似程度,把
53、相似的樣品或指標(biāo)歸為一類。變量之間的聚類即R型聚類分析,常用相似系數(shù)來(lái)測(cè)度變量之間的親疏程度;樣品之間的聚類即Q型聚類分析,常用距離來(lái)測(cè)度樣品之間的親疏程度。6.1.1 理論背景聚類分析起源于分類學(xué),在考古的分類學(xué)中,人們主要依靠經(jīng)驗(yàn)和專業(yè)知識(shí)來(lái)實(shí)現(xiàn)分類。隨著生產(chǎn)技術(shù)和科學(xué)的發(fā)展,人類的認(rèn)識(shí)不斷加深,分類越來(lái)越細(xì),要求也越來(lái)越高,有時(shí)光憑經(jīng)驗(yàn)和專業(yè)知識(shí)是不能進(jìn)行確切分類的,往往需要定性和定量分析結(jié)合起來(lái)去分類,于是數(shù)學(xué)工具逐漸被引進(jìn)分類學(xué)中,形成了數(shù)值分類學(xué)。后來(lái)隨著多元分析的引進(jìn),聚類分析又逐漸從數(shù)值分類學(xué)中分離出來(lái)而形成一個(gè)相對(duì)獨(dú)立的分支。在社會(huì)經(jīng)濟(jì)領(lǐng)域中存在著大量分類問(wèn)題,比如對(duì)我國(guó)30
54、個(gè)省市自治區(qū)獨(dú)立核算工業(yè)企業(yè)經(jīng)濟(jì)效益進(jìn)行分析,一般不是逐個(gè)省市自治區(qū)去分析,而較好地做法是選取能反映企業(yè)經(jīng)濟(jì)效益的代表性指標(biāo),如百元固定資產(chǎn)實(shí)現(xiàn)利稅、資金利稅率、產(chǎn)值利稅率、百元銷售收入實(shí)現(xiàn)利潤(rùn)、全員勞動(dòng)生產(chǎn)率等等,根據(jù)這些指標(biāo)對(duì)30個(gè)省市自治區(qū)進(jìn)行分類,然后根據(jù)分類結(jié)果對(duì)企業(yè)經(jīng)濟(jì)效益進(jìn)行綜合評(píng)價(jià),就易于得出科學(xué)的分析。又比如若對(duì)某些大城市的物價(jià)指數(shù)進(jìn)行考察,而物價(jià)指數(shù)很多,有農(nóng)用生產(chǎn)物價(jià)指數(shù)、服務(wù)項(xiàng)目?jī)r(jià)指數(shù)、食品消費(fèi)物價(jià)指數(shù)、建材零售價(jià)格指數(shù)等等。由于要考察的物價(jià)指數(shù)很多,通常先對(duì)這些物價(jià)指數(shù)進(jìn)行分類??傊?,需要分類的問(wèn)題很多,因此聚類分析這個(gè)有用的數(shù)學(xué)工具越來(lái)越受到人們的重視,它在許多領(lǐng)域
55、中都得到了廣泛的應(yīng)用。6.1.2距離和相似系數(shù)1 變量測(cè)量尺度的類型為了將樣本進(jìn)行分類,就需要研究樣品之間的關(guān)系;而為了將變量(指標(biāo))進(jìn)行分類,就需要研究變量之間的關(guān)系。但無(wú)論是樣品之間的關(guān)系,還是變量之間的關(guān)系,都是用變量來(lái)描述的,變量的類型不同,描述方法也就不同。通常,變量按照測(cè)量它們的尺度不同,可以分為三類。 (1) 間隔尺度。指標(biāo)度量時(shí)用數(shù)量來(lái)表示,其數(shù)值由測(cè)量、計(jì)數(shù)、統(tǒng)計(jì)得到,如長(zhǎng)度、重量、收入、支出等。一般來(lái)說(shuō),計(jì)數(shù)得到的數(shù)量是離散數(shù)量,測(cè)量得到的數(shù)量是連續(xù)數(shù)量。在間隔尺度中如果存在絕對(duì)零點(diǎn),又稱比例尺度。 (2) 順序尺度。指標(biāo)度量時(shí)沒有明確的數(shù)量表示,只有次序關(guān)系,或雖用數(shù)量表
56、示,但相鄰兩數(shù)值之間的差距并不相等,它只表示一個(gè)有序狀態(tài)序列。如評(píng)價(jià)酒的味道,分成好、中、次三等,三等有次序關(guān)系,但沒有數(shù)量表示。(3) 名義尺度。指標(biāo)度量時(shí)既沒有數(shù)量表示也沒有次序關(guān)系,只有一些特性狀態(tài),如眼睛的顏色,化學(xué)中催化劑的種類等。在名義尺度中只取兩種特性狀態(tài)的變量是很重要的,如電路的開和關(guān),天氣的有雨和無(wú)雨,人口性別的男和女,醫(yī)療診斷中的“十”和“一”,市場(chǎng)交易中的買和賣等都是此類變量。 2 數(shù)據(jù)的變換處理 所謂數(shù)據(jù)變換,就是將原始數(shù)據(jù)矩陣中的每個(gè)元素,按照某種特定的運(yùn)算把它變成為一個(gè)新值,而且數(shù)值的變化不依賴于原始數(shù)據(jù)集合中其它數(shù)據(jù)的新值。(1) 中心化變換中心化變換是一種坐標(biāo)軸
57、平移處理方法,它是先求出每個(gè)變量的樣本平均值,再?gòu)脑紨?shù)據(jù)中減去該變量的均值,就得到中心化變換后的數(shù)據(jù)。 設(shè)原始觀測(cè)數(shù)據(jù)矩陣為: 中心化變換的結(jié)果是使每列數(shù)據(jù)之和均為0,即每個(gè)變量的均值為0,而且每列數(shù)據(jù)的平方和是該列變量樣本方差的(n-1)倍,任何不同兩列數(shù)據(jù)之交叉乘積是這兩列變量樣本協(xié)方差的(n-1)倍,所以這是一種很方便地計(jì)算方差與協(xié)方差的變換。(2) 極差規(guī)格化變換 規(guī)格化變換是從數(shù)據(jù)矩陣的每一個(gè)變量中找出其最大值和最小值,這兩者之差稱為極差,然后從每個(gè)變量的每個(gè)原始數(shù)據(jù)中減去該變量中的最小值,再除以極差,就得到規(guī)格化數(shù)據(jù)。即有: 經(jīng)過(guò)規(guī)格化變換后,數(shù)據(jù)矩陣中每列即每個(gè)變量的最大數(shù)值為
58、1,最小數(shù)值為0,其余數(shù)據(jù)取值均在01之間;并且變換后的數(shù)據(jù)都不再具有量綱,便于不同的變量之間的比較。 (3) 標(biāo)準(zhǔn)化變換 標(biāo)準(zhǔn)化變換也是對(duì)變量的數(shù)值和量綱進(jìn)行類似于規(guī)格化變換的一種數(shù)據(jù)處理方法。首先對(duì)每個(gè)變量進(jìn)行中心化變換,然后用該變量的標(biāo)準(zhǔn)差進(jìn)行標(biāo)準(zhǔn)化。特點(diǎn)是在抽樣樣本改變時(shí),它仍保持相對(duì)穩(wěn)定性。即:經(jīng)過(guò)標(biāo)準(zhǔn)化變換處理后,每個(gè)變量即數(shù)據(jù)矩陣中每列數(shù)據(jù)的平均值為0,方差為1,且也不再具有量綱,同樣也便于不同變量之間的比較。變換后,數(shù)據(jù)矩陣中任何兩列數(shù)據(jù)乘積之和是兩個(gè)變量相關(guān)系數(shù)的(n1)倍,所以這是一種很方便地計(jì)算相關(guān)矩陣的變換。(4) 對(duì)數(shù)變換對(duì)數(shù)變換是將各個(gè)原始數(shù)據(jù)取對(duì)數(shù),將原始數(shù)據(jù)的對(duì)
59、數(shù)值作為變換后的新值。特點(diǎn)是將具有指數(shù)特征的數(shù)據(jù)結(jié)化為線性特征的數(shù)據(jù)結(jié)構(gòu)。即:3 樣品間親疏程度的測(cè)度研究樣品或變量的親疏程度的數(shù)量指標(biāo)有兩種,一種叫相似系數(shù),性質(zhì)越接近的變量或樣品,它們的相似系數(shù)越接近于1或一l,而彼此無(wú)關(guān)的變量或樣品它們的相似系數(shù)則越接近于0,相似的為一類,不相似的為不同類; 另一種叫距離,它是將每一個(gè)樣品看作p維空間的一個(gè)點(diǎn),并用某種度量測(cè)量點(diǎn)與點(diǎn)之間的距離,距離較近的歸為一類,距離較遠(yuǎn)的點(diǎn)應(yīng)屬于不同的類。(1) 定義距離的準(zhǔn)則 定義距離要求滿足第i個(gè)和第j個(gè)樣品之間的距離如下四個(gè)條件(距離可以自己定義,只要滿足距離的條件) 對(duì)一切i和j都成立;(2) 常用距離的算法
60、1) 明氏距離測(cè)度設(shè)和是第i和 j 個(gè)樣品的觀測(cè)值,則二者之間的距離為:明式距離 特別,絕對(duì)值距離和歐氏距離都是其中之一種。明考夫斯基距離主要有以下兩個(gè)缺點(diǎn):首先,明氏距離的值與各指標(biāo)的量綱有關(guān),而各指標(biāo)計(jì)量單位的選擇有一定的人為性和隨意性,各變量計(jì)量單位的不同不僅使此距離的實(shí)際意義難以說(shuō)清,而且,任何一個(gè)變量計(jì)量單位的改變都會(huì)使此距離的數(shù)值改變,從而使該距離的數(shù)值依賴于各變量計(jì)量單位的選擇。其次,明氏距離的定義沒有考慮各個(gè)變量之間的相關(guān)性和重要性。實(shí)際上,明考夫斯基距離是把各個(gè)變量都同等看待,將兩個(gè)樣品在各個(gè)變量上的離差簡(jiǎn)單地進(jìn)行了綜合。2) 杰氏距離這是杰斐瑞和馬突斯塔(Jffreys &
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- T-ZHHX 004-2024 粉苞酸腳桿盆花生產(chǎn)技術(shù)規(guī)范
- 二零二五年度員工宿舍入住與退宿手續(xù)協(xié)議
- 2025年度水利工程監(jiān)理工程師合同管理與可持續(xù)發(fā)展
- 二零二五年度商鋪經(jīng)營(yíng)權(quán)放棄及轉(zhuǎn)讓協(xié)議書
- 二零二五年度酒吧租賃合同書
- 2025年度潤(rùn)滑油行業(yè)年度銷售排行榜合作合同
- 2025年度機(jī)關(guān)單位食堂餐飲培訓(xùn)與咨詢服務(wù)合同
- 二零二五年度夫妻婚內(nèi)財(cái)產(chǎn)約定及家庭財(cái)務(wù)顧問(wèn)服務(wù)協(xié)議
- 二零二五年度智慧城市項(xiàng)目實(shí)施團(tuán)隊(duì)勞動(dòng)合同
- 二零二五年度企業(yè)稅收籌劃與稅務(wù)籌劃培訓(xùn)與實(shí)施合同
- 《智能家居系統(tǒng)》課件
- 基礎(chǔ)模塊下冊(cè)《中國(guó)人民站起來(lái)了》2
- 繼電保護(hù)業(yè)務(wù)技能實(shí)操題庫(kù)
- 個(gè)人理財(cái)(第三版)第01章導(dǎo)論
- 鉆機(jī)交接班記錄表
- 全國(guó)初中數(shù)學(xué)聯(lián)賽試題30套
- IATF16949質(zhì)量體系基礎(chǔ)知識(shí)培訓(xùn)
- 內(nèi)科學(xué)-高血壓病
- 廣州預(yù)拌混凝土行業(yè)發(fā)展專項(xiàng)規(guī)劃
- 【教案】 人民音樂(lè)家 教案高中人音版(2019)必修《音樂(lè)鑒賞》
- 河南省中等職業(yè)教育技能大賽組委會(huì)辦公室
評(píng)論
0/150
提交評(píng)論