SPSS期末復(fù)習(xí)筆記_第1頁
SPSS期末復(fù)習(xí)筆記_第2頁
SPSS期末復(fù)習(xí)筆記_第3頁
SPSS期末復(fù)習(xí)筆記_第4頁
SPSS期末復(fù)習(xí)筆記_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、SPSS四種輸出結(jié)果:樞軸表/輕量表、文本格式、統(tǒng)計圖表、模型SPSS四種窗口:語法窗口、輸出窗口、數(shù)據(jù)窗口、腳本窗口SPSS三種運(yùn)行方式:命令行方式、批程序方式、菜單對話框SPSS默認(rèn)文件類型:數(shù)據(jù)文件*.sav:此為SPSS軟件默認(rèn)的數(shù)據(jù)文件格式,雙擊可由SPSS直接讀取。命令文件*.sps:可在語法編輯程序(syntax)中先編寫或貼上欲執(zhí)行之分析指令,并將其存貯起來,供日后重復(fù)使用或檢查之用。輸出文件*.spo: 允許直接加以編輯或轉(zhuǎn)貼到其他編輯軟件,SPSS 16.0版之后將輸出文件的默認(rèn)格式改為*.spv。 數(shù)據(jù)文件清洗多余重復(fù)的數(shù)據(jù)篩選清楚,將確實的數(shù)據(jù)補(bǔ)充完整,將錯誤的數(shù)據(jù)糾正

2、或刪除。 數(shù)據(jù)標(biāo)識重復(fù)個案 標(biāo)識異常個案問題的答案被稱作變量的取值。將答案轉(zhuǎn)變成可用于統(tǒng)計分析的數(shù)據(jù),需要經(jīng)過一個被稱作“編碼coding”的過程。數(shù)據(jù)陣/數(shù)據(jù)文件:n個案例、m個變量構(gòu)成的陣列SPSS對數(shù)據(jù)的處理是以變量為基礎(chǔ)的。所以,數(shù)據(jù)錄入前一定先定義變量及其屬性,包括指定名稱、(存儲)類型、寬度、小數(shù)、標(biāo)簽、值、缺失、列(寬)、對齊、度量標(biāo)準(zhǔn)和角色。這也被稱作建立數(shù)據(jù)框架。變量名必須以字母、漢字或字符開頭,數(shù)字不可以,其他字符可以是任何字母、數(shù)字或_、#、$等符號。變量名中不能有空白字符或其他特殊字符(如“!”、“?”、“*”等)。 變量名最后一個字符不能是英文句號(.)。在SPSS中

3、不區(qū)分大小寫。例如,HXH、hxh或Hxh對SPSS而言,均被視為同一個變量。SPSS的保留字不能作為變量的名稱,如ALL、AND、BY、EQ、GE、GT、LT、NE、NOT、OR、TO、WITH等。SPSS中變量有3種基本類型:數(shù)值型、字符型(區(qū)分大小寫)和日期型。但根據(jù)不同的顯示方式,數(shù)值型又被區(qū)分成:數(shù)值、逗號、圓點(diǎn)、科學(xué)計數(shù)法、美元、(用戶)設(shè)定貨幣等6個子類型。不過,只有數(shù)值(N)最為常用。默認(rèn)狀態(tài)下,所有變量的類型均為數(shù)值型,且寬度是8位、小數(shù)位是2位。對話框界面可修改寬度和小數(shù)位,然后“確定”,但寬度必須大于小數(shù)位。變量標(biāo)簽是對變量名的進(jìn)一步描述,可長達(dá)120個字符SPSS有兩類

4、缺失值:系統(tǒng)默認(rèn)缺失值和用戶定義缺失值。對于數(shù)值型變量值,系統(tǒng)默認(rèn)缺失值為圓點(diǎn)“.”,而字符型變量值的系統(tǒng)默認(rèn)缺失值為空字符串(什么也沒有)。指定“列”實際上是設(shè)定變量的顯示寬度,默認(rèn)為8個字符的寬度。統(tǒng)計學(xué)中,按照對事物描述的精確程度,將度量標(biāo)準(zhǔn)從低到高區(qū)分為4種類型:定類尺度:僅能測定類別差,不能比較大小,各類之間沒有順序和等級,只能計算頻數(shù)頻率百分比,可以使用數(shù)值型變量,也可以是字符型變量。要符合窮盡和互斥的原則。定序尺度:可比較優(yōu)劣或排序,但數(shù)值不代表絕對數(shù)量大小,可以是數(shù)值型變量,可以是字符型變量??梢杂嬎泐l數(shù)、頻率和累計頻率、累計頻數(shù)。定距尺度:不僅能區(qū)分不同類型并排序,還能指出類

5、別之間的差距是多少,最典型的是溫度。嚴(yán)格來說只能加減。其0值沒有物理含義,沒有絕對的“0”點(diǎn),故不能做乘、除運(yùn)算。定比尺度:測算兩個測度值之間比值,與定距變量相比差別是有一個固定的絕對“零點(diǎn)”。0在定距變量中僅是一個測量值,而定比變量真正表示沒有??梢约訙p乘除。E.g.重量、年齡可以將高層次測量尺度的結(jié)果轉(zhuǎn)換為低層次測量尺度的測量結(jié)果,但不能把低層次的轉(zhuǎn)化為高層次的。半開放題的處理:指定變量時,可以使用兩個變量,第1個變量中,“其他”作為一個選項;第2個變量將“其他”中“請注明”的內(nèi)容作為一個單獨(dú)的開放題,而將沒有選擇“其他”一項的案例在此變量上的取值作為系統(tǒng)缺失值。為使得變量名之間具有一定的

6、邏輯聯(lián)系,可以考慮將第二個變量的名稱設(shè)置為由第一個變量名稱后直接加“a”之類的字符。多選題的處理:多重二分法:編碼時,將每一個選項定義成一個變量,有幾個選項就有幾個變量,且均以取值等于1表示選了該項、以取值等于0表示未選該項。(標(biāo)準(zhǔn)處理方式)多重分類法:也是利用多個變量來對一個多選題的答案進(jìn)行編碼。應(yīng)該用多少個變量,取決于實際可能給出的最多答案的數(shù)目而定。這多個變量必須為數(shù)值型變量,所有變量采用同一套取值標(biāo)簽。Excel、txt的文件讀取之后要保存為SPSS的文件。插入終止線時,開始(即0列)處和結(jié)尾(最后一列)處必須插入,否則會少變量F4.0 A1 F是數(shù)值型 A是字符串 F4.0就是 數(shù)值

7、型 寬度是4 小數(shù)是0什么是固定寬度的,什么是分隔符等分開的?數(shù)據(jù)管理轉(zhuǎn)換變量級別的計算新變量:compute已有變量值的分組合并:recode(重新編碼為不同/相同變量)將度量變量重新分組為序號變量,或者將序號變量、名義變量的不同取值加以歸類合并“重新編碼為相同變量”:對現(xiàn)有變量直接進(jìn)行編碼,保留該變量,只是根據(jù)設(shè)定的規(guī)則替換掉原來的取值?!爸匦戮幋a為不同變量”:根據(jù)現(xiàn)有變量的取值生成一個新變量來保存重新編碼的結(jié)果。包括端點(diǎn)!連續(xù)變量的離散化如果想進(jìn)行的分組是比較有規(guī)律的,例如,等距分組,或等樣本量分組,可以使用SPSS提供的“可視離散化”過程進(jìn)行分組。SPSS提供了兩種可視離散化:需用戶自

8、行判斷設(shè)定的可視離散化和基本全自動的最優(yōu)離散化。建議生成分割點(diǎn)的時候先填第一個分割點(diǎn)的位置和個數(shù),然后自動生成寬度。變量的自動重編碼與數(shù)值移動自動重編碼:自動按照原變量取值的大小或字符順序生成新變量,而新變量的值就是原變量值大小的序號或先后序次。個案排秩:變量的排秩實際上就是根據(jù)某個變量的取值大小來對個案排次序,同時將得到的排序結(jié)果保存到一個新變量中。雖然效果同樣都是基于某個變量對個案進(jìn)行排序,但“個案排秩”過程比“自動重新編碼”過程更為靈活。 結(jié):遇到相同取值如何給序號值默認(rèn)為最常用的秩:新變量的值等于原變量取值的序號數(shù)值移動:在SPSS中,一種方式是以“計算變量”過程利用Lag( )函數(shù)、

9、Lead( )函數(shù)來實現(xiàn) lag函數(shù)是返回之前的,取前面的數(shù)(滯后),在雜項里面;lead函數(shù)是返回后面的,取后面的數(shù)(提前),但是計算變量里面沒有l(wèi)ead函數(shù)了轉(zhuǎn)換轉(zhuǎn)換值“轉(zhuǎn)換”菜單中的其他功能“對個案內(nèi)的值計數(shù)”過程用于標(biāo)識某個變量中是否出現(xiàn)了某個值或某個范圍的值,也可以計算一組變量中出現(xiàn)特定取值的變量個數(shù)。數(shù)據(jù)文件級別的排序個案用戶所指定的變量被稱作排序變量排序個案v.s.個案排秩 區(qū)別:是否產(chǎn)生新變量;個案相對位置是否變動。拆分文件 可以和選擇個案達(dá)到同樣的目的按照不同組分別匯總統(tǒng)計結(jié)果 “按組組織輸出”拆分文件一旦設(shè)定,除非另行取消,否則將在后續(xù)的數(shù)據(jù)處理和分析中一直有效,而且會被另

10、存在數(shù)據(jù)集里。選擇個案(篩選)除了拆分文件的功能,還有并不想對全部個案進(jìn)行分析,而只是想對其中的一部分進(jìn)行分析,這也需要用到“選擇個案”過程。過濾掉未選中個案:默認(rèn)未選中個案不包括在分析中,但保留在數(shù)據(jù)中;并在數(shù)據(jù)文件中生成名為filter_$的變量加以標(biāo)識,取值1表示被選中,0表示未被選中;數(shù)據(jù)視圖最左端未被選中個案處會標(biāo)以反斜杠。選擇個案一旦設(shè)定,除非另行取消,否則將在后續(xù)的數(shù)據(jù)處理和分析中一直有效,而且會被另存在數(shù)據(jù)集里。隨機(jī)個案樣本 精確 后面的兩個框框:第一個框表示樣本的容量。第二個框表示樣本的范圍,也就是從第一個個案開始到第多少個個案老師隨機(jī)抽選同學(xué)回答問題就是這樣做的。加權(quán)個案給

11、不同個案賦以不同的權(quán)重,以改變個案在統(tǒng)計分析中的重要性。通常兩種情況下會用到這一過程:以頻數(shù)形式錄入的數(shù)據(jù);不等概率樣本數(shù)據(jù)。加權(quán)個案一旦設(shè)定,除非另行取消,否則將在后續(xù)的數(shù)據(jù)處理和分析中一直有效,而且會被另存在數(shù)據(jù)集里。(同樣的還有選擇個案和拆分文件)分類匯總按指定的分類變量對個案進(jìn)行分組,并按分組對變量求指定的描述性統(tǒng)計量,結(jié)果可以另存為新數(shù)據(jù)文件,也可以直接(生成新變量)添加到當(dāng)前數(shù)據(jù)文件。個案數(shù):定義一個新變量,其取值等于每一分組下的個案數(shù)目上方、下方都是開區(qū)間內(nèi)部:取值大于等于a且小于等于b外部:取值小于a或大于b分類匯總與拆分文件兩個過程有何異同:分類匯總還對變量做了描述性統(tǒng)計,而

12、拆分文件只是對變量做了分類匯總,對變量進(jìn)行描述還需要進(jìn)一步的操作。數(shù)據(jù)文件的重組 (指的是長、寬格式之間的轉(zhuǎn)換)數(shù)據(jù)錄入的默認(rèn)格式每一案例占一行、每一變量占一列。這種數(shù)據(jù)被稱作寬格式數(shù)據(jù)某些特殊情況下,比如重復(fù)測量數(shù)據(jù),進(jìn)行分析時需要采用長格式數(shù)據(jù),即:按照每一觀測(observation)占一行、同一個案占多行的格式排列的數(shù)據(jù)。(標(biāo)識符變量、索引變量)長寬 將選定個案重組為變量轉(zhuǎn)換后原文件中的數(shù)據(jù)被直接替換,但文件名沒有變。寬長 將選定變量重組為個案數(shù)據(jù)文件的合并縱向拼接/垂直合并 添加的是個案橫向合并/水平合并 添加的是變量若使用關(guān)鍵變量(指定橫向合并時按照什么樣的規(guī)則進(jìn)行對應(yīng))進(jìn)行橫向合

13、并,則各數(shù)據(jù)文件都必須事先按照關(guān)鍵變量取值進(jìn)行升序排列,否則會出錯。為便于以SPSS進(jìn)行橫向合并,各數(shù)據(jù)文件中,表示不同含義的變量盡量采用不同的變量名稱。單變量描述統(tǒng)計:集中趨勢測量(中心性、中心測量)眾數(shù)(適用于任何測量等級的變量:名義、序號和尺度變量)中位數(shù)(只適用于序號、尺度變量,而不適用于名義變量,序號變量要還原到數(shù)字本來代表的意思,有一半的被調(diào)查對象的在以下/上)均值(均值是數(shù)據(jù)分布的平衡點(diǎn)。只適用于尺度變量,而不適用于名義、序號變量。另外,均值對變量的取值大小很敏感,故,對于存在極端值的情形,均值不宜用作反映變量分布集中趨勢的指標(biāo),更好的選擇是中位數(shù)。)左偏(負(fù)偏態(tài)):均值<

14、中位數(shù)<眾數(shù)右偏(正偏態(tài)):眾數(shù)<中位數(shù)<均值(平均數(shù)受偏高數(shù)值影響較大)若要分析不同城市的中位數(shù)等的結(jié)果,可以先拆分文件再進(jìn)行分析離散趨勢測量(尺度統(tǒng)計量)方差(總體:樣本: 單位是變量原始測量單位的平方 樣本方差,也被稱作樣本修正方差,它是總體方差的無偏估計。這也是為什么需要在計算樣本方差時除以n-1的原因)、標(biāo)準(zhǔn)差、異眾比例(1-眾數(shù)組所占比例)、范圍(全距/極差)分布形狀測量峰態(tài)(峰點(diǎn)陡緩程度通過計算峰度kurtosis系數(shù)來測量,多峰分布往往意味著群體內(nèi)部存在分化)偏態(tài)(分布是否對稱通過計算偏度skewness系數(shù)來測量,SK是無量綱的量,取值通常在-3到+3之間,

15、其絕對值越大,表明偏斜程度越大。當(dāng)分布呈右偏態(tài)時,SK>0,故也稱正偏態(tài);當(dāng)分布為左偏態(tài)時,SK<0,故也稱負(fù)偏態(tài)。)統(tǒng)計學(xué) = 描述統(tǒng)計 + 推斷統(tǒng)計(參數(shù)檢驗&非參數(shù)檢驗)推斷統(tǒng)計 = 參數(shù)估計 + 假設(shè)檢驗(由樣本來認(rèn)識總體的兩種方式)參數(shù)估計 = 點(diǎn)估計 + 區(qū)間估計描述統(tǒng)計的目的在于:簡化或概括數(shù)據(jù)(信息)。采用何種描述統(tǒng)計工具取決于變量的測量水平。數(shù)據(jù)分析的兩個任務(wù):描述樣本 推斷總體判斷是否正態(tài)(尺度變量):方法一:通過考察偏度和峰度系數(shù)方法二:通過考察正態(tài)P-P圖方法三:通過正態(tài)性非參數(shù)檢驗(分析非參數(shù)檢驗單樣本 “使用定制字段分配”)除了考察變量取值分布的

16、集中趨勢、離散趨勢、分布形狀之外,還可以考察一些位置統(tǒng)計量,如:四分位數(shù)、百分位數(shù)等對于尺度變量的描述統(tǒng)計,可以采用 分析 描述統(tǒng)計 頻率 過程,也可以采用 分析 描述統(tǒng)計 描述 過程,還可以用分析 描述統(tǒng)計 探索 過程IQR:四分位距=第三四分位數(shù)-第一四分位數(shù) 中間50%案例的取值范圍,反映取值分布的離散程度樣本均值的標(biāo)準(zhǔn)誤SE標(biāo)準(zhǔn)誤:抽樣分布(若重復(fù)抽樣規(guī)模為n=N的樣本,將所有可能樣本均窮盡,每一個樣本統(tǒng)計量(如均值)的值便構(gòu)成了一個新的分布,叫做抽樣分布)的標(biāo)準(zhǔn)差單總體均值(比例是特殊的均值)的假設(shè)檢驗:t檢驗分析比較均值單樣本T檢驗結(jié)論舉例:因為95%置信區(qū)間并未包含0值,故應(yīng)拒絕

17、零假設(shè)。并無足夠證據(jù)支持平均收入為20000美元的說法,故應(yīng)認(rèn)為收入不等于20000美元。二總體均值差異的假設(shè)檢驗分析比較均值獨(dú)立樣本T檢驗小樣本,總體方差未知,兩個方差不等,非參數(shù)檢驗。小樣本,總體方差未知,但已知兩個方差相等:T檢驗大樣本同樣可以用T檢驗,因為n增大時,t與Z不斷逼近,且更保守。兩獨(dú)立樣本t檢驗的零假設(shè)為:兩總體均值之間不存在顯著差異,即1-2=0具體分兩步來完成:第一,利用F檢驗判斷兩總體的方差是否相同【此為進(jìn)行均值差檢驗的前提條件】第二,根據(jù)第一步選擇t統(tǒng)計量和自由度計算公式,進(jìn)而對T檢驗的結(jié)論作出判斷。 結(jié)論舉例:表明男性和女性的收入存在統(tǒng)計上顯著的差別?!敖y(tǒng)計上顯著

18、”的含義:基于樣本觀察到的男性和女性之間收入的差別并非是由隨機(jī)抽樣造成的,而是總體中兩性間收入確實存在著差別。獨(dú)立樣本配對樣本針對同一樣本收集接受“處置”前后兩個時點(diǎn)上的數(shù)據(jù)。注意,這與前面兩個獨(dú)立樣本時情況不同,這時屬于配對樣本研究。(配對樣本T檢驗)將差值作為新的統(tǒng)計量(兩次觀察來自正態(tài)總體,不要求方差相等),檢驗差值是否為0。表明起始薪水與當(dāng)前薪水具有統(tǒng)計上顯著的差別。比例的話編碼應(yīng)該編成0和1,例如均值想表示男性比例,男性就是1;均值想表示女性比例,女性就是1。多總體均值差異的假設(shè)檢驗:F檢驗 方差分析(ANOVA) 是對T檢驗的一般化因素(factor):要檢驗的對象 水平:因素的具

19、體表現(xiàn)線性回歸是方差分析的一般化,方差分析是T檢驗的一般化置信度小,會增大假設(shè)檢驗中犯I類錯誤(棄真錯誤)的風(fēng)險置信水平/置信度/置信系數(shù) 95% 99% 90% 求置信區(qū)間:探索或者單樣本t檢驗置信區(qū)間的含義:通常來說,95%置信區(qū)間的意思是我們估計的目標(biāo)參數(shù)有95%的可能性落入某區(qū)間。而傳統(tǒng)的統(tǒng)計和貝葉斯學(xué)派對置信區(qū)間的解釋是有區(qū)別的。前者的95%置信區(qū)間準(zhǔn)確的解釋應(yīng)該是重復(fù)抽樣100次,大約有95次所估計的參數(shù)會落入該區(qū)間。而后者對置信區(qū)間的解釋更接近于我們通常的理解。即有95%的可能落入該區(qū)間。假設(shè)檢驗所依據(jù)就是小概率原理(統(tǒng)計上),只是把小概率的標(biāo)準(zhǔn)定得更為具體和數(shù)量化而已,比如0.

20、05、0.01等。邏輯上依據(jù)的是反證法。可以將第一類錯誤記為“錯殺好人”,把第二類錯誤記為“放走壞人”方差齊性是方差分析ANOVA方法的基本假定之一方差分析結(jié)果往往意味著:不同組別群體是否來自同一個更大規(guī)模的(正態(tài))總體應(yīng)用方差分析,因滿足以下假定條件:被檢驗變量(因變量)為尺度變量樣本通過隨機(jī)抽樣得到(獨(dú)立性)尺度變量在分類變量各類別上服從正態(tài)分布(正態(tài)性)尺度變量在分類變量各類別上具有相同方差(方差齊性) (如果不齊,如存在呈現(xiàn)出更大變異(方差更大)的大規(guī)模組,則組內(nèi)變異(WSS)會被夸大 后果:犯I類錯誤可能性變大)方差齊性的假設(shè) H0:三地index1的方差相等 H1:三地index1

21、的方差不完全相等方差分析的假設(shè) H0:三地的均值相等 H1:三地均值不同或不完全相同原假設(shè)是想反對的Sig.=0.139 > 0.05,故接受零假設(shè),即三地居民在消費(fèi)信心上不存在顯著的差別。單側(cè)檢驗:備擇假設(shè)<a 是左側(cè)檢驗 計算出雙側(cè)sig值之后除以2,再和0.05比較備擇假設(shè)>a 是右側(cè)檢驗 計算出雙側(cè)sig值之后除以2,再拿1減去這個數(shù),再和0.05比較左側(cè)檢驗就是拒絕域在左邊誤差=隨機(jī)誤差(因素的同一水平下各觀測值之間的差異)+系統(tǒng)誤差(因素的不同水平下各觀測值之間的差異)組內(nèi)方差只包括隨機(jī)誤差 組間方差既包括隨機(jī)誤差,也包括系統(tǒng)誤差SST=SSE+SSA交叉表與卡方檢驗 針對分類變量(包括名義和序號)之間獨(dú)立性檢驗

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論