SPSS數(shù)據(jù)預處理操作

上傳人：建*** IP屬地：上海上傳時間：2022-01-31 格式：DOCX 頁數(shù)：14 大?。?0.73KB 積分：20 舉報 版權(quán)申訴

已閱讀5頁，還剩9頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、第一講：SPSS數(shù)據(jù)預處理操作教學目的：能應用SPSS軟件進行：數(shù)據(jù)文件的建立、數(shù)據(jù)錄入與修改、變量計算及轉(zhuǎn)換教學內(nèi)容：1）SPSS概述 2）SPSS數(shù)據(jù)文件的建立 3）SPSS數(shù)據(jù)整理與轉(zhuǎn)換教學重點：SPSS數(shù)據(jù)文件的建立教學難點：SPSS數(shù)據(jù)轉(zhuǎn)換教學時間：1學時SPSS概述1.1 SPSS簡介SPSS 是英文Statistical Package for the Social Science（社會科學統(tǒng)計軟件包）的縮寫。SPSS 名為社會科學統(tǒng)計軟件包，這是為了強調(diào)其在社會科學應用的一面(因為社會科學研究中的許多現(xiàn)象都是隨機的，要使用統(tǒng)計學來進行研究)，而實際上廣泛應用于經(jīng)濟學、社會學、生

2、物學、教育學、心理學、醫(yī)學以及體育、工業(yè)、農(nóng)業(yè)、林業(yè)、商業(yè)和金融等各個領(lǐng)域。SPSS 的基本功能包括數(shù)據(jù)管理、統(tǒng)計分析、圖表分析、輸出管理等等。SPSS 統(tǒng)計分析過程包括描述性統(tǒng)計、均值比較、一般線性模型、相關(guān)分析、回歸分析、對數(shù)線性模型、聚類分析、數(shù)據(jù)簡化、生存分析、時間序列分析、多重響應等幾大類，每類中又分好幾個統(tǒng)計過程，比如回歸分析中又分線性回歸分析、曲線估計、Logistic 回歸、Probit 回歸、加權(quán)估計、兩階段最小二乘法、非線性回歸等多個統(tǒng)計過程，而且每個過程中又允許用戶選擇不同的方法及參數(shù)。SPSS 也有專門的繪圖系統(tǒng)，可以根據(jù)數(shù)據(jù)繪制各種圖形。1.2 SPSS的運行環(huán)境硬件

3、環(huán)境：能運行Windows 95/NT/2000 或以上版本的微機。軟件環(huán)境：SPSS 能在中英文Windows 9X、Windows NT 4.0、Windows2000 及更高版本的Windows 操作系統(tǒng)上運行。1.3 SPSS的進入和退出進入Windows后，逐一選取開始程序SPSS for WindowsSPSS 11.0 for Windows，單擊SPSS 11.0 for Windows后，即可進入SPSS。首先是一個對話框如圖1.1，顯示最近打開的數(shù)據(jù)文件、結(jié)果文件和程序命令文件。可選取你要打開的文件，按OK按鈕打開。如不喜歡這個對話框，可選取對話框下方的Dont show

4、 this dialog in the future選項則以后不會再顯示。要退出SPSS，在任一SPSS窗口下逐一選取FileExit，或在SPSS Data Editor窗口單擊右上角關(guān)閉按鈕。若生成了新文件或?qū)σ郧拔募M行了修改，退出前會提醒你對其進行保存。 1.4 SPSS窗口及其功能 SPSS有數(shù)據(jù)編輯窗口SPSS Data Editor、結(jié)果窗口SPSS Viewer和語句窗口Syntax。這里只介紹數(shù)據(jù)編輯窗口和結(jié)果窗口。1.4.1 數(shù)據(jù)編輯窗口啟動SPSS后，首先進入數(shù)據(jù)編輯窗口SPSS Data Editor，如圖1.2的Data View窗口，可在此窗口下錄入數(shù)據(jù)、修改數(shù)據(jù)

5、等。圖1.2 Data View窗口點擊下方Variable View按鈕可進入變量定義窗口，如圖1.3。在此窗口下可定義、修改變量或察看變量的設置情況。在下圖中可看到變量的名字（Name）、寬度（Width）、類型（Type）、小數(shù)位數(shù)（Decimals）、標簽（Label）等。SPSS的幾個窗口菜單大致相同其中的命令也基本相同。菜單下的工具按鈕均為常用的命令。將鼠標移至按鈕附近，則彈出該按鈕的解釋，以后就不再說明。下面將簡介，各命令的具體作用請參考實驗指導教材。 File菜單中常用的命令為New（創(chuàng)建新文件）、Open（打開已有文件）、Save（保存）、Save As（另存為）、Close

6、（關(guān)閉窗口， SPSS Data Editor窗口下無此命令，該窗口關(guān)閉則退出SPSS）、 Recently used Data（最近打開的數(shù)據(jù)）、Recently used Files（最近打開的文件）、Exit（退出）等。圖1.3 Variable View窗口Edit菜單下的常用命令有Undo（撤銷上次操作）、Redo（重復上次操作）、Cut（剪切）、Copy（復制）、Paste（粘貼）、Clear（清除）、Find（查找）、Options（選項）、Options（可對SPSS的一些設置進行調(diào)整）等。View菜單中的命令可對窗口的設置進行調(diào)整,有Status Bar，Tool Bars，

7、Fonts，Grid lines，Value Labels。Data菜單中是數(shù)據(jù)進行編輯整理的命令，包括Define Dates，Insert Variable，Insert Case，Go to Case，Sort Cases，Transpose，Merge Files，Aggregate等Transform中命令有：Compute；Random Number Seed；Count；Recode；Categorize Variable；等Utilities 菜單中命令有：Variables；File Info；Define Sets；Use Sets；Run Script；Menu Edit

8、or；Analyze；Graph等菜單下的工具按鈕均為常用的命令。將鼠標移至按鈕附近，則彈出該按鈕的解釋，在此不再一一說明。1.4.2 結(jié)果窗口該窗口中顯示SPSS處理的輸出信息。如處理成功，則顯示處理結(jié)果；如處理失敗，則顯示錯誤信息。結(jié)果窗口可分為左右兩個窗口。左窗口為大綱窗口，其內(nèi)容即結(jié)果的目錄；右窗口為內(nèi)容窗口，顯示具體結(jié)果。如點擊大綱窗口的項目，則內(nèi)容窗口會顯示相應內(nèi)容，與資源管理器操作類似，如圖1.4。SPSS結(jié)果一般由以下幾個部分組成：題頭（Heading，即處理的名稱）、標題（Title）、記錄（Notes，包括數(shù)據(jù)文件名、缺失值處理、操作所用時間等，默認選項為隱藏，只有雙擊大

9、綱窗口中該項目才顯示出來）、結(jié)果具體內(nèi)容（文本、圖形等）。單擊題頭（對準題頭左邊黃色的盒狀圖標），則可選中上述的整個處理的結(jié)果；雙擊題頭時，可使整個結(jié)果折疊或打開。單擊題頭前的“+”或“”符號，也可達到同樣效果。雙擊大綱窗口中某個項目，則可使相應內(nèi)容隱藏或顯示，同時大綱窗口中該項目名稱前圖標由一本打開的書變?yōu)楹仙系臅蛳喾础Ｈ缫淖兘Y(jié)果中表格或圖形的位置，可在大綱窗口或結(jié)果窗口單擊該項目，將它拖到指定位置即可。在此窗口中還可對結(jié)果進行編輯如選擇刪除復制等。該窗口菜單同數(shù)據(jù)編輯窗口類似，新增加項目如圖所示：File；Edit；View等SPSS數(shù)據(jù)文件的建立如上一章所述，建立SPSS數(shù)據(jù)文件有兩

10、種方法：一是在SPSS中直接輸入，二是從其他數(shù)據(jù)文件轉(zhuǎn)入。重點介紹第一種方法，它類似于在FOXPRO建立數(shù)據(jù)庫。首先，在SPSS Variable View窗口中建立數(shù)據(jù)文件結(jié)構(gòu)，如定義變量類型、寬度、標簽等；然后在SPSS Data View窗口輸入數(shù)據(jù)，并保存為“.sav”格式的SPSS數(shù)據(jù)文件。通常情況下，調(diào)查問卷的數(shù)據(jù)文件建立與錄入都是采用第一種方法。在問卷數(shù)據(jù)錄入前，還必須對問卷選項進行編碼。2.1 問卷設計及數(shù)據(jù)編碼2.1.1 問卷一份調(diào)查問卷的結(jié)果通常表現(xiàn)為文字型和數(shù)字型兩大類，其中文字型包括二項選擇問題、多項選擇問題、排序問題、開放式問題、連線問題等調(diào)查結(jié)果，而數(shù)字型包括百分比

11、、絕對數(shù)等。對于數(shù)字型，可直接錄入數(shù)據(jù)；而文字型則需要進行事前或事后編碼，且不同類型的調(diào)查結(jié)果有不同的編碼表現(xiàn)。此外，無論是數(shù)字型還是文字型，都有可能碰到調(diào)查數(shù)據(jù)缺省或不應該有的情況。這同樣需要事先編碼。下面將以為了解大學生購書情況進行調(diào)查而獲得的一份問卷為例，介紹幾種常見問卷數(shù)據(jù)編碼。2.1.2 數(shù)據(jù)編碼1、單項選擇題的編碼由于單項選擇題的答案是唯一的，所以對各答案依次編碼為1、2、3.。如問卷中的第1題有四個答案，可依次編碼“1”代表答案“300元以下”，“2” 代表答案“300500元”，“3” 代表答案“500700元”，“4” 代表答案“700元以上”。于是，被訪問者選擇的任何答案都

12、可以用1，或2，或3，或4來表示。2、多項選擇題的編碼問卷中的第5題是多項選擇題，共有6個答案項。編碼時，可將6個答案看作6個變量，用“1”表示選擇了該項答案，用“0”表示沒有選擇該項答案。若第5題答案順序是從左到右、一行一行的排列，則012號問卷結(jié)果的編碼是“0 0 1 1 1 0”。此外，該題的第6個答案項沒有唯一的表現(xiàn)，應該視為開放性問題的編碼（詳細解釋見后面）。3、排序題的編碼對于排序題的編碼，其處理方法是：將每個序位當作一個變量，而需要排序的那些選項作為每個變量的取值。如問卷中第3題有六個選項要排序，將“購書時考慮的第一因素”作為第一個變量，記為“Q301”；其取值可為“內(nèi)容”、“價

13、格”、“包裝”“實用性”、“知名作家的作品”、“熱門暢銷書”中的任何一個，可分別編碼為“1”、“2”、“3”、“4”、“5”、“6”。同理，可將“購書時考慮的第二因素”、“購書時考慮的第三因素”等依次作為第二、第三變量等，記為“Q302”、“Q303”等；而每個變量的取值都與Q301相同，同樣也編碼為1、2、3、4、5、6。于是，012問卷第3題排序結(jié)果可轉(zhuǎn)化為6個變量的取值依次為：2，4，1，5，6，3。4、開放式問題的編碼對于開放式問題，如第5題的“其他”選項，第7、8、9題，有的答案是數(shù)字型，可直接錄入，但有的答案則需要歸類編碼。其中第5題的“其他”選項和第7題的第一個空，由于事先不知道

14、有多少類答案，需事后抽查部分調(diào)查問卷結(jié)果統(tǒng)計后才能初步確定與編碼。這就是“事后編碼”，它類似于二項選擇問題的編碼。至于第9題的“性別”、“專業(yè)”、“年級”等問題的所有可能答案，在事先都容易確定，可以直接編碼錄入數(shù)據(jù)。這就是“事前編碼”，如“性別”有兩個選項男或女，可用“1”表示“男”，“0”表示“女”，也類似于二項選擇問題的編碼。問卷編號：0121.您的月收入大概有多少？ 300元以下 300500元 500700元 700元以上2.您購書的主要目的是：學習、考試需要了解時尚、熱點休閑娛樂個人愛好及收藏 3.您購書時主要考慮的因素依次是: （請在選項前橫線上標出序號） 3 內(nèi) 容 1

15、價格 6 包裝 2 實用性 4 知名作家的作品 5 熱門暢銷書4.您較能接受的書的價格為： 20元以下 2050元 50元以上需要，則無所謂5.您購書的地點一般是：(可多選) 新華書店校內(nèi)書店學校附近書攤菜園壩書刊市場商家在校園內(nèi)的圖書展銷其他跳蚤市場 6.您對商家來校園內(nèi)進行圖書展銷的看法是：既方便又實惠，很好無所謂，視其內(nèi)容、價格而定沒興趣，寧愿到正規(guī)書店購買7.您最近一次購書的時間是兩個月前；花費為 5.60 元； 8.您平均每個月的購書支出占月收入的比例為 2% ；9.您的性別女，專業(yè) 經(jīng)濟學，年級大二，電話 62650029 。5、缺失值的編碼問

16、卷中，若遇到被調(diào)查者不回答的一些選項，則應該當作缺失值。缺失值又稱為用戶缺失值(User Missing Value)。如第8題“您平均每個月的購書支出占月收入的比例”有缺失值，可編碼為99%。又如，第7題“花費”有缺失值，可編碼為9999.99。如果可以選擇的項目有9項，但被調(diào)查者正好選擇了第9個選項，則以“0”表示缺失值。當然，缺失值也可用研究者自己能夠識別的其他數(shù)字來表示，如“0”或“9”為用戶缺失值。用戶缺失值與系統(tǒng)缺失值(System Missing)的含義不同。系統(tǒng)缺失值主要是指計算機默認的缺失方式，如果在輸入數(shù)據(jù)時空缺了某些數(shù)據(jù)或輸入了非法的字符，計算機就把其界定為缺失值，這時的

17、數(shù)據(jù)標記為“·”，而用戶界定的缺失值則不會在數(shù)據(jù)顯示時出現(xiàn)“·”。6、“不適用情況”的編碼當碰到被調(diào)查者不適用的選項時，被調(diào)查者不需要對這些題進行回答，這種情況下，研究者可以用“8”、“98” 等值來賦值表示“不適用”。若答案正好是8，可以以0替補。2.2 在SPSS數(shù)據(jù)窗口直接輸入數(shù)據(jù)進入SPSS系統(tǒng)時，系統(tǒng)就已經(jīng)生成了一個空數(shù)據(jù)文件，即空白的數(shù)據(jù)管理界面（見圖1.2）。在輸入數(shù)據(jù)之前，必須先在Variable View窗口下定義變量。通常的做法是：把問卷中的問題定義成變量，把答案項編碼定義成取值，并定義變量的類型、數(shù)據(jù)項寬度、標簽、缺失值（或叫缺省值）等。然后，在Dat

18、a View窗口下輸入數(shù)據(jù)，并存盤為“*.sav”文件就行了。2.2.1 定義變量在Variable View窗口下，從列頂端可看到1 0 種功能選項，分別是：Name，Type，Width，Decimals，Label，Values，Missing，Columns，Align和Measure等變量屬性。見圖2.1。Name，即變量名。SPSS變量命名原則如下： 1) SPSS變量的變量名由不多于8個字符組成；2) 首字符是字母，其后可為字母或數(shù)字，或除“？”，“！”和“*”以外的字符。但應該注意不能以下劃線“”和圓點“·”作為變量名的最后一個字符；3) 變量名不能與SPSS保留字相

19、同。SPSS的保留字有all，and，by，eq，ge，gt，le，lt，ne，not，or，to，with，crosstabls，thru等。4）SPSS中雖不區(qū)別大小寫字符，但程序中的命令和關(guān)鍵詞要用大寫字母，表示系統(tǒng)內(nèi)定；變量名等宜用小寫字母，表示可人為指定。5）可以用中文做變量名，但最好不用，因為涉及一個兼容性問題。圖2.1 定義變量Type：變量類型。有8種變量類型可供選擇，包括Numeric（數(shù)值型變量），Comma（帶逗號的數(shù)值型變量），Dot（帶圓點的數(shù)值型變量），Scientific notation（科學計數(shù)法），Date（日期型變量），Dollar（貨幣型變量），Cust

20、om currency（自定義型變量），String（字符型變量）等。其中，常用的有三種Numeric，String和Date；系統(tǒng)默認的變量類型為標準數(shù)值型變量（Numeric）。實踐中，應盡量采用數(shù)值型變量，以方便以后的統(tǒng)計分析。Width：變量的長度。系統(tǒng)默認長度為8。Decimals：小數(shù)位數(shù)。若為數(shù)值型變量，必須指定小數(shù)位數(shù)。系統(tǒng)默認小數(shù)位數(shù)為2。Label：變量標簽，是對變量的進一步說明。變量較多時，需采用變量標簽對變量的含義加以解釋，以免混淆。在數(shù)據(jù)統(tǒng)計分析過程中，會在變量名相對應的位置上顯示該變量的標簽，有利于分析結(jié)果得出結(jié)論。Values：標簽變量值。標簽是對變量的可能的取值

21、所附加的進一步說明。無論是問卷結(jié)果顯示是數(shù)字型還是文字型，只要答案是分類的（也稱分類變量），如問卷中第9題“性別”，編碼后都要定義其取值的標簽。具體操作：單擊行中Values格，再單擊格中的按鈕，即可定義值標簽，如圖2.2。圖2.2 值標簽的定義Missing：缺失值的定義?？芍付ㄈ笔е?。Columns：列寬度。Align：對齊方式，分為左對齊、右對齊、中間對齊。Measure：變量的度量類型。Scale為定量變量，Ordinal為等級變量，Nominal為定性變量。以問卷中第1題為例，可定義變量名稱Name為“Q1”，數(shù)值型變量Numeric，寬度Width默認為8，小數(shù)位數(shù)Decimals

22、為0，變量標簽Label為“被調(diào)查者的月收入”，標簽值Values為“1=300元以下”，“2=300500元”，“3=500700元”，“4=700元以上”，其他則均選擇系統(tǒng)默認。此外，定義問卷中的變量時，必須定義問卷編號變量，便于差錯和統(tǒng)計分析。也就是，錄入問卷調(diào)查結(jié)果之前，應先錄入問卷編號，如上節(jié)問卷編號為“12”。如果有許多個變量的類型相同，可以先定義一個變量，然后把該變量的定義信息復制給新變量。具體操作為：先定義一個變量，在該變量的行號上單擊右鈕，彈出如圖2.3（A）所示的快捷菜單，選擇Copy；然后用鼠標右鈕選擇多行，彈出如圖2.3（B）所示的快捷菜單，選擇Paste；再把自動產(chǎn)生

23、的新變量名稱（如Var0001、Var0002、Var0003、）改為所要的變量名稱。2.2.2 數(shù)據(jù)的直接輸入定義好了變量就可以開始輸入數(shù)據(jù)。如果樣本不大，變量不多，可以直接在SPSS中Data View窗口輸入數(shù)據(jù)。輸入方法就如同在Excel中輸入一樣，每一個變量占一列，每一行代表一個被觀測個體的記錄或一份問卷（Case），數(shù)據(jù)就錄在行列交叉處。和其他常用統(tǒng)計軟件相比，SPSS數(shù)據(jù)界面最大的優(yōu)勢就是支持鼠標的拖放操作，以及拷貝粘貼等命令，下面的數(shù)據(jù)輸入技巧就是對這些功能的利用。1、連續(xù)多個相同值的輸入如前面group變量有連續(xù)多個1，如果直接輸入，可以在第一格內(nèi)輸入1并回車，然后回到剛才的

24、單元格并單擊右鍵，選擇copy，最后用拖放方式選中所有應輸入1的單元格，單擊右鍵并選擇paste，所有選中的單元格就會都被剛才拷貝的1填充。圖2.3 復制變量定義信息2、將EXCEL數(shù)據(jù)直接引入SPSS若已有Excel數(shù)據(jù)文件，而且數(shù)據(jù)量較少，可直接打開原數(shù)據(jù)，用拷貝粘貼的方法將數(shù)據(jù)引入SPSS：先在EXCEL中選中所有的數(shù)據(jù)（不包括變量名），然后選擇拷貝命令；然后切換到SPSS，最好使行1列1單元格成為當前單元格，然后執(zhí)行粘貼命令，數(shù)據(jù)就會全部轉(zhuǎn)入SPSS，再修改相應的變量類型、寬度、小數(shù)位數(shù)等即可。輸入完畢，從File菜單上選取Save As命令將其保存。SPSS數(shù)據(jù)文件擴展名為.SAV。

25、單擊保存類型下拉菜單，可選擇保存為其他格式的數(shù)據(jù)文件，如Excel文件、dBase文件等。如圖2.4所示。圖2.4 Save As 對話框2.3從其他文件轉(zhuǎn)換成SPSS數(shù)據(jù)文件數(shù)據(jù)讀入方法若數(shù)據(jù)文件已以其他格式存在，如EXCEL格式、LOTUS格式、dBase格式、TEXT格式等，可以在SPSS Data Editor窗口直接讀入。選擇菜單FileOpenData或直接單擊快捷工具欄上的“”按鈕，系統(tǒng)就會彈出Open File對話框，單擊“文件類型”列表框，在里面能看到直接打開的數(shù)據(jù)文件格式，見表2.2。選擇所需的文件類型，然后選中需要打開的文件，SPSS就會按你的要求打開你要使用的數(shù)據(jù)文件，

26、并自動轉(zhuǎn)換為數(shù)據(jù)SPSS格式。表2.2 SPSS可讀入的數(shù)據(jù)文件列表SPSS(*.sav)SPSS數(shù)據(jù)文件（6.010.0版）SPSS/PC+(*.sys)SPSS 4.0版數(shù)據(jù)文件Systat(*.syd)*.syd格式的Systat數(shù)據(jù)文件Systat(*.sys)*.sys格式的Systat數(shù)據(jù)文件SPSS portable(*.por)SPSS便攜格式的數(shù)據(jù)文件EXCEL(*.xls)EXCEL數(shù)據(jù)文件（從5.0版2000版）Lotus(*.w*)Lotus數(shù)據(jù)文件SYLK(*.slk)SYLK數(shù)據(jù)文件dBase(*.dbf)dBase系列數(shù)據(jù)文件，（從dBase IIIV）Text(

27、*.txt)純文本格式的數(shù)據(jù)文件data(*.dat)純文本格式的數(shù)據(jù)文件讀入EXCEL數(shù)據(jù)文件的步驟首先，選取FileOpenData，打開已保存的SPSS數(shù)據(jù)文件或其他類型的數(shù)據(jù)文件；然后單擊文件類型，下拉菜單選擇Excel（*.xls），如圖2.6。如Excel文件第一行為變量名，則選中Read Variable Names from the first row of Data選項，如圖2.7；并表名，如sheet2 A1：D5。圖2.6 open file對話框圖2.7 讀入EXCEL變量名選項圖2.8 讀入EXCEL數(shù)據(jù)表名的選擇SPSS數(shù)據(jù)整理與轉(zhuǎn)換輸入數(shù)據(jù)以后，需要先對數(shù)據(jù)進行一

28、些整理，如根據(jù)數(shù)據(jù)分析目的，按變量分組、合并、加權(quán)、重新定義或計算新變量等，以為最終的統(tǒng)計分析做準備。這些功能集中在Data和Transform菜單項中，下面將以一個案例來介紹一些常用的功能。3.1一個案例有研究者為了解重慶市南坪地區(qū)促銷方式特征，進行一次 “南坪商圈促銷方式及效果調(diào)研”活動，所設計的調(diào)查問卷如表3.1，收集了312份有效問卷，并建立了SPSS數(shù)據(jù)文件111.sav。打開該數(shù)據(jù)文件后，圖3.1a顯示的是該文件的Data View窗口，而b圖是Variable View窗口。表3.1南坪商圈促銷方式與效果調(diào)研調(diào)查問卷1.你從事的職業(yè)是銷售類 (停止調(diào)查) 非銷售類 2. 你最近

29、一個月內(nèi)是否接受過類似調(diào)查: 是(停止調(diào)查) 否3. 你的性別: 男女4. 你所屬的年齡階段是: 25歲以下 2535歲 3545歲 45歲以上5. 你的月收入屬于下列哪個階段：1000元以下 10001500元 15002000元 2000元以上6.你見過哪些促銷方式:(多選)特價銷售免費品嘗買商品贈禮品買滿一定金額返代金券換購廣告促銷其他_7.請將第5題的促銷方式的代號進行排序:(按喜歡程度由強到弱) _8. 你最近一次參加的促銷活動的促銷方式是什么? 特價銷售免費品嘗買商品贈禮品買滿一定金額返代金券換購廣告促銷其他_9. 你最近一次參加促銷活動的消費是元？10.

30、你對商場的促銷活動的態(tài)度:反感不感興趣喜歡11. 遇到促銷活動，你會: 一次買很多不理睬有需要就買認為物美價廉就買圖3.1a 111.sav的Data View窗口圖3.1b 111.sav的Variable View窗口3.2數(shù)據(jù)整理排序Sort Cases 選擇菜單DataSort Cases，系統(tǒng)彈出Sort Cases對話框。該對話框并不復雜，左方是可用于排序的變量，中間是一個箭頭符號，右邊上面是已確定的排序變量（在Sort by下的框里），右邊下方則是Sort Order單選鈕，有升序和降序兩種選擇。具體方法是：先可選擇某一變量（如圖3.2a中的分組變量income），點

31、擊中間的箭頭使選中變量到Sort by框里，然后選擇升序（Ascending）或降序（Descending）單選鈕。若還要按其他變量排序，可繼續(xù)上面的做法，只是排在前面的變量有排序優(yōu)先權(quán)。如圖3.2a中的可排序變量income和age，若Sort by框中income在age的前面（見圖3.2b），排序時就會先滿足income的排序要求，再滿足age的排序要求。a 選擇income按升序排b 再選擇age排序圖3.2 Sort Cases對話框合并數(shù)據(jù)文件Merge Files 若案例中收集到的有效問卷超過1000份，研究者就必須建立至少兩個同變量結(jié)構(gòu)的SPSS數(shù)據(jù)文件，假定除了111.sav

32、以外，還有222.sav；或者，因為變量個數(shù)太多，研究者建立了兩個各含半數(shù)變量的SPSS數(shù)據(jù)文件111.sav和333.sav?，F(xiàn)要把上述兩種情況下的兩個數(shù)據(jù)文件分別合并起來，就需分別采用Merge Files中的Add Cases和Add Variable，見圖3.3a。1. 從外部數(shù)據(jù)文件中增加記錄到當前數(shù)據(jù)文件中，稱為縱向合并，用Add Cases對話框完成，相互合并的數(shù)據(jù)文件中應該有相同的變量。選擇菜單DataMerge FilesAdd Cases，系統(tǒng)首先彈出打開數(shù)據(jù)文件對話框。選中需要添加的數(shù)據(jù)文件并按OK，系統(tǒng)才彈出Add Cases對話框（見圖3.3b），左側(cè)顯示的是新、老數(shù)

33、據(jù)文件中不匹配的變量名（圖3.3b中顯示沒有不匹配的變量名），右側(cè)顯示的是已經(jīng)匹配的變量名?？梢杂肦ename按鈕對不匹配變量改名（先選中）或用鼠標強行匹配（即先按Ctrl鍵選中匹配的兩個變量再單擊Pair鈕）。右下方的Indicate case source as variable復選框用于定義一個新變量以區(qū)分哪些記錄是后來添加的。選擇停當后單擊OK，該操作就完成了。圖3.3a Merge Files的兩種方式圖3.3b Add Cases的對話框2. 從外部數(shù)據(jù)文件增加變量到當前數(shù)據(jù)文件，稱為橫向合并，用Add Variable對話框完成，相互合并的數(shù)據(jù)文件中應包含同樣的記錄。選擇菜單Da

34、taMerge FilesAdd Variable對話框，系統(tǒng)同樣先彈出打開數(shù)據(jù)文件對話框，單擊OK后彈出和前面相似的Add Variable對話框（見圖3.3c）。左側(cè)是外部數(shù)據(jù)文件中多出來的變量（圖3.3c中是333.sav多余的變量，與111.sav中的變量一致），右側(cè)是合并后新文件包含的所有變量。其他選項，可按需選擇即可。圖3.3c Add Variables的對話框數(shù)據(jù)分類匯總Aggregate 所謂分類匯總就是按指定的分類變量對觀測值進行分組，對每組記錄的各變量值求指定的描述統(tǒng)計量，結(jié)果可以存入新數(shù)據(jù)文件，也可以替換當前數(shù)據(jù)文件，見圖3.4。a 選擇Aggregate Variab

35、les的界面b 定義新匯總變量的名稱和標簽的界面c 定義匯總函數(shù)圖3.4 Aggregate Data對話框圖3.4中各個部分的含義如下：n Break Variables框：用于選擇分組變量。這里選擇了sex；n Aggregate Variables框：用于選擇被匯總的變量，可選擇q9（即被訪問者最近一次參加促銷活動的消費），如圖3.4a；n Name&Label鈕：用于定義新產(chǎn)生的匯總變量的名稱和標簽，如圖3.4b；n Function鈕：用于定義匯總函數(shù)，共有三組函數(shù)，以最常用的第一組為例，可選的函數(shù)有均值、同組的第一個觀測值、最后一個觀測值、同組記錄數(shù)、標準差、最小值、和、最

36、大值共8個，如圖3.4c；n Save Number of cases in break group as variable復選框：用于定義一個新變量以存儲同組的記錄數(shù)；n Create new data file單選鈕：定義一個新文件以存儲匯總的結(jié)果，右側(cè)的File鈕用于具體文件名的定義，默認文件名為AGGR.sav；n Replace working data file單選鈕：用匯總的結(jié)果替換原來的數(shù)據(jù)。數(shù)據(jù)文件分組Split File 若要對不同群體作同類分析，可使用Split File將數(shù)據(jù)文件分割成不同的組來進行處理。選擇DataSplit Files，出現(xiàn)Split Files對話

37、框，見圖3.5。圖中顯示，本次分析是按age（即被訪問者年齡）分組分析。圖3.5 Split File對話框圖3.5種各部分的含義如下：n Analyze all cases單選框：和下面的兩個單選框為一組，選中本框不拆分文件；n Compare groups單選框：按所選變量拆分文件，各組分析結(jié)果緊挨在一起便于相互比較；n Organize output by groups單選框：按所選變量拆分文件，各組分析結(jié)果單獨放置；n Groups based on框：用于選擇拆分數(shù)據(jù)文件的變量；n Sort the file by grouping variables單選框：將數(shù)據(jù)按所用的拆分變量排

38、序；n File is already sorted單選框：數(shù)據(jù)保持原狀，不按所用的拆分變量排序。選擇分析組Select Cases 有些時候不需要分析全部的數(shù)據(jù)，而是按某種要求分析其中的一部分。比如，案例中的研究者只想對年齡（age）在3545、月收入（income）在2000元以上的女性對促銷方式的看法與行為；或者只想對200個數(shù)據(jù)進行分析以了解大概情況，等等。這時需使用Select Cases對話框，來簡化工作。選擇DataSelect Cases，彈出對話框如圖3.6a所示。其中：n All cases單選鈕：和下面的4個單選鈕為一組，選中它則分析所有的記錄；n If conditio

39、n is satisfied單選鈕：只分析滿足條件的記錄；n If按鈕：和If單選鈕一起使用，單擊后彈出If對話框；n Random sample of cases單選鈕：從原數(shù)據(jù)中按某種條件抽樣；n Sample按鈕：和Random單選鈕一起使用，可以設定按百分比抽取記錄，或者精確設定從前若干個記錄中抽取多少個記錄；n Based on time or case range單選鈕：基于記錄序號來選擇記錄；n Range按鈕：和Based單選鈕一起使用，用于輸入記錄序號范圍；n Use filter variable單選鈕：使用篩選指示變量來選擇記錄，必需在下面選入一個篩選指示變量，該變量取值

40、為非0的記錄將被選中，進入以后的分析；n Filtered單選鈕：和下面的Deleted單選鈕為一組，表示未被選中的記錄只是被隔離，這些記錄的記錄號會被加上斜杠以示區(qū)別；n Deleted單選鈕：未被選中的記錄將被刪除，一般不要使用。所以，先前的第一種情況應選擇If Condition is Satisfied，單擊If后彈出If對話框，見圖3.6b。圖中右上方框里的“sex=0 and age=3 and income=4”就是需要滿足的條件，其中“sex=0”、“age=3”、“income=4”代表女性、年齡3545歲、月收入2000元以上；而中間的“and”表明三個條件都必須滿足，若只

41、需滿足其中任意一項都行，則用“or”連接。此外，條件表達式也可從Functions框中選擇。當填好條件表達式后，可單擊Continue回到圖3.6a，再單擊ok就完成了。而先前的第二種情況，則應該選擇Based on time or case range，并單擊Range彈出對話框，見圖3.6c。在First case框輸入1，在End case框輸入200，單擊Continue回到圖3.6a，再單擊ok就完成了。圖3.6a Select Cases對話框圖3.6b If對話框圖3.6c Range對話框當對數(shù)據(jù)集做出篩選后，所做的篩選將在以后的分析中一直有效，直到再次改變選擇條件為止。同時在

42、多數(shù)情況下，系統(tǒng)會自動產(chǎn)生一個名為filter_$的篩選指示變量，被選中的記錄該變量取值為1，反之則為0。加權(quán)分析組Weight Cases 當兩組個案(Cases)數(shù)目相差懸殊（比如男多女少）時，為了盡量反映“平等”的社會現(xiàn)象，有時需要給予適當?shù)臋?quán)重（比如對弱勢群體賦予大的權(quán)重，反之亦然），以利于統(tǒng)計分析。在默認情況下，每一行就是一條記錄，如果希望在分析過程中利用不同的變量對數(shù)據(jù)進行加權(quán)處理，就需要用到Weight Cases對話框，見圖3.7。該對話框的使用極為簡單，界面上有兩個單選鈕，分別是不權(quán)重記錄和用某變量權(quán)重記錄，如果選擇后者，則需要選中一個權(quán)重變量。圖中顯示以性別sex加權(quán)。圖3

43、.7 Weight Cases對話框Data菜單中的其余對話框n Define dates對話框：可以自動生成時間變量。 n Insert Variable命令：在當前列插入新變量。 n Insert cases命令：在當前行插入新記錄。 n Goto cases對話框：到達指定記錄號的記錄，該命令在記錄數(shù)極多時（1000條以上）非常有用。 3.3數(shù)據(jù)轉(zhuǎn)換從調(diào)查得來的原始數(shù)據(jù)是非常重要的。但是有些原始數(shù)據(jù)沒有歸類，比如案例中的消費，不象年齡、月收人等只有幾個取值，如果直接打印出頻率表，則既浪費紙張又欠直觀。為此，需要復制一份原始數(shù)據(jù)(即備份)，再對復制后的原始數(shù)據(jù)重新編碼，比如按消費段編碼成幾

44、組，然后分組比較和打印顯示。同樣，對原始數(shù)據(jù)也可以進行重新計算。例如從消費q9計算出一個新變量絕對消費差異。類似這種數(shù)據(jù)變換，可用以下4條命令。(1) COMPUTE：對原始數(shù)據(jù)進行四則運算等，進而派生出新的變量。(2) RECODE：重新編碼數(shù)據(jù)，重新安排次序。(3)COUNT：創(chuàng)建一個新變量用以計算某些變量共同發(fā)生的頻次(即計數(shù))。(4)IF：如果表達式成立，則可以有條件地創(chuàng)建一個新變量。以上4條數(shù)據(jù)變換的命令分別又有2種執(zhí)行方式：其一是直接采用命令來實現(xiàn)。其二是采用Transform過程中的對話框來實現(xiàn)。這里只介紹使用對話框?qū)崿F(xiàn)的操作。計算Compute在案例中，若研究者想分析每個被訪問

45、者最近一次參加促銷活動的消費額與經(jīng)驗平均消費額110元的絕對差異，定義變量名為absq9?？刹捎萌缦虏僮鳎狐c擊TransformCompute，進入Compute Variable對話框，如圖3.8。Target variable為新產(chǎn)生的變量，可輸入新變量名absq9。該欄下方為一按鈕Type &Label，單擊該按鈕后可選擇新變量類型和定義變量標簽。Numeric Expression為表達式，有兩種方法在該欄中寫入表達式：1）直接寫出。如對SPSS中函數(shù)比較熟悉，可在此欄中直接填入abs(q9-110)，即計算消費額q9與經(jīng)驗平均消費額110元的絕對差異，然后單擊OK就行了。圖3

46、.8 新變量的產(chǎn)生2）從對話框選取。Numeric Expression欄下方為Functions欄，該欄中列出了常用的函數(shù)，可從該欄選取所要的函數(shù)。每個函數(shù)后的括號中注明了所需變量的類型或其他特殊的變量（numexpr表示數(shù)值變量，strexpr表示字符變量）。選中后單擊Functions上方的箭頭，進入Numeric Expression欄。該欄對話框左下方列出了數(shù)據(jù)庫中的變量，選中所要的變量，單擊其右上方的箭頭將其選入框內(nèi)，或進入函數(shù)后的括號內(nèi)。如上例，首先從Functions欄選中ABS(numexpr)，單擊上方箭頭進入Numeric Expression，此時ABS后的括號內(nèi)為一問

47、號。從左下方欄中選中變量q9，單擊右上方箭頭進入ABS后的括號內(nèi)，并減去110。此時Numeric Expression內(nèi)表達式為abs(q9-110)，如圖3.8，再單擊OK，即產(chǎn)生新變量absq9。如不明白函數(shù)意義，可在該函數(shù)名稱處單擊右鍵即彈出該函數(shù)的解釋。此外，可以單擊If按鈕，設定計算新變量的Cases范圍。比如說，只對女性計算absq9；或者只對消費q9大于50的Cases計算absq9；等等。計數(shù)Count計數(shù)Count是計算變量值中含有相同范圍值的次數(shù)。如案例中，研究者要計算第一喜歡“特價銷售”或“購商品贈禮品”促銷方式的消費者人數(shù)，諸如此類，就要采用Count。其具體操作步驟

48、如下：1、選擇TransformCount，彈出Count對話框，如圖3.9a；2、在Target Variable框中輸入新變量名no1q7，在Target Label框中輸入新變量的標簽；3、從左側(cè)的變量列表中選擇q7.1（即排第一位的促銷方式）到Numeric Variables框內(nèi)；4、單擊Define Values定義q7.1的取值為1或3，見圖3.9b。分別在左側(cè)的Value框中輸入1、3，并依次Add（添加）到Values to Count框中；5、單擊Continue回到圖3.9a，再單擊ok即可。圖3.9a Count對話框圖3.9b Define Values對話框重新賦值Recode若研究者需要按消費q9分組分析，可采用Recode對q9重新賦值。Recode對話框用于從原變量值按照某種一一對應的關(guān)系生成新變量值，可以

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

SPSS數(shù)據(jù)預處理操作

文檔簡介

溫馨提示

最新文檔

評論

SPSS數(shù)據(jù)預處理操作

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔