spss學(xué)習(xí)筆記_第1頁
spss學(xué)習(xí)筆記_第2頁
spss學(xué)習(xí)筆記_第3頁
spss學(xué)習(xí)筆記_第4頁
spss學(xué)習(xí)筆記_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、Spss學(xué)習(xí) 祁秋艷Spss統(tǒng)計(jì)分析方法及應(yīng)用Spss學(xué)習(xí)筆記Chapter1 統(tǒng)計(jì)學(xué)基礎(chǔ)知識方差(Variance):在概率論和數(shù)理統(tǒng)計(jì)中,方差(英文Variance)用來度量隨機(jī)變量和其數(shù)學(xué)期望(即均值)之間的偏離程度。設(shè)X是一個(gè)隨機(jī)變量,若EX-E(X)2存在,則稱EX-E(X)2為X的方差,記為D(X)或DX。協(xié)方差(covariance):兩個(gè)不同參數(shù)之間的方差就是協(xié)方差。E(X-E(X)(Y-E(Y)稱為隨機(jī)變量X和Y的協(xié)方差,記作COV(X,Y),即COV(X,Y)=E(X-E(X)(Y-E(Y)。(1)COV(X,Y)=COV(Y,X);(2)COV(aX,bY)=abCOV(

2、X,Y),(a,b是常數(shù));(3)COV(X1+X2,Y)=COV(X1,Y)+COV(X2,Y)。由協(xié)方差定義,可以看出COV(X,X)=D(X),COV(Y,Y)=D(Y)。標(biāo)準(zhǔn)差( Standard deviation,;SD;std):是各數(shù)據(jù)偏離平均數(shù)的距離的平均數(shù),它是離均差平方和平均后的方根,用表示。標(biāo)準(zhǔn)差是方差的算術(shù)平方根。標(biāo)準(zhǔn)差能反映一個(gè)數(shù)據(jù)集的離散程度。平均數(shù)相同的,標(biāo)準(zhǔn)差未必相同。r: 相關(guān)系數(shù)是變量之間相關(guān)程度的指標(biāo)。樣本相關(guān)系數(shù)用r表示,總體相關(guān)系數(shù)用表示,相關(guān)系數(shù)的取值范圍為-1,1。|r|值越大,誤差Q越小,變量之間的線性相關(guān)程度越高;|r|值越接近0,Q越大,變

3、量之間的線性相關(guān)程度越低。如兩者呈正相關(guān),r呈正值,r=1時(shí)為完全正相關(guān);如兩者呈負(fù)相關(guān)則r呈負(fù)值,而r=-1時(shí)為完全負(fù)相關(guān)。完全正相關(guān)或負(fù)相關(guān)時(shí),所有圖點(diǎn)都在直線回歸線上;點(diǎn)子的分布在直線回歸線上下越離散,r的絕對值越小。當(dāng)例數(shù)相等時(shí),相關(guān)系數(shù)的絕對值越接近1,相關(guān)越密切;越接近于0,相關(guān)越不密切。當(dāng)r=0時(shí),說明X和Y兩個(gè)變量之間無直線關(guān)系。通常|r|大于0.8時(shí),認(rèn)為兩個(gè)變量有很強(qiáng)的線性相關(guān)性。研究兩個(gè)變量間線性關(guān)系的程度。用相關(guān)系數(shù)r來描述。r的計(jì)算有三種:·Pearson相關(guān)系數(shù):對定距連續(xù)變量的數(shù)據(jù)進(jìn)行計(jì)算。·Spearman和Kendall相關(guān)系數(shù):對分類變量

4、的數(shù)據(jù)或變量值的分布明顯非正態(tài)或分布不明時(shí),計(jì)算時(shí)先對離散數(shù)據(jù)進(jìn)行排序或?qū)Χň嘧兞恐蹬牛ㄇ螅┲?。R2:方程的確定性系數(shù)(coefficient of determination),表示方程中變量X對Y的解釋程度。R2取值在0到1之間,越接近1,表明方程中X對Y的解釋能力越強(qiáng)。通常將R2乘以100來表示回歸方程解釋Y變化的百分比。P:顯著性自變量因變量:T檢驗(yàn)值F檢驗(yàn)值正態(tài)分布:正態(tài)分布(normal distribution)又名高斯分布(Gaussian distribution),是一個(gè)在數(shù)學(xué)、物理及工程等領(lǐng)域都非常重要的概率分布,在統(tǒng)計(jì)學(xué)的許多方面有著重大的影響力。若隨機(jī)變量X服從一個(gè)數(shù)

5、學(xué)期望為、標(biāo)準(zhǔn)方差為2的高斯分布,記為:則其概率密度函數(shù)為正態(tài)分布的期望值決定了其位置,其標(biāo)準(zhǔn)差決定了分布的幅度。因其曲線呈鐘形,因此人們又經(jīng)常稱之為鐘形曲線。我們通常所說的標(biāo)準(zhǔn)正態(tài)分布是 = 0, = 1的正態(tài)分布。一般來說,如果一個(gè)量是由許多微小的獨(dú)立隨機(jī)因素影響的結(jié)果,那么就可以認(rèn)為這個(gè)量具有正態(tài)分布(見中心極限定理)。從理論上看,正態(tài)分布具有很多良好的性質(zhì) ,許多概率分布可以用它來近似;還有一些常用的概率分布是由它直接導(dǎo)出的,例如對數(shù)正態(tài)分布、t分布、F分布等。正態(tài)曲線呈鐘型,兩頭低,中間高,左右對稱,曲線與橫軸間的面積總等于1。有些指標(biāo)(變量)雖服從偏態(tài)分布,但經(jīng)數(shù)據(jù)轉(zhuǎn)換后的新變量可

6、服從正態(tài)或近似正態(tài)分布,可按正態(tài)分布規(guī)律處理。其中經(jīng)對數(shù)轉(zhuǎn)換后服從正態(tài)分布的指標(biāo),被稱為服從對數(shù)正態(tài)分布?;貧w分析的步驟:1根據(jù)預(yù)測目標(biāo),確定自變量和因變量 明確預(yù)測的具體目標(biāo),也就確定了因變量。如預(yù)測具體目標(biāo)是下一年度的銷售量,那么銷售量Y就是因變量。通過市場調(diào)查和查閱資料,尋找與預(yù)測目標(biāo)的相關(guān)影響因素,即自變量,并從中選出主要的影響因素。 2建立回歸預(yù)測模型 依據(jù)自變量和因變量的歷史統(tǒng)計(jì)資料進(jìn)行計(jì)算,在此基礎(chǔ)上建立回歸分析方程,即回歸分析預(yù)測模型。 3進(jìn)行相關(guān)分析 回歸分析是對具有因果關(guān)系的影響因素(自變量)和預(yù)測對象(因變量)所進(jìn)行的數(shù)理統(tǒng)計(jì)分析處理。只有當(dāng)變量與因變量確實(shí)存在某種關(guān)系時(shí)

7、,建立的回歸方程才有意義。因此,作為自變量的因素與作為因變量的預(yù)測對象是否有關(guān),相關(guān)程度如何,以及判斷這種相關(guān)程度的把握性多大,就成為進(jìn)行回歸分析必須要解決的問題。進(jìn)行相關(guān)分析,一般要求出相關(guān)關(guān)系,以相關(guān)系數(shù)的大小來判斷自變量和因變量的相關(guān)的程度。 4檢驗(yàn)回歸預(yù)測模型,計(jì)算預(yù)測誤差 回歸預(yù)測模型是否可用于實(shí)際預(yù)測,取決于對回歸預(yù)測模型的檢驗(yàn)和對預(yù)測誤差的計(jì)算?;貧w方程只有通過各種檢驗(yàn),且預(yù)測誤差較小,才能將回歸方程作為預(yù)測模型進(jìn)行預(yù)測。 5計(jì)算并確定預(yù)測值 利用回歸預(yù)測模型計(jì)算預(yù)測值,并對預(yù)測值進(jìn)行綜合分析,確定最后的預(yù)測值。Chapter2 spss基礎(chǔ)知識一Data editor數(shù)據(jù)編輯窗

8、口1.菜單File :文件操作(基本操作,例如新建、打開、保存、打印等)Edit:數(shù)據(jù)編輯(對數(shù)據(jù)進(jìn)行基本的編輯,如復(fù)制粘貼撤銷恢復(fù)等),數(shù)據(jù)查找,軟件參數(shù)設(shè)置等。View:窗口外觀狀態(tài)管理(比如字體設(shè)置-font,表格線-grid lines,變量值是否顯示等)Data:數(shù)據(jù)的操作與管理(對數(shù)據(jù)編輯窗口中的數(shù)據(jù)進(jìn)行加工處理:排序、轉(zhuǎn)置、抽樣選取、分類匯總aggregate、加權(quán)等,data properties數(shù)據(jù)屬性)下圖為data下拉菜單中個(gè)選項(xiàng)按鈕的功能:Transform:對數(shù)據(jù)編輯窗口中的數(shù)據(jù)進(jìn)行基本的處理(別如說生成新變量,計(jì)數(shù),分組等)下圖為transform下拉菜單中個(gè)選項(xiàng)按

9、鈕的功能:Analyze:統(tǒng)計(jì)分析(對數(shù)據(jù)編輯窗口中的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析和建模:基本統(tǒng)計(jì)分析、均值比較compare means、相關(guān)分析相關(guān)分析(correlation analysis),相關(guān)分析是研究現(xiàn)象之間是否存在某種依存關(guān)系,并對具體有依存關(guān)系的現(xiàn)象探討其相關(guān)方向以及相關(guān)程度,是研究隨機(jī)變量之間的相關(guān)關(guān)系的一種統(tǒng)計(jì)方法。相關(guān)關(guān)系是一種非確定性的關(guān)系,例如,以X和Y分別記一個(gè)人的身高和體重,或分別記每公頃施肥量與每公頃小麥產(chǎn)量,則X與Y顯然有關(guān)系,而又沒有確切到可由其中的一個(gè)去精確地決定另一個(gè)的程度,這就是相關(guān)關(guān)系。correlate、回歸分析回歸分析(regression analys

10、is)是確定兩種或兩種以上變數(shù)間相互依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法。運(yùn)用十分廣泛,回歸分析按照涉及的自變量的多少,可分為一元回歸分析和多元回歸分析;按照自變量和因變量之間的關(guān)系類型,可分為線性回歸分析和非線性回歸分析。如果在回歸分析中,只包括一個(gè)自變量和一個(gè)因變量,且二者的關(guān)系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個(gè)或兩個(gè)以上的自變量,且因變量和自變量之間是線性關(guān)系,則稱為多元線性回歸分析一般來說,回歸分析是通過規(guī)定因變量和自變量來確定變量之間的因果關(guān)系,建立回歸模型,并根據(jù)實(shí)測數(shù)據(jù)來求解模型的各個(gè)參數(shù),然后評價(jià)回歸模型是否能夠很好的擬合實(shí)測數(shù)據(jù);如果能

11、夠很好的擬合,則可以根據(jù)自變量作進(jìn)一步預(yù)測。regression、非參數(shù)檢驗(yàn)檢驗(yàn)假設(shè)或估計(jì)參數(shù)的統(tǒng)計(jì)過程,其中不需要關(guān)于總體分布的性質(zhì)或形狀的假設(shè);也稱作無分布檢驗(yàn)。在總體方差未知或知道甚少的情況下,利用樣本數(shù)據(jù)對總體分布形態(tài)等進(jìn)行推斷的方法。nonparametric test ,Missing value Analysis缺失值分析等)Graphs:制作統(tǒng)計(jì)圖形(條形圖、直方圖、餅圖、散點(diǎn)圖) Utilities:實(shí)用程序(其它輔助管理。如顯示變量信息、定義變量、菜單編輯器等)Windows:窗口管理(如最小化等)2.工具欄 變量 插入變量 加權(quán)個(gè)案 標(biāo)簽控件打開 保存 打印 undo撤銷

12、 進(jìn)入個(gè)案 插入個(gè)案 分離文件 選擇個(gè)案3數(shù)據(jù)編輯區(qū)點(diǎn)擊view下的grid lines后:數(shù)據(jù)編號:4系統(tǒng)狀態(tài)顯示區(qū)用來顯示系統(tǒng)的當(dāng)前運(yùn)行狀態(tài)點(diǎn)擊view下的status bar后二結(jié)果輸出窗口及圖像的編輯Analyze數(shù)據(jù)后,出現(xiàn)結(jié)果輸出窗口1 圖像工具欄Chapter3 利用spss進(jìn)行數(shù)據(jù)分析的基本步驟一數(shù)據(jù)分析的一般步驟1明確數(shù)據(jù)分析的目標(biāo)2正確收集數(shù)據(jù)3數(shù)據(jù)的加工處理4明確統(tǒng)計(jì)方法的含義和適用范圍二Spss數(shù)據(jù)文件1.Spss數(shù)據(jù)文件包括文件內(nèi)容和數(shù)據(jù)結(jié)構(gòu)每一行稱為一個(gè)個(gè)案(case)每一列稱為變量(var)2.spss數(shù)據(jù)結(jié)構(gòu)1)變量名: 要求:字符數(shù)不多于八個(gè)、首字符以英文字母

13、開頭、不區(qū)分大小寫2)數(shù)據(jù)結(jié)構(gòu)的設(shè)置點(diǎn)擊可進(jìn)行一系列數(shù)據(jù)結(jié)構(gòu)參數(shù)的設(shè)置詳解:變量名 數(shù)據(jù)類型 寬度 小數(shù) 變量名標(biāo)簽 變量值標(biāo)簽 缺失數(shù)據(jù) 計(jì)量尺度 數(shù)值型 對變量名做 對變量取值含義 定距型數(shù)據(jù)通常指身高體重等連續(xù)性數(shù)據(jù)。scale 字符型 出進(jìn)一步的 的解釋說明信息 定序型數(shù)據(jù)具有內(nèi)在固有大小或高低順序,如教授,副教授,講師等。ordinal日期型 解釋,<120字符 定類型數(shù)據(jù)沒有內(nèi)在的固有大小或高低順序,如男、女。nominal缺失數(shù)據(jù)離散缺失值,可以輸入99999999三Spss數(shù)據(jù)的錄入與編輯1Spss數(shù)據(jù)結(jié)構(gòu)設(shè)置好以后,就可以進(jìn)行數(shù)據(jù)的錄入了。2注意點(diǎn):ü 數(shù)據(jù)錄

14、入可以逐行進(jìn)行,即錄完一個(gè)數(shù)據(jù)后按Tab鍵,于是,當(dāng)前單元的右臨單元便自動(dòng)成為當(dāng)前單元;數(shù)據(jù)錄入也可以逐列進(jìn)行,即錄完一個(gè)數(shù)據(jù)之后按Enter鍵,于是當(dāng)前單元的下一個(gè)單元便成為了當(dāng)前單元。ü 錄入帶有變量值標(biāo)簽的數(shù)據(jù)時(shí),可以通過下拉按鈕完成。但在此之前應(yīng)先打開變量值標(biāo)簽的顯示開關(guān),選擇的菜單是:View Value Labels 。如下:ü3.數(shù)據(jù)的定位數(shù)據(jù)定位的目的是將當(dāng)前數(shù)據(jù)單元定位到某個(gè)特定的單元中。共有兩種: 人工定位:人工瀏覽數(shù)據(jù),確定當(dāng)前的數(shù)據(jù)單元。(按page up page down 翻頁) 按個(gè)案:data-go to case自動(dòng)定位: 按變量值:edi

15、t-find 4.插入和刪除個(gè)案、變量 將當(dāng)前數(shù)據(jù)單元確定在一個(gè)個(gè)案/變量上選擇Data-insert case/insert variable 刪除:在欲刪除的個(gè)案/變量號碼上單擊鼠標(biāo)左鍵單擊鼠標(biāo)右鍵,選中cut5 數(shù)據(jù)的移動(dòng)、復(fù)制和刪除選中 copy paste6 spss支持的數(shù)據(jù)格式Spss數(shù)據(jù)格式:.savExcel數(shù)據(jù)格式:.xlsDbf格式文件:.dbf文本格式:.dat1)打開file read text data,出現(xiàn):2)單擊進(jìn)入下列窗口。觀察該窗口回答下列兩個(gè)問題:a) 數(shù)據(jù)項(xiàng)間是如何分割;b) 數(shù)據(jù)文件的第一行上是否有變量名。然后再單擊3)回答三個(gè)問題:a) 數(shù)據(jù)()部

16、分從文本文件的第幾行開始導(dǎo)入,如果文本文件的第一行是變量名,則這里應(yīng)該填上2;b) 個(gè)案數(shù)據(jù)在文本文件中式如何安排的,是一行一條個(gè)案,還是一行多條個(gè)案,一般選擇第一種;c) 將文本文件中的數(shù)據(jù)全部導(dǎo)入還是部分導(dǎo)入。4)指定文件中的數(shù)據(jù)項(xiàng)之間的分隔符號。5)對隨后出現(xiàn)的兩個(gè)問題,一般情況下可以不回答。7Spss數(shù)據(jù)文件合并1) 在數(shù)據(jù)量較少時(shí),一般情況下可以按照上述方法將數(shù)據(jù)錄入,但是當(dāng)數(shù)據(jù)量較為龐大時(shí),經(jīng)常會把一份大的數(shù)據(jù)分成幾個(gè)部分,由幾個(gè)工作人員分別錄入,以期加快數(shù)據(jù)錄入速度,節(jié)省時(shí)間。2) 縱向合并:首尾對接(依據(jù)變量名)方式 橫向合并: 縱向合并的步驟:a) 在數(shù)據(jù)編輯窗口中打開一個(gè)需

17、要合并的spss數(shù)據(jù)文件b) 選擇菜單data merge file add case,出現(xiàn)如下的窗口:c) 中顯示的是兩個(gè)文件中相同的變量名, spss默認(rèn)它們有相同的含義。如果不接受這種默認(rèn),可單擊將它們剔除到中。d) 如果希望合并后的數(shù)據(jù)文件中看出哪些個(gè)案來自合并前的哪個(gè)spss數(shù)據(jù)文件,那么可以選indicate case source as variable。0表示個(gè)案來自第一份數(shù)據(jù)文件,1表示來自第二份。橫向合并:a) 兩個(gè)數(shù)據(jù)文件必須至少有一個(gè)變量名是相同的,該變量是兩個(gè)數(shù)據(jù)文件橫向拼接的依據(jù),成為關(guān)鍵變量。b) 兩個(gè)數(shù)據(jù)文件必須事先按關(guān)鍵變量進(jìn)行排序。c) 不同數(shù)據(jù)文件中數(shù)據(jù)含

18、義不同的數(shù)據(jù)項(xiàng),變量名不應(yīng)相同。步驟:a) 在數(shù)據(jù)編輯窗口中打開一個(gè)需要合并的數(shù)據(jù)文件b) 選擇菜單data merge file add variable注:表示該變量是數(shù)據(jù)編輯窗口中的變量表示該變量是(2)中指定磁盤中文件中的變量公有變量選擇關(guān)鍵變量點(diǎn)擊可將變量設(shè)置為關(guān)鍵變量Chapter 4 spss數(shù)據(jù)的預(yù)處理 缺失值和異常數(shù)據(jù)的處理 數(shù)據(jù)的轉(zhuǎn)換處理:在原有數(shù)據(jù)的基礎(chǔ)上,計(jì)算生成更具豐富信息的新數(shù)據(jù),或 數(shù)據(jù)的預(yù)處理 對數(shù)據(jù)原有分布進(jìn)行轉(zhuǎn)換處理的過程。數(shù)據(jù)抽樣:并不是所有的數(shù)據(jù)都是有用的,要按一定規(guī)則抽取。 選擇變量:并非所有的數(shù)據(jù)項(xiàng)都是有意義的,有可能要選取部分。一各種預(yù)處理基本知識

19、及操作方法簡介(一)排序1目的:1) 便于瀏覽2) 能迅速的找出最大值最小值,進(jìn)而可以計(jì)算出數(shù)據(jù)的全距,初步把握和比較數(shù)據(jù)的離散程度。3) 能夠發(fā)現(xiàn)異常值2基本概念排序變量:將要排序的變量單值排序:排序變量只有一個(gè)多重排序:排序變量有多個(gè)主排序變量:多重排序中,第一個(gè)指定的排序變量,以后的一次為第二排序變量,第三排序變量等。排序原則:首先按照主排序變量值的大小次序排序,然后對那些具有相同主排序變量值的數(shù)據(jù),再按照第二排序變量值的次序進(jìn)行排序,依次排下去。3.基本操作1)選擇菜單中的data sort case。顯示如下的窗口:2)指定主排序變量到中,并選擇框中的選項(xiàng)指定按變量升序()排還是按變

20、量降序()排。3)如果是多重排序,還要依次指定第二排序變量、第三排序變量等等。否則,本步可忽略。(注意多重排序的前提條件) (二).變量計(jì)算1.目的1) 數(shù)據(jù)的轉(zhuǎn)換處理:在原有的數(shù)據(jù)的基礎(chǔ)上,產(chǎn)生更豐富信息的新數(shù)據(jù)。例如,根據(jù)職工的基本工資、失業(yè)保險(xiǎn)、獎(jiǎng)金等數(shù)據(jù)計(jì)算出職工的實(shí)際月收入。2) 對原有數(shù)據(jù)的分布狀態(tài)進(jìn)行轉(zhuǎn)換:由于數(shù)據(jù)分析和建模過程中某些模型對數(shù)據(jù)的分布有一定的要求,因此可以利用變量計(jì)算對數(shù)據(jù)的分布進(jìn)行轉(zhuǎn)換。例如,利用對數(shù)或多項(xiàng)式轉(zhuǎn)換對非正態(tài)活非線性數(shù)據(jù)進(jìn)行處理。2.基本概念1)spss算術(shù)表達(dá)式(numeric expression):在變量計(jì)算過程中,應(yīng)根據(jù)實(shí)際需要指出按照什么樣

21、的方法計(jì)算變量。算術(shù)表達(dá)式如sr-bx。 常量:字符型常量應(yīng)用引號引起來 變量:是指那些已經(jīng)存在于數(shù)據(jù)窗口中的現(xiàn)有變量spss算術(shù)表達(dá)式 算術(shù)運(yùn)算符:+、*、/、*(乘方)先計(jì)算乘方,然后依次乘除,加減 圓括號:同級計(jì)算中,按從左到右的順序計(jì)算,圓括號改變原有的計(jì)算順序 函數(shù)2)條件表達(dá)式:在變量計(jì)算中,通常需要對不同的個(gè)案進(jìn)行不同的處理,于是就要通過一定的方式來指定個(gè)案。條件表達(dá)式能夠幫助實(shí)現(xiàn)這一目標(biāo)。a) 簡單的條件表達(dá)式:如nl>35,就表示年齡大于35歲。對于年齡大于35歲的個(gè)案,該條件判斷的結(jié)果為真,否則為假。(=表示不等于)b) 復(fù)合條件表達(dá)式:AND,&表示和OR表

22、示或,NOT表示非,計(jì)算順序:NOT ,AND, OR。如(nl<=35) and not (zc<3)表示年齡小于等于35并且職稱不低于三。3)函數(shù)a) 函數(shù)名:函數(shù)是事先編好并儲存在軟件中的,能夠?qū)崿F(xiàn)某些特定計(jì)算任務(wù)的一段計(jì)算機(jī)程序。這些程序段都有各自的名字,稱為函數(shù)名。b) 算術(shù)函數(shù)c) 統(tǒng)計(jì)函數(shù) d) 分布函數(shù):分布函數(shù)為了產(chǎn)生一個(gè)服從某種統(tǒng)計(jì)分布的隨機(jī)數(shù)序列。normal(x)產(chǎn)生服從均值等于0,標(biāo)準(zhǔn)差等于x的正態(tài)分布隨機(jī)序列。如normal(1):產(chǎn)生服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)數(shù)序列。e) 邏輯函數(shù):邏輯函數(shù)有兩個(gè)取值。、,如果判斷結(jié)果為真,則函數(shù)值為1,否則為0。Rang

23、e(變量名,x1,x2):判斷變量值是否在x1,x2之間;Any(變量名,x1,x2,x3,x4):判斷變量值是否是這其中的一個(gè)。f) 字符函數(shù):用來對字符型數(shù)據(jù)進(jìn)行處理。如length(s)表示計(jì)算s的字符個(gè)數(shù)。g)日期函數(shù):對日期進(jìn)行處理。h) 缺失值函數(shù):用于判斷缺失值。如missing(變量名)是判斷某變量是否是系統(tǒng)缺失值或是用戶缺失值。4)變量計(jì)算的基本操作a)transform computeb) 在輸入給定的表達(dá)式或者函數(shù),可手工輸入,也可按函數(shù)下拉菜單選中c) 在中輸入存放計(jì)算結(jié)果的變量名,該變量可以是一個(gè)新變量,也可以是已經(jīng)存在的變量。(修改存放變量名的屬性)。d) 如果希望

24、對符合一定條件的個(gè)案計(jì)算產(chǎn)生變量,則單擊,選擇并輸入條件表達(dá)式。否則,本步驟可省略。(三)數(shù)據(jù)選?。颖境闃樱?.方法1)按指定條件抽樣(if condition is satisfied):選取符合條件的數(shù)據(jù)2)隨機(jī)抽樣(random sample of cases)a) 近似抽樣:要求用戶給出一個(gè)百分比數(shù)值,spss按要求自動(dòng)從數(shù)據(jù)編輯窗口中隨機(jī)抽取相應(yīng)比例數(shù)目的個(gè)案。transform random number seed(隨機(jī)數(shù)種子發(fā)生器)表示隨機(jī)數(shù)種子為一個(gè)具體的正整數(shù),一般用于隨機(jī)化結(jié)果需要重復(fù)出現(xiàn)的情況;為系統(tǒng)默認(rèn)項(xiàng)。b) 精確抽樣:要求用戶給出兩個(gè)參數(shù),一是希望選取的個(gè)案數(shù),二

25、是指定在前幾個(gè)個(gè)案中選取。3)選取某一區(qū)域內(nèi)的樣本:這種抽樣通常適用于時(shí)間序列數(shù)據(jù)4)通過過濾變量選取樣本:2.數(shù)據(jù)選取的基本操作1) Data select cases其中,filtered表示將未被選中的個(gè)案劃上/,deleted表示將未選中的個(gè)案刪除。2) 抽取后,新生成變量名,選中的用1表示,未選中的用0表示,并且個(gè)案名稱上顯示。(四)計(jì)數(shù)1.關(guān)鍵點(diǎn)指定哪些變量參與計(jì)數(shù),計(jì)數(shù)的結(jié)果存入哪個(gè)新變量中;指定計(jì)數(shù)區(qū)間:單個(gè)變量值 系統(tǒng)缺失值 系統(tǒng)缺失值或者用戶缺失值:spss會對各個(gè)樣本依次計(jì)算諸多變量中有幾個(gè)變量取了缺失值。 給定最大值或者最小值的區(qū)間 小于等于某指定值的區(qū)間 大于等于某指

26、定值的區(qū)間2.spss計(jì)數(shù)的基本操作操作未成功,找機(jī)會再操練幾次。1)transform count,出現(xiàn)如下的窗口: 2)選擇需要計(jì)數(shù)的變量到3)中輸入存放結(jié)果的變量名,在中輸入存放技術(shù)結(jié)果的變量名標(biāo)簽。4)在中定義計(jì)數(shù)區(qū)間,出現(xiàn)如下窗口: :if condition is satisfied.設(shè)置滿足條件的個(gè)案。(五)分類匯總1 注意點(diǎn)按照哪個(gè)變量進(jìn)行分類;對哪個(gè)變量進(jìn)行匯總,并指定對匯總變量計(jì)算哪些統(tǒng)計(jì)量。2.基本操作1) Data aggretate:2) 指定分類變量到3) 指定匯總變量到4) 對匯總變量進(jìn)行哪些統(tǒng)計(jì)量。Spss默認(rèn)計(jì)算均值。5) :計(jì)算結(jié)果的儲存。6) 默認(rèn)儲存的文

27、件名。(六)數(shù)據(jù)分組1.定義 將數(shù)據(jù)按照某種標(biāo)準(zhǔn)重新劃分為不同的組別,在數(shù)據(jù)分組的基礎(chǔ)上進(jìn)行的頻數(shù)分析,更能夠概括和體現(xiàn)數(shù)據(jù)的分布特征,另外,分組還能實(shí)現(xiàn)數(shù)據(jù)的離散化處理等。如對職工的收入狀況進(jìn)行統(tǒng)計(jì)時(shí),我們可以將職工的收入分為高收入,中收入和低收入,之后再進(jìn)行頻數(shù)分析,繪制直方圖等。2 分組方法 單變量值分組分組方法 組距分組 分位數(shù)分組1) 單變量值分組:把每一個(gè)變量值作為一組,這種方法通常適用于離散變量且變量值較少的情況下步驟:a)Transform automatic recode b)存放分組結(jié)果的變量名。填好后,再點(diǎn)擊此按鈕即可。c)結(jié)果輸出:2) spss的組距分組:在連續(xù)變量或

28、者變量值較多的情況下,數(shù)據(jù)分組通常采用組距分組。組距分組是將全部變量值依次劃分為若干個(gè)區(qū)間,并將這一區(qū)間的變量值作為一組。關(guān)鍵點(diǎn):組距的確定:組距=(最大值-最小值)/組數(shù)組數(shù)的確定:Sturges經(jīng)驗(yàn)公式:K=1+lgn/lg2(n為數(shù)據(jù)個(gè)數(shù))存放分組變量:into same variables(覆蓋原變量),into different variables(存放到新變量),一半選擇后者。步驟(into different variables):Transform recode into different variables選擇變量到中;在中輸入存放分組結(jié)果的變量名,并按change確認(rèn),

29、然后輸入相應(yīng)的變量名標(biāo)簽;定義分組區(qū)間,指定分組區(qū)間的上限和下限(),并在new value框中(),給出該區(qū)間對應(yīng)的分組值,單擊add按鈕確認(rèn)分組區(qū)間。出現(xiàn)3) 分位數(shù)分組:與組距分組非常類似,所不同點(diǎn)的是,分位數(shù)分組中各組的下限值和上限值是由分位數(shù)決定的。(此方法簡要了解)(七)數(shù)據(jù)預(yù)處理的其它功能1.數(shù)據(jù)轉(zhuǎn)置1)定義:即將數(shù)據(jù)編輯窗口中的行列互換2)步驟:a) Data transpose,出現(xiàn)如下窗口:b) 指定數(shù)據(jù)轉(zhuǎn)置后應(yīng)該保留哪些變量,放入variablec) 指定各個(gè)變量轉(zhuǎn)置后的變量名,應(yīng)選擇一個(gè)取值唯一的變量作為標(biāo)記變量到Name variable中。結(jié)果顯示在結(jié)果輸出窗口中。

30、2 加權(quán)例子:學(xué)校算期末成績,期中考試占30%,期末考試占50%,作業(yè)占20%,假如某人期中開始得了84,期末92,作業(yè)分91,如果是算數(shù)平均,那么就是(84+92+91)/3=89;加權(quán)后的,那么加權(quán)處理后就是84*30%+92*50%+91*20%=89.4;統(tǒng)計(jì)學(xué)認(rèn)為,在統(tǒng)計(jì)中計(jì)算平均數(shù)等指標(biāo)時(shí),對各個(gè)變量值具有權(quán)衡輕重作用的數(shù)值就稱為權(quán)數(shù)它們每個(gè)數(shù)都有一些相同數(shù),表示為:k1,k2,k3.kn;加權(quán)平均的公式是:(k1p1+k2p2+k3p3+knpn)/(k1+k2+k3+.kn)處理操作:1) Data weight cases,出現(xiàn)如下窗口:3) 選擇,并選擇加權(quán)變量到框中。一旦

31、指定了加權(quán)變量,那么以后的分析處理中加權(quán)是一直有效的,直到取消加權(quán)后()。4) 加權(quán)的過程本質(zhì)是數(shù)據(jù)復(fù)制。3.數(shù)據(jù)的拆分目的還不是很了解1)Spss的數(shù)據(jù)拆分與數(shù)據(jù)排序很相似,但有一個(gè)重要的不同點(diǎn)即,拆分不僅是指定變量進(jìn)行簡單的排序,更重要的是根據(jù)變量對數(shù)據(jù)進(jìn)行分組,為以后所進(jìn)行的分組統(tǒng)計(jì)分析提供便利。2)步驟:a) Data split file b) 選擇(結(jié)果顯示在同一張表格中),或者(結(jié)果顯示在其它的表格中)。c) 選擇拆分變量到4 .spss變量集1) 在實(shí)際統(tǒng)計(jì)分析中,收集并定義到的spss數(shù)據(jù)編輯窗口中的變量會有幾十甚至上百個(gè),這樣在進(jìn)行分析處理的時(shí)候很不方便,spss變量集就是

32、一種通過減少變量顯示個(gè)數(shù)而簡化變量選擇操作的方式。2) Spss變量集是存放許多spss變量名的集合。Spss變量集包括系統(tǒng)變量集和用戶變量集兩大類ü 系統(tǒng)變量集(系統(tǒng)事先定義好的變量集):ALL VARIABLES:所有的變量名NEW VARIABLES:所有尚未存盤的變量名ü 用戶變量名(用戶根據(jù)實(shí)際需要自己定義的變量名)如果用戶需要對某些變量進(jìn)行相同的處理,則可將這些變量名放入同一個(gè)變量集中,然后在指定使用這些變量集。3) 用戶變量集步驟:a)定義變量集ü Utilities define variable setsü 在Set name輸入變量集

33、的名稱ü 選擇變量放入相應(yīng)的變量集b) 指定使用該變量集ü Utilities use setsü 選擇需要的變量集放入中。Chapter5 spss基本統(tǒng)計(jì)分析一 頻數(shù)分析(一)頻數(shù)分析的基本概念1.頻數(shù)分布表頻數(shù)分布表主要包括:ü 頻數(shù)(frequency):變量值落在某一區(qū)間的次數(shù)ü 百分比(precent):個(gè)頻數(shù)占總樣本數(shù)的百分比ü 有效百分比(valid percent):頻數(shù)占有效總樣本數(shù)的百分比,有效總樣本數(shù)=總樣本數(shù)-缺失樣本數(shù)ü 累計(jì)百分比(cumulative percent):各百分比逐漸累加的結(jié)果。2.頻數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論