應用統(tǒng)計學數據管理

上傳人：a*** IP屬地：北京上傳時間：2020-04-30 格式：PPT 頁數：79 大?。?.44MB 積分：15 舉報 版權申訴

已閱讀5頁，還剩74頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

,數據管理,在數據文件建立好之后，還需要對數據進行必要的加工處理。對同一個數據往往需要從各種不同的側面進行研究，采取多種統(tǒng)計方法進行分析，而不同的統(tǒng)計方法對數據文件結構的要求不盡相同，這就需要對數據文件的結構進行重新調整或轉換，以便適合于相同的統(tǒng)計方法。,數據管理,文件級別的數據管理變量級別的數據管理,文件級別的數據管理（1）,SPSS中的Data菜單提供了文件級別的數據管理，可以對整個數據文件進行加工整理。,InsertVariable：插入變量InsertCases：插入記錄GotoCase：到達某條記錄,簡單命令（這些功能都可以用鼠標在數據表界面直接完成，很少用菜單操作，在此不詳述）,SortCases：記錄排序SplitFile：記錄拆分SelectCases：記錄篩選WeightCases：記錄加權,常用的簡單過程（使用頻繁，必須掌握）,文件級別的數據管理（2）,DefineVariableProperties：定義數據字典CopyVariableProperties：將預定義的數據字典直接引入當前數據文件，即復制外部數據文件屬性到當前數據文件,變量與數據文件屬性向導（對大型或連續(xù)性數據分析項目非常有用）,Transpose：數據轉置Restructure：數據文件的重新排列,數據重構向導,文件級別的數據管理（3）,AddCases：縱向合并AddVariable：橫向合并,文件合并過程（MergeFiles）,DefineDates：定義日期變量過程，用于時間序列數據Aggregate：數據匯總過程IdentifyDuplicateCases：查找重復記錄,其他過程,文件級別的數據管理（4）,正交設計過程（OrthogonalDesign）,單變量排序：SPSS提供了一種簡易操作方法，即在數據表格的變量名處單擊右鍵，彈出右圖多變量排序：使用SortCases過程來進行，查看詳情,記錄排序,記錄排序,選中District，選擇升序選鈕（默認），將District選入Sortby框,選中Region，選擇降序選鈕，將Region選入Sortby框,記錄排序,注意：在多重排序中，指定排序變量名的次序很關鍵，首先安第一個變量排序，對于與第一個變量取值相同的記錄考慮按第二個變量排序排序后，原來記錄數據的排序將被打亂，對于時間序列數據，若未存放有記錄標志的變量，應注意保存原數據的排列順序，以免數據混亂,記錄排序,記錄拆分,1.選中此框不拆分文件,2.按所選變量拆分文件，各組分析結果放在一起便于比較,3.按所選變量拆分文件，各組分析結果單獨放置,4.用于選擇拆分數據文件的變量,5.要求將數據按所用拆分變量排序,6.數據集很大，且拆分變量已排序，選此可節(jié)省運行時間,1,2,3,4,5,6,記錄拆分,記錄篩選,1,2,3,4,5,1.分析所有記錄,2.分析滿足條件的記錄，按If按鈕設定篩選條件,3.從原數據中按某種條件抽樣，按Sample進行設定,4.基于時間或記錄序號選擇記錄，按Range進行設定,5.使用篩選指示變量選擇記錄，非0值的記錄被選中,6.未選中的記錄被隔離,7.未選中的記錄被刪除,6,7,記錄篩選,記錄篩選,記錄加權,設置作為權重的變量，如第一行表示agecat1gender1的人共33個，accid表示人數，應設為權重,記錄加權,定義數據字典,變量名、測量尺度等,變量列表,頻數、標簽、缺失值設定等,拷貝變量屬性,自動生成值標簽,定義數據字典,數據轉置,Transpose：該過程用于對數據進行行列轉置，即原來的一條記錄轉成為一個變量，而變量則轉成為一個記錄，兩次Transpose過程后數據集會恢復原樣（點此見具體操作）。,數據轉置,將變量Group、x選入variable框，再點擊OK鍵,轉置前的數據集,轉置后的數據集,注：未選中的變量id其數據信息在轉置后丟失,數據轉置,數據文件重新排列,Restructure：此過程是用來改變數據的排列格式，即長型格式和寬型格式之間的互轉。,數據文件重新排列,數據文件重新排列,數據anxiety轉換前后的長型格式和型格式,數據文件重新排列,文件縱向合并,*：當前數據集中的變量+：新添加數據集中的變量,左框：新、老數據文件中不匹配的變量名,右框：已匹配的變量名，選擇完成后單擊OK即可,AddCases：縱向合并，從外部數據文件中增加記錄到當前數據文件中，相互合并的數據文件中應該有相同的變量。,文件縱向合并,文件橫向合并,1.未被納入的變量列2.被納入合并后新數據集的變量列表3.記錄匹配使用的關鍵變量,AddVariables：橫向合并，從外部數據文件增加變量到當前數據文件，兩個數據集要有一個一一對應的關鍵變量進行匹配合并，且記錄應按關鍵變量升序后再合并。,1,2,3,文件橫向合并,數據匯總,分組變量,被匯總變量,數據匯總,定義匯總函數,定義新產生匯總變量的名稱和標簽,Function,Name&Label,數據匯總,查找重復記錄,希望查找重復值的變量,重復記錄按該變量的取值排序,設定第一個還是最后一個重復記錄為主記錄,查找重復記錄,PrimaryLast0表示相應的記錄為重復記錄,查找重復記錄,變量級別的數據管理（1）,SPSS中的Transform菜單提供了變量級別的數據管理，可以對變量進行操作。,計算新變量（Compute）：最常用,Recode：對變量值進行分組合并VisualBander：連續(xù)變量的可視化分段Count：表示某個變量的取值中是否出現某個值，或某個區(qū)間RankCases：變量編秩AutomaticRecode：對記錄按某個變量值的大小排序,變量轉換,變量級別的數據管理（2）,CreateTimeSeries：建立時間序列ReplaceMissingValues：缺失值替代RandomNumberSeed：設定隨機種子,專用過程,變量級別的數據管理（3）,控制命令,RunPendingTransforms：用于執(zhí)行編程中被掛起的數據整理操作,專用于時間序列模型,例1數據fee.sav是上海和杭州16名住院病人的費用數據，計算上海的住院病人平均每天的住院費用，要求結果取整。,計算新變量,輸入新變量名perfee,計算新變量,計算新變量,輸入條件表達式,計算新變量,選擇函數,輸入函數表達式,計算新變量,例2在數據fee.sav中生成新變量grade,當住院總費用小于5000元時取值為“相對較低”，大于等于5000元且小于7000元取值為“中等”，大于等于7000元且小于10000元為“較高”，大于等于10000元為“很高”。,變量值分組合并,新變量名grade,選入原變量total,變量值分組合并,變量值分組合并,三種Range的設置，所有的范圍均包含了端點，而前面設定的變換會優(yōu)于后面的變換，因此應該將大于等于10000元最先設定，而將小于5000元最后設定。,變量值分組合并,變量值分組合并,變量值分組合并,變量值分組合并,務必選上該項,變量值分組合并,變量值分組合并,recode過程提供了精確分組的功能，但如果希望進行的分組是有規(guī)律的，比如等距分組，或等樣本量分組，使用recode過程進行操作就顯得非常麻煩，且可視化程度不高。此時可以考慮使用visualbander過程進行可視化分段。,連續(xù)變量的可視化分段,例3仍以數據fee.sav為例，按變量total將病人分為5組，5000元以下為第一組，5000元以上的按等間距的方式分4組。,連續(xù)變量的可視化分段,連續(xù)變量的可視化分段,連續(xù)變量的可視化分段,設定分段規(guī)則,連續(xù)變量的可視化分段,連續(xù)變量的可視化分段,自動填充值標簽,連續(xù)變量的可視化分段,例4仍以數據fee.sav為例，查看變量total中是否出現值6890。,查看特定變量值,查看特定變量值,查看特定變量值,查看特定變量值,查看特定變量值,例5仍以數據fee.sav為例，根據城市分組計算住院總費用的秩次。,

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

應用統(tǒng)計學數據管理

文檔簡介

溫馨提示

最新文檔

評論

應用統(tǒng)計學數據管理

文檔簡介

溫馨提示

最新文檔

評論

相關文檔