SPSS統計軟件的概述(doc 17頁).doc_第1頁
SPSS統計軟件的概述(doc 17頁).doc_第2頁
SPSS統計軟件的概述(doc 17頁).doc_第3頁
SPSS統計軟件的概述(doc 17頁).doc_第4頁
SPSS統計軟件的概述(doc 17頁).doc_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

統計學SPSS上機實驗講義天津中醫(yī)藥大學中醫(yī)學院公共衛(wèi)生教研室主講人 趙鐵牛2010-9緒論:學點統計學,迎接挑戰(zhàn)1 什么是統計學:the science and art of dealing with variation in data through collection,classification and analysis in such a way as to obtain reliable results。即:統計學是一套收集數據和分析信息的方法和原則,以幫助人們在面對不確定性時制定決策。由此看來:1)它是處理資料中變異性的科學和藝術。2)它的目的在于取得可靠的結果。3)它是在搜集、歸類、分析和解釋大量數據的過程中完成其使命的。2 學習統計學可以:1)在從事醫(yī)藥方面的科學研究時,從設計、分析到解釋全面借助統計學。2)在醫(yī)學論文所應用的統計學知識中70%是最基本的概念和經典的統計方法,出現的錯誤也最多。為此,作為讀者也學提高識別統計學錯誤的本領,否則就不能正確對待出版物中的結果和結論,人云亦云,貽誤自身工作。3)在工作中,正確理解與運用醫(yī)學指標的正常參考范圍、總結自己的治療經驗、證實自己提出的診斷方法不亞于現有方法、考證民間驗方的優(yōu)劣等。3 學什么:學統計學的基本概念,學統計學獨特的思維方式,學常用的統計方法和電腦軟件的使用。至于復雜的統計理論和技術,專業(yè)性比較強,需要時可通過協作解決問題。實驗安排實驗一:1)SPSS統計軟件的概述及數據文件的建立與修改第11周 實驗二:1)統計圖 第13周 2)計量資料統計描述實驗三:1)t檢驗第15周2)單因素方差分析3)測驗1上課時間:周一 16:15-18:00上課地點:本部實驗樓一、 SPSS統計軟件的概述及數據文件的建立與修改1 SPSS統計軟件的概述:SPSS是社會科學用的統計軟件包。事實上,它不僅適用于社會科學,同樣可應用于經濟學、心理學、醫(yī)學等各個不同領域。除了數據錄入外,它無須編寫程序,完全可以在Window下通過“菜單”、“對話框”使用點擊或雙擊鼠標來操作,對讀者提供及大的方便,深受用戶歡迎。SPSS for window安裝時,根據所選的模塊多少及版本的不同,所占的硬盤空間也不同, 一般來說,需要16-24MB。除此之外,為了運行此軟件,一般還應有大于10MB的自由空間,否則,會感到存取速度明顯的下降,甚至會出現錯誤信息。目前,本軟件無漢化版。本軟件與其他軟件有數據轉化接口,可以方便地讀入其他軟件的數據文件,也可以方便地轉化為相應的其他數據文件。2SPSS13.0的主要窗口:數據編輯窗(Data Editor)、結果輸出窗(Viewer)、程序編輯窗(Syntax Editor)和腳本編輯窗(Script)。3SPSS for Window的啟動和退出 雙擊軟件圖標,進入其主界面,主菜單的內容有:File 文件操作Edit 文本編輯View 視圖Data 數據文件的建立與編輯Transform 數據轉換Analyze 統計分析Graphs 統計圖表的建立與編輯Utilities 實用的一些工具Window 窗口信息與控制Help 幫助每個菜單都包括一系列功能,用鼠標點擊可出現下拉式菜單,供下一步選擇和操作。4 數據文件的建立:數據文件的建立是指把科研工作過程中采集的各種信息、數據以某種方式存入到計算機的磁盤中,建立可隨時存取、修改、統計分析的數據文件的全過程。一般來說,它包括數據編碼、建立數據文件的二維結構、數據錄入、選定數據文件名及保存數據等幾個步驟。操作過程:FileNewData4.1數據編碼 在建立數據文件之前首先要進行數據編碼(Data Code),它包括如下三個層次:4.1.1定義數據項的變量名(Variable Name)給數據項取變量名可以用漢語拼音或是英文縮寫。但是,應遵循如下原則:1)變量名由一般不多于8個字符組成。2)首字符應該是英文字母,其后可以為字母或數字及除了“?”“!”“*”以外的字符。但是應該注意,不能以下劃線“-”和“.”作為變量名的最后一個字符。3)變量名不能使用SPSS的保留字。SPSS的保留字有:ALL、AND、OR、NOT、EQ、GE、GT、LE、LT、NE、TO、WITH及一些常用的函數符號等。4)系統中不區(qū)分變量名中的大小寫字母。例如ABCE與abcd被認為是同一變量。4.1.2定義數據項變量的標簽(Variable Label)定義變量標簽是對該變量名所表示的數據項內涵的進一步說明,可以用英文或中文。變量標簽是一個可選擇項,可以定義,也可以不定義。4.1.3定義數據項變量取值的標簽(Value Labels)每個變量名對應一個數據項,每個變量取不同的值,表示數據項中的不同信息。有時為了更好地理解統計分析過程中的輸出結果,要進一步給變量的不同的取值賦以不同的標簽,以便對不同的信息作出解釋。并不是所有的變量值都要定義標簽,一般來說,離散變量才給變量值定義標簽。3.2建立數據文件的操作定義變量包括定義變量名、變量類型、變量長度(含小數點位數)、變量標簽、變量值標簽、缺失值和變量顯示格式(寬度、對齊方式)等。定義變量的步驟如下:進入數據窗口、激活定義變量的對話框、定義每個變量的名稱及數據類型等、保存(存儲)數據文件的框架結構、最后是數據錄入和存儲。5其他類型的數據文件的讀入 SPSS有很好的兼容性,它能把DBASE、FOXBASE、FOXPRO及EXCEL所建立的數據文件讀入并進行統計分析。6上機內容:5.1根據醫(yī)學統計學187頁表15-1 圍手術期輸血對先天性巨結腸術后感染關系的探討的數據,在電腦上建立該項數據文件:并依照188頁定義相應的變量名,定義合適的變量類型,數據寬度和小數點為數,依照189頁表15-2定義變量標簽,依照189頁表15-3 定義分類變量的變量值標簽。最后錄入該數據,并以“EG1501”為名保存在D盤的“SPSS上機實驗”的文件夾下。5.2對EG1501.sav數據集依照sex和age排序。操作過程:DataSort Cases5.3對EG1501.sav數據集依照sex拆分成兩個數據文件。操作過程:DataSplit File5.4根據醫(yī)學統計學1頁表1-1,建立可在SPSS軟件上分析用數據文件。5.5根據醫(yī)學統計學39頁表5-2,建立可在SPSS軟件上分析用數據文件。本單元參考書目:1 馬斌榮.醫(yī)學統計學人民衛(wèi)生出版社2 賈俊平統計學清華大學出版社二、 統計圖表 統計表和統計圖是統計描述的重要工具,在搜集、整理及分析資料時,尤其在科研論文中,表達統計結果及進行對比分析時應用極為廣泛。將統計分析的事物及其指標用表格的形式列出,即為統計表。合理的統計表可將統計數據和分析結果簡明而正確地表達出來,既可避免冗長的文字敘述,又可使數據條理化、系統化,便于理解、分析和比較。1統計表 在對分類變量較多的數據進行分類匯總,或在處理由多項應答組成的問卷時,SPSS的統計表(Table)過程體現了很大的靈活性和方便性。統計表菜單下包括以下六種過程:Custom Tables 自定義統計表Multiple Response Sets 定義多項應答數據集Basic Tables 基本統計表General Tables 綜合統計表Multiple Response Tables 多項應答統計表Tables of Frequencies 頻數統計表本課程只講授基本統計表(Basic Tables) 基本統計表過程可用以創(chuàng)建三維統計表。所謂三維統計表,是指由行變量(row/down variable)、列變量(column/across variable)和分層變量(layer/separate variable)構成的統計表。2統計圖 統計圖利用點的位置、線段的升降、直條的長短和面積的大小等各種幾何圖形來表達統計資料和指標,它將研究對象的特征、內部構成、相互關系、對比情況、頻數分布等情況形象而生動地表達出來,更直觀地反映出事物間的數量關系,更易于比較和理解,可以給讀者留下清晰的印象,研究論文與宣傳展示中經常用到它。統計圖的缺點是往往不能精確地顯示數字大小,所以經常與統計表一起使用。在醫(yī)學中常用的統計圖有直條圖、百分條圖、圓圖、普通線圖、半對數線圖、直方圖、箱圖和散點圖等。繪制統計圖總的基本要求首先是根據資料的性質和分析目的選擇適當的圖形。擊主菜單中的GraphsInteractive,彈出統計制圖的子菜單:Bar 直條圖Dot 點形圖Line 線圖Ribbon 帶形圖Drop-Line 下降線圖Area 面積圖Pie 餅圖Boxplot箱式圖Error Bar誤差條圖Histogram直方圖Scatterplot散點圖3上機內容1. 基本統計表:數據集為上節(jié)課錄入并存儲的EG1501.sav。操作過程:AnalyzeCustom TablesBasic Tables,彈出基本統計表主對話框。Summaries:匯總變量,一般為定量變量。選入匯總變量后,擊Statistic按鈕,可在統計量對話框中選擇匯總統計量,如均數、標準差、標準誤等。Subgroups定義分組變量。 Down:行變量,一般為分類變量。 Across:列變量,一般為分類變量。 Separate:分層變量 ,一般為分類變量。 All combinations (nested):嵌套排列。當行變量、列變量或分層變量同時選入兩個或兩個以上變量時,該選項被激活。 Each separately(stacked):平行排列。當行變量、列變量或分層變量同時選入兩個或兩個以上變量時,該選項被激活。根據數據集,以sex、hct、opa、disease、infect為研究變量制作三維統計表、行變量嵌套統計表、行變量平行排列統計表。2. 條圖: 用以描述按性質分組某項指標值的大小。如表2-1數據,建立數據文件bar.sav,(建立三個變量:year(11952,21972),cause(1肺結核,2=心臟病,3=惡性腫瘤),prop)并制圖:表2-1 某地兩年3種疾病的死亡率(1/10萬)死因1952年1972年肺結核163.227.4心臟病72.583.6惡性腫瘤57.2178.21) 單式條圖:分別以1952和1972年數據制圖,作三種疾病的死亡率比較。DataSelect CasesIf 時間1, GroupsBarSimple & Summaries Define Other summary function(Mean) Variable : Prop Category : cause2) 復式條圖:建立3種疾病死亡率比較的復式條圖: GroupsBarCluster & Summaries Define Other summary function(Mean) Variable : Prop Category : cause(year) Defin Cluster by :year (cause)。4)分段條圖(stacked)3. 線圖(Line): 用以描述某一(些)變量隨時間變量變化的關系。根據表2-2中數據,建立數據line.sav,并制作單變量線圖(simple)和復變量線圖(multiple)。表2-2 某地居民1950-1964年傷寒與結核病死亡率(1/10萬)年份19501952195419561958196019621964傷寒31.322.418.09.25.03.81.60.8結核174.5157.1142.0127.297.771.359.246.04. 餅圖(pie):用以描述構成比資料。根據表2-3中數據,建立數據pie.sav,并制作5種主要死因構成餅圖。表2-3 某地1983年 5種主要死因構成死因分類例數心臟病1242腦血管病1113惡性腫瘤651呼吸系統病337消化系統疾病1575. Pareto 圖:產生從高到低排列的條圖,并可給出累積曲線。以pie.sav 為例,繪制單式Pareto 圖。6. 箱絲圖 (Boxplot):用以描述數值變量的五個百分位點,即P0(最小值)、P25、P50、P75、P100(最大值)。對EG1501.sav 數據文件,作出hct關于sex的簡單箱形圖。7. 散點圖(Scatter):用于表示雙數值變量之間的相關關系。以數據文件line.sav為例,繪制結核與傷寒之間關系的簡單散點圖。繪制復合散點圖(Overlay):以數據文件line.sav為例,x軸表示時間變量,y軸表示結核和傷寒死亡率。8. 直方圖(Histogram):用以描述一組數值變量資料的頻數分布對EG1501.sav數據文件,作出hct的直方圖。本單元參考書目:1馬斌榮.醫(yī)學統計學人民衛(wèi)生出版社2. 陳平雁. SPSS13.0軟件應用教程人民衛(wèi)生出版社3 賈俊平統計學清華大學出版社三、計量資料的統計描述1數據匯總報告(Report) 主菜單Analyze列出了統計分析的絕大部分內容,在菜單中Reports列在第一行,它的重要功能是數據的匯總統計,它可以按自行規(guī)定的格式報告描述統計量。1.1. 即時匯總分析(OLAP Cubes)OLAP是Online Analytical Processing的縮寫,該過程主要用于統計描述。其特點是提供快捷、靈活多樣的交互方式。操作過程:從菜單選擇AnalyzeReportsOLAP Cubes Summary variable:分析變量。一般為計量變量。 Grouping variable:分組變量。可選1個或多個,對上面的分析變量進行分組統計。Statistics:統計量。數據集EG1501.sav分別以sex為分組變量 、infect為分組變量及二者共同為分組變量對time, hct計算統計量,包括合計、均數、樣本量、標準差、標準誤、最小值和最大值。1.2 數據匯總(Case Summarize)數據匯總是將數據編輯窗中的全部或部分數據源在結果窗中羅列出來,以便瀏覽或打印。同時對數據的基本特征進行描述。操作過程:從菜單選擇AnalyzeReportsCase Summarize Variables:選入匯總變量。Grouping variable:選入分組變量。Statistics:統計量。對數據集EG1501.sav以sex 為分組變量,計算反應變量time、lossb、opab的例數、均數及標準差,只限于數據文件中前20例的計算,并輸出原始數據。1.3行匯總報告(Report Summaries in Row)行匯總報告過程可以羅列原始數據,其格式是以觀察單位和統計量為行標目,以報告變量為列標目。與匯總數據過程相比,它可以給出更為復雜的報告形式,其輸出格式的設置也更為詳細。操作過程:從菜單選擇AnalyzeReportsReport Summaries in Row Data Columns:定義報告變量。Break Columns :選入分組(分類)變量。注意:在本界面存在兩個Summary正下方Summary:分組報告統計量。右下方Summary:匯總報告統計量。對數據集EG1501.sav以sex 為分組變量,計算反應變量time、lossb、opab,分組統計量選擇均數、樣本量和標準差,匯總統計量選擇均數、樣本量、標準差及最大和最小值。1.4列匯總報告(Report Summaries in Column)列匯總報告以分組變量的不同水平為行目標,以報告變量(包括合計匯總變量)和統計量為列目標。列匯總報告的功能與行匯總報告有許多相似之處,但也有不同,列匯總每次只能選擇1個變量,但可以分別選擇不同的統計量,不能列出原始數據;行匯總可多選變量,但入選變量只能選擇相同的統計量,可以列出原始數據。操作過程:從菜單選擇AnalyzeReportsReport Summaries in ColumnData Columns:定義報告變量。Break Columns :選入分組(分類)變量。對數據集EG1501.sav以sex 為分組變量,在報告變量中,每次選一個變量,Summary按鈕被激活,擊Summary按鈕,分別選定待輸出的統計量,一次僅選一個待輸出的統計量。若不選,則系統默認求合計。本實驗要求:計算反應變量time的Percentage inside Low:120 High:180、lossb均數、opab最大值。2頻數分布分析(Frequencies) 頻數分布分析主要通過頻數分布表、條圖和直方圖,以及集中趨勢和離散趨勢的各種統計量,描述數據的分布特征。操作過程:從菜單選擇AnalyzeDescriptiveFrequenciesStatistics:統計量。有包括四分位間距等的百分位數、包括均數等的集中趨勢和包括標準差的離散趨勢可供選擇。Chart:統計圖。對數據集EG1501.sav的lossb(失血量)作描述性分析,并繪制直方圖。3描述性統計分析(Descriptives)描述性統計分析主要用以計算描述集中趨勢和離散趨勢的各種統計量,此外還有一個重要功能是對變量做標準化變換,即Z變換。操作過程:從菜單選擇AnalyzeDescriptiveDescriptives對數據集EG1501.sav的lossb、opab進行描述性分析。4探索性分析(Explore)探索性分析主要有以下幾個目的:對數據進行初步檢查,判斷有無離群點(outliers)和(或)極端值(extremevalues)。對前提條件假定,如正態(tài)分布和方差齊性進行檢驗。了解組間差異特征。探索性分析(Explore)可以給出統計量、正態(tài)性檢驗和描述性統計圖,包括莖葉圖、直方圖和箱圖。對數據集EG1501.sav中的time(手術時間)按分組(分類)變量sex(性別)進行探索性分析,要求輸出描述統計量、做出箱圖和莖葉圖、作正態(tài)性檢驗及方差齊性檢驗并繪制正態(tài)概率圖。5對12只小鼠進行完全隨機分3組:方法1:Tansform Random number seedCompute,指定目標變量m,Uniform(3),Tansform Categorize方法2:Data-Select Cases-Random sample Filtered,于Sample中,指定Exactly 4 cases from 12 cases, 選擇Tansform Compute,指定目標變量m,Numeric Expression為1,選擇Tansform Compute,指定目標變量m,Numeric Expression為3,if filter=1,Data-Sort Cases,指定m、Ascending。最后從前面的8條中按上述方法再測取4條。本單元參考書目:1馬斌榮.醫(yī)學統計學人民衛(wèi)生出版社2. 陳平雁. SPSS13.0軟件應用教程人民衛(wèi)生出版社3. 賈俊平統計學清華大學出版社四、兩組計量資料的均數比較- t檢驗與單因素方差分析1對于兩組計量資料的均數做顯著性檢驗可用t檢驗。它要求該兩組資料都分別服從正態(tài)分布或近似正態(tài)分布,并且要求兩組的方差具有齊同性。t檢驗可根據實驗設計分為單樣本t檢驗(Oen-Sample T Test)、配對t檢驗(paired-samples T test)和兩組獨立樣本的t檢驗(independent- samples T test)。表4-1 兩均數差別的比較樣本均數與總體均數的比較H0:=0H1:0n較小,服從正態(tài)分布t=n50,或0已知 or 配對資料H0:d=0H1:d0成組設計兩樣本均數比較H0:H1:n150 , n2504 方差分析:又稱為變異度分析,它是英國統計學家R.A.Fisher首先提出的一種統計方法,為此有時也稱為F檢驗。方差分析簡寫為ANOVA(Analysis of Variance)。它要求各組觀察值服從正態(tài)分布或近似正態(tài)分布,并且各組之間的方差具有齊性。方差分析的基本思想是把所有觀察值之間的變異分解為幾個部分,即把描寫觀察值之間的變異的離均差平方和分解為某些因素的離均差平方和及隨機抽樣誤差的離均差平方和,進而計算其均方,然后相互比較,做統計學處理。如表3-2表4-2 完全隨機設計方差分析計算表差異源SS(自由度)MSF組間SS組間組間=k-1MS組間= SS組間/組間F= MS組間/ MS組內組內(誤差)SS組內=SS總-SS組間組內=總-組間 =N-kMS組內= SS組內/組內總計SS總總=N-13步驟要求:1)寫出檢驗假設 2)建立數據文件 3)統計分析,并紀錄統計量和檢驗結果4)寫出統計結論和專業(yè)結論4單樣本 t檢驗: 推斷樣本所代表的未知總體與已知總體均數有無差別,還可以計算相應的描述性統計量及樣本均數和總體均數之差的95%可信區(qū)間。操作過程:AnalyzeCompare MeansOne-Sample T Test已知某水樣中含CaCO3的真值為20.7mg/L,現用某法重復測定改水樣11次,CaCO3的含量為:20.99,20.41,20.10,20.00,20.91,22.60,20.99,20.41,20.00,23.00,22.00。問該法側得的均數是否偏高?5配對t檢驗:用于檢驗兩組相關樣本或成對樣本所得平均數間是否有顯著性差異,實質上是檢驗樣本差值的總體均數與0的差異有無顯著性意義,以及配對樣本是否相關。操作過程:AnalyzeCompare Meanspaired-samples T test 比較 10例矽肺患者經藥物治療前

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論