




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
2023/8/20
數(shù)據(jù)統(tǒng)計學(xué)處理方法與選擇第一部分數(shù)據(jù)輸入與整理一、原始數(shù)據(jù)的錄入1、原始數(shù)據(jù)的記錄形式
醫(yī)學(xué)研究的原始數(shù)據(jù)常列成類似下表的二維結(jié)構(gòu),即行與列結(jié)構(gòu)的數(shù)據(jù)集形式。每一行稱為一個記錄(record),或一個觀察單位(case);每一列稱為一個變量Variable),用以表示變量、項目或觀察指標等。腎衰病人預(yù)后分析臨床資料病人編號病案號性別年齡生理評分腎毒性黃疸昏迷肌酐膽固醇腎功能預(yù)后1004757男2614無有無5204.1治愈2007950女3113無無無5234.5治愈3011093男5517無無無2093.3治愈4017555男259有無無10334.1未愈...........274279183女7815有無無3316.1未愈2、原始數(shù)據(jù)的錄入
在進行統(tǒng)計分析前,原始數(shù)據(jù)需錄入計算機。錄入的文件類型大致有:數(shù)據(jù)庫文件,如dBASE、FoxBASE、Lotus、EPIinfo等;Excel文件;統(tǒng)計應(yīng)用軟件的相應(yīng)文件,如SPSS數(shù)據(jù)文件、SAS數(shù)據(jù)文件、STATA數(shù)據(jù)文件等。目前,上述文件類型絕大多數(shù)都可以相互轉(zhuǎn)換。
錄人數(shù)據(jù)時,應(yīng)遵循便于錄入,便于核查,便于轉(zhuǎn)換,便于分析的原則。便于錄入是指盡可能地減少錄入工作量,錄入時,用數(shù)值變量取代了字符變量,可以大大節(jié)約錄入的時間和費用。便于核查是指一定要設(shè)有標識變量,以方便數(shù)據(jù)核查。便于轉(zhuǎn)換是指錄入數(shù)據(jù)時要考慮不同軟件對字節(jié)和字符的要求,便于分析是指每項研究最好錄成一個數(shù)據(jù)文件,錄入的格式滿足各種統(tǒng)計分析的需要,這樣才能保證分析數(shù)據(jù)時的高效和全面。馮啟明2023/8/20二、輸入數(shù)據(jù)的質(zhì)量控制1、數(shù)據(jù)核查數(shù)據(jù)錄入后,首先須對錄入的數(shù)據(jù)進行核查,以確保錄入數(shù)據(jù)的準確性和真實性。核查準確性可分兩步進行。第一步邏輯檢查,通過運行統(tǒng)計軟件中的基本統(tǒng)計量過程,列出每個變量的最大值與最小值,如果某變量的最大值或最小值不符合邏輯,則數(shù)據(jù)有誤;第二步將原始數(shù)據(jù)與輸入數(shù)據(jù)進行核對,更正錯誤。在一些大型數(shù)據(jù)的錄入過程中,為保證數(shù)據(jù)的質(zhì)量,往往采用對同一資料進行雙人重復(fù)錄入的方法,然后應(yīng)用程序?qū)蓚€數(shù)據(jù)庫進行比對,如有錄入結(jié)果不符,則進行核查,找出其錯誤所在。二、輸入數(shù)據(jù)的質(zhì)量控制2、缺失值的處理在資料收集過程中,特別是大型數(shù)據(jù)的收集,不可避免的會有一些缺失值產(chǎn)生,這主要來自于資料收集中的漏填和漏報。通常認為,缺失值應(yīng)控制在數(shù)據(jù)記錄總量的10%以內(nèi)。在計算機的數(shù)據(jù)錄入過程中,要注意把缺失值和“0”區(qū)分開來,“0”通常用來表示“無”,即該事件未發(fā)生,具有確切的含義,表明該數(shù)據(jù)已收集到;而缺失值表示該數(shù)據(jù)未填或未收集,兩者要注意區(qū)分,以免混淆。在一般的數(shù)據(jù)庫軟件中,缺失值通常都用“.”表示。二、輸入數(shù)據(jù)的質(zhì)量控制2、缺失值的處理
在資料分析中,如一例記錄的某個變量有缺失值,統(tǒng)計分析軟件都會自動把該例作刪除處理。因此,當資料可避免地產(chǎn)生了缺失值,而該例記錄由于其他的變量仍有統(tǒng)計分析的價值,或者當刪除該例記錄后樣本例數(shù)太少,不能保證數(shù)據(jù)分析結(jié)果的可靠性時,則可用一些統(tǒng)計學(xué)方法對缺失值進行填補。對缺失值進行估計填補具體方法,可參閱有關(guān)文獻。
二、輸入數(shù)據(jù)的質(zhì)量控制3、離群數(shù)據(jù)的處理
當個別數(shù)據(jù)與群體數(shù)據(jù)嚴重偏離時,被稱為離群數(shù)據(jù)(outlier)。判斷離群數(shù)據(jù)的方法可通過觀察數(shù)據(jù)的頻數(shù)表或直方圖進行初步判斷;統(tǒng)計軟件一般都有判斷離群數(shù)據(jù)的方法,例如,SPSS軟件對其的定義為:觀察值距箱式圖(boxplot)的箱體底線(第25百分位數(shù))或頂線(第75百分位數(shù))的距離為箱體高度(四分位數(shù)間距)的1.5倍至3倍時被視為離群點,觀察值距箱體底線或頂線的距離超過3倍的箱體高度時被視為極端值。
二、輸入數(shù)據(jù)的質(zhì)量控制3、離群數(shù)據(jù)的處理若有離群數(shù)據(jù)出現(xiàn),可分為兩種情況處理:(1)如果確認數(shù)據(jù)有邏輯錯誤,又無法糾正,可直接刪除該數(shù)據(jù)。例如,若某一數(shù)據(jù)中某病例的身高變量為“1755”cm,且原始記錄亦如;又無法再找到該病例時,顯然這是一個錯誤的記錄,只能刪除。(2)若數(shù)據(jù)并無明顯的邏輯錯誤,可將該數(shù)據(jù)剔除前后各做一次分析,若結(jié)果不矛盾,則不剔除;若結(jié)果矛盾,并需要剔除,必須給以充分合理的解釋,例如用何種方法確定偏離數(shù)據(jù),該數(shù)據(jù)在實驗中何種干擾下產(chǎn)生等。第二部分數(shù)據(jù)統(tǒng)計描述方法的選擇總體樣本統(tǒng)計推斷抽樣抽樣誤差一、計量資料的描述某市抽查187名賓館女性服務(wù)人員年齡資料如下
254033182225333035182420222225262428184021…………….192220223329384022181920252429313228262519187名賓館女性服務(wù)人員年齡分布年齡分組(歲)頻數(shù)<202120~4925~8930~19>=359
計量資料統(tǒng)計描述集中趨勢離散趨勢均數(shù)幾何均數(shù)中位數(shù)全距四分位數(shù)間距方差標準差變異系數(shù)計量資料描述的常用統(tǒng)計指標選擇集中趨勢指標
適用范圍離散趨勢指標
適用范圍
均數(shù)正態(tài)分布或?qū)ΨQ分布資料四分位數(shù)間距Q75-Q25偏態(tài)數(shù)據(jù)或“開口數(shù)據(jù)”幾何均數(shù)
G對數(shù)正態(tài)分布或成倍數(shù)關(guān)系的數(shù)據(jù)標準差
S正態(tài)分布或?qū)ΨQ分布資料中位數(shù)
M偏態(tài)數(shù)據(jù)或“開口數(shù)據(jù)”某市抽查187名賓館女性服務(wù)人員年齡資料如下
254033182225333035182420222225262428184021…………….192220223329384022181920252429313228262519187名賓館女性服務(wù)人員年齡分布年齡分組(歲)頻數(shù)<202120~4925~8930~19>=359
現(xiàn)檢測出11名梅毒患者的血清梅毒抗體滴度如下,請計算其平均抗體滴度。1:51:201:401:801:801:801:1601:1601:3201:3201:640數(shù)據(jù)之間呈倍數(shù)關(guān)系-幾何均數(shù)艾滋病患者月均收入的頻數(shù)表月均收入(天)人數(shù)<50031500~141000~131500~82000~6>=25002合計74偏態(tài)分布與開口資料,采用中位數(shù)(M)與四分位數(shù)間距(Q75-Q25)描述某人收集到如下的統(tǒng)計資料,從資料表達方式的角度看,存在的主要錯誤是什么?該資料應(yīng)如何進行表達?艾滋病患者某藥治療前后CD4測定結(jié)果
明顯偏態(tài)資料-采用中位數(shù)描述平均水平,由于例數(shù)太少,采用最大值-最小值反映離散。
治療例數(shù)
治療前1924±38治療后191008±1586標準差大于均數(shù),提示明顯偏態(tài)。二、分類資料的統(tǒng)計描述案例1請選擇適當指標描述該兩組資料結(jié)果。資料類型多項無序分類資料
艾滋病健康教育干預(yù)組與對照組的職業(yè)構(gòu)成組別例數(shù)工人個體戶職員其他干預(yù)照組12030403020合計27050907060案例2請選擇適當指標描述兩組結(jié)果。兩項分類資料
兩方法治療尖銳濕疣療效比較
組別例數(shù)有效無效A方法15011238B方法13011812案例3
等級資料(多項有序分類資料)請選擇適當指標描述兩組結(jié)果。
兩方法治療尖銳濕疣療效比較
組別例數(shù)控制顯效有效無效A方方/p>
資料統(tǒng)計描述方法計量資料分類資料集中趨勢離散趨勢計數(shù)資料等級資料均數(shù)幾何均數(shù)中位數(shù)全距四分位數(shù)間距方差標準差變異系數(shù)二項分類資料多項無序分類資料
率
構(gòu)成比
構(gòu)成比
據(jù)表中某地、某年梅毒監(jiān)測資料,計算各年齡的構(gòu)成比和梅毒報告發(fā)病率
某地、某年梅毒監(jiān)測資料年齡(歲)人口數(shù)梅毒報告數(shù)構(gòu)成比/%發(fā)病率(1/萬)0-5894521920-65493519430-43256750340-123794536>=5031129261
合計1831877
1513
第三部分統(tǒng)計學(xué)假設(shè)檢驗方法的選擇
選擇統(tǒng)計方法的基本思路:
反應(yīng)變量是單變量、雙變量或多變量
數(shù)據(jù)屬于哪種類型資料:計量資料、計數(shù)資料或等級資料(針對單變量數(shù)據(jù))數(shù)據(jù)所屬的設(shè)計類型:完全隨機設(shè)計、配對設(shè)計、隨機區(qū)組設(shè)計或其他設(shè)計
影響因素是單因素還是多因素
數(shù)據(jù)是單一樣本、兩組樣本還是多組樣本
數(shù)據(jù)是否符合擬采用的統(tǒng)計分析方法的應(yīng)用條件
(一)單變量計量資料的分析1、樣本均數(shù)于已知總體均數(shù)比較1、一般健康孕婦生產(chǎn)男孩的出生體重為3kg。隨機抽樣調(diào)查某地某年15名梅毒感染孕婦生產(chǎn)男孩的出生體重,得如下數(shù)據(jù),問:問梅毒感染孕婦與健康孕婦生產(chǎn)男孩的出生體重是否有差異?樣本均數(shù)與總體均數(shù)比較15名梅毒感染孕婦生產(chǎn)男孩的出生體重(kg):1.82.22.52.61.61.81.92.62.21.92.02.52.61.72.0馮啟明2023/8/20
(一)單變量計量資料的分析2、配對樣本均數(shù)比較3、兩樣本均數(shù)比較40名艾滋病患者隨機分為兩組,分別給予A藥和B藥治療,治療后艾滋病患者血液CD4含量如下,請比較兩組患者治療后CD4差異。完全隨機設(shè)計兩樣本均數(shù)比較
治療后艾滋病患者血液CD4含量A藥200,250,300,500,1005,350,280,450,600,780B藥1400,1250,1580,1890,9001104,1589,789,698,1560兩種方法檢測7名艾滋病患者的血液CD4含量,所得結(jié)果如下。問:甲乙兩法檢出CD4含量是否相同,用何統(tǒng)計方法?
樣本號1234567
乙法270540125500485185650
甲法329602101625508175761
配對設(shè)計計量資料
(一)單變量計量資料的分析4、多個樣本均數(shù)比較
某研究者將27只感染艾滋病雄性猩猩隨機分成三組(每組9只),給予不同處理,觀察12周。測定。處理前后血液中的CD4升高值見下表。問三組的CD4升高值是否相同?
A藥組B藥組C藥組365348360394355368373319386375354369358352352370356371350324374410356368360350372完全隨機設(shè)計多樣本比較A藥B藥C藥1.671.772.102.042.032.071.381.451.481.021.091.071.291.151.921.321.051.281.171.261.082.121.872.071.641.721.651.751.852.451.651.561.38按性別相同、年齡相近、病情相近把33例艾滋病患者配成11個區(qū)組,每區(qū)組3個患者,分別給予A藥、B藥和C藥治療。治療后患者血漿中的IGA含量見表。問經(jīng)三種不同藥物治療后該病患者血漿中IGA含量有無差別?
隨機區(qū)組設(shè)計計量資料
某醫(yī)院用某中藥給8名吸毒者戒毒,在治療前、治療后一周、二周、三周和四周分別測定患者的血清谷丙轉(zhuǎn)氨酶SGPT的變化,其數(shù)據(jù)如表5-2所示,試分析各周SGPT值的差別是否有顯著性意義。單因素重復(fù)測量數(shù)據(jù)方差分析組別受試號
監(jiān)測時間(小時)1234膠囊組19.7354.6155.946.8125.5050.8779.9062.3737.9623.4364.1056.0042.3718.6373.1076.0552.3755.2493.3565.4766.5032.0873.4576.27片劑組70.8425.0053.8044.2580.6817.3464.5661.0692.1414.1069.7766.65102.3053.4073.8362.00116.1725.8545.8053.80122.4553.3058.8057.80
將12名吸毒者隨機分為兩組,每組6名,采用某種藥物進行治療戒毒,一組服用膠囊,另一組服用片劑。分別于服藥后1,2,3,4小時測定血藥濃度,血藥濃度檢測結(jié)果見下表。試比較
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 專題5.2 平面向量基本定理及坐標表示(原卷版)-2024年高考數(shù)學(xué)一輪復(fù)習(xí)精講精練寶典(新高考專用)
- 2020-2021深圳市寶安區(qū)鵬暉中英文學(xué)校小學(xué)五年級數(shù)學(xué)下期中模擬試題及答案
- 肇慶車庫畫線施工方案
- 河北省邢臺隆堯縣聯(lián)考2025屆畢業(yè)升學(xué)考試模擬卷生物卷含解析
- 加油站車位出租合同范例
- 醫(yī)療專項設(shè)計合同范本
- 品牌故事的創(chuàng)作與傳播計劃
- 班級年度培訓(xùn)計劃
- 班級理論知識競賽的組織與實施計劃
- 敏捷管理方法在團隊中的實踐計劃
- 2025春季開學(xué)第一課安全教育班會課件-
- 2025復(fù)工復(fù)產(chǎn)安全教育培訓(xùn)
- 中國高血壓防治指南(2024年修訂版)
- 眼鏡學(xué)智慧樹知到答案2024年溫州醫(yī)科大學(xué)
- 閃耀明天 二聲部合唱簡譜
- 《中國河流和湖泊》填圖
- 全民所有制企事業(yè)單位專業(yè)技術(shù)人員和管理人員辭職暫行規(guī)定
- 公司危險廢物管理制度.doc
- 案防工作管理辦法銀行
- 挖掘機駁船作業(yè)專項方案
- 技術(shù)轉(zhuǎn)讓的基本理論
評論
0/150
提交評論