版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
2023/2/3
數(shù)據(jù)統(tǒng)計(jì)學(xué)處理方法與選擇第一部分?jǐn)?shù)據(jù)輸入與整理一、原始數(shù)據(jù)的錄入1、原始數(shù)據(jù)的記錄形式
醫(yī)學(xué)研究的原始數(shù)據(jù)常列成類似下表的二維結(jié)構(gòu),即行與列結(jié)構(gòu)的數(shù)據(jù)集形式。每一行稱為一個(gè)記錄(record),或一個(gè)觀察單位(case);每一列稱為一個(gè)變量Variable),用以表示變量、項(xiàng)目或觀察指標(biāo)等。腎衰病人預(yù)后分析臨床資料病人編號病案號性別年齡生理評分腎毒性黃疸昏迷肌酐膽固醇腎功能預(yù)后1004757男2614無有無5204.1治愈2007950女3113無無無5234.5治愈3011093男5517無無無2093.3治愈4017555男259有無無10334.1未愈...........274279183女7815有無無3316.1未愈2、原始數(shù)據(jù)的錄入
在進(jìn)行統(tǒng)計(jì)分析前,原始數(shù)據(jù)需錄入計(jì)算機(jī)。錄入的文件類型大致有:數(shù)據(jù)庫文件,如dBASE、FoxBASE、Lotus、EPIinfo等;Excel文件;統(tǒng)計(jì)應(yīng)用軟件的相應(yīng)文件,如SPSS數(shù)據(jù)文件、SAS數(shù)據(jù)文件、STATA數(shù)據(jù)文件等。目前,上述文件類型絕大多數(shù)都可以相互轉(zhuǎn)換。
錄人數(shù)據(jù)時(shí),應(yīng)遵循便于錄入,便于核查,便于轉(zhuǎn)換,便于分析的原則。便于錄入是指盡可能地減少錄入工作量,錄入時(shí),用數(shù)值變量取代了字符變量,可以大大節(jié)約錄入的時(shí)間和費(fèi)用。便于核查是指一定要設(shè)有標(biāo)識變量,以方便數(shù)據(jù)核查。便于轉(zhuǎn)換是指錄入數(shù)據(jù)時(shí)要考慮不同軟件對字節(jié)和字符的要求,便于分析是指每項(xiàng)研究最好錄成一個(gè)數(shù)據(jù)文件,錄入的格式滿足各種統(tǒng)計(jì)分析的需要,這樣才能保證分析數(shù)據(jù)時(shí)的高效和全面。馮啟明2023/2/3二、輸入數(shù)據(jù)的質(zhì)量控制1、數(shù)據(jù)核查數(shù)據(jù)錄入后,首先須對錄入的數(shù)據(jù)進(jìn)行核查,以確保錄入數(shù)據(jù)的準(zhǔn)確性和真實(shí)性。核查準(zhǔn)確性可分兩步進(jìn)行。第一步邏輯檢查,通過運(yùn)行統(tǒng)計(jì)軟件中的基本統(tǒng)計(jì)量過程,列出每個(gè)變量的最大值與最小值,如果某變量的最大值或最小值不符合邏輯,則數(shù)據(jù)有誤;第二步將原始數(shù)據(jù)與輸入數(shù)據(jù)進(jìn)行核對,更正錯(cuò)誤。在一些大型數(shù)據(jù)的錄入過程中,為保證數(shù)據(jù)的質(zhì)量,往往采用對同一資料進(jìn)行雙人重復(fù)錄入的方法,然后應(yīng)用程序?qū)蓚€(gè)數(shù)據(jù)庫進(jìn)行比對,如有錄入結(jié)果不符,則進(jìn)行核查,找出其錯(cuò)誤所在。二、輸入數(shù)據(jù)的質(zhì)量控制2、缺失值的處理在資料收集過程中,特別是大型數(shù)據(jù)的收集,不可避免的會(huì)有一些缺失值產(chǎn)生,這主要來自于資料收集中的漏填和漏報(bào)。通常認(rèn)為,缺失值應(yīng)控制在數(shù)據(jù)記錄總量的10%以內(nèi)。在計(jì)算機(jī)的數(shù)據(jù)錄入過程中,要注意把缺失值和“0”區(qū)分開來,“0”通常用來表示“無”,即該事件未發(fā)生,具有確切的含義,表明該數(shù)據(jù)已收集到;而缺失值表示該數(shù)據(jù)未填或未收集,兩者要注意區(qū)分,以免混淆。在一般的數(shù)據(jù)庫軟件中,缺失值通常都用“.”表示。二、輸入數(shù)據(jù)的質(zhì)量控制2、缺失值的處理
在資料分析中,如一例記錄的某個(gè)變量有缺失值,統(tǒng)計(jì)分析軟件都會(huì)自動(dòng)把該例作刪除處理。因此,當(dāng)資料可避免地產(chǎn)生了缺失值,而該例記錄由于其他的變量仍有統(tǒng)計(jì)分析的價(jià)值,或者當(dāng)刪除該例記錄后樣本例數(shù)太少,不能保證數(shù)據(jù)分析結(jié)果的可靠性時(shí),則可用一些統(tǒng)計(jì)學(xué)方法對缺失值進(jìn)行填補(bǔ)。對缺失值進(jìn)行估計(jì)填補(bǔ)具體方法,可參閱有關(guān)文獻(xiàn)。
二、輸入數(shù)據(jù)的質(zhì)量控制3、離群數(shù)據(jù)的處理
當(dāng)個(gè)別數(shù)據(jù)與群體數(shù)據(jù)嚴(yán)重偏離時(shí),被稱為離群數(shù)據(jù)(outlier)。判斷離群數(shù)據(jù)的方法可通過觀察數(shù)據(jù)的頻數(shù)表或直方圖進(jìn)行初步判斷;統(tǒng)計(jì)軟件一般都有判斷離群數(shù)據(jù)的方法,例如,SPSS軟件對其的定義為:觀察值距箱式圖(boxplot)的箱體底線(第25百分位數(shù))或頂線(第75百分位數(shù))的距離為箱體高度(四分位數(shù)間距)的1.5倍至3倍時(shí)被視為離群點(diǎn),觀察值距箱體底線或頂線的距離超過3倍的箱體高度時(shí)被視為極端值。
二、輸入數(shù)據(jù)的質(zhì)量控制3、離群數(shù)據(jù)的處理若有離群數(shù)據(jù)出現(xiàn),可分為兩種情況處理:(1)如果確認(rèn)數(shù)據(jù)有邏輯錯(cuò)誤,又無法糾正,可直接刪除該數(shù)據(jù)。例如,若某一數(shù)據(jù)中某病例的身高變量為“1755”cm,且原始記錄亦如;又無法再找到該病例時(shí),顯然這是一個(gè)錯(cuò)誤的記錄,只能刪除。(2)若數(shù)據(jù)并無明顯的邏輯錯(cuò)誤,可將該數(shù)據(jù)剔除前后各做一次分析,若結(jié)果不矛盾,則不剔除;若結(jié)果矛盾,并需要剔除,必須給以充分合理的解釋,例如用何種方法確定偏離數(shù)據(jù),該數(shù)據(jù)在實(shí)驗(yàn)中何種干擾下產(chǎn)生等。第二部分?jǐn)?shù)據(jù)統(tǒng)計(jì)描述方法的選擇總體樣本統(tǒng)計(jì)推斷抽樣抽樣誤差一、計(jì)量資料的描述某市抽查187名賓館女性服務(wù)人員年齡資料如下
254033182225333035182420222225262428184021…………….192220223329384022181920252429313228262519187名賓館女性服務(wù)人員年齡分布年齡分組(歲)頻數(shù)<202120~4925~8930~19>=359
計(jì)量資料統(tǒng)計(jì)描述集中趨勢離散趨勢均數(shù)幾何均數(shù)中位數(shù)全距四分位數(shù)間距方差標(biāo)準(zhǔn)差變異系數(shù)計(jì)量資料描述的常用統(tǒng)計(jì)指標(biāo)選擇集中趨勢指標(biāo)
適用范圍離散趨勢指標(biāo)
適用范圍
均數(shù)正態(tài)分布或?qū)ΨQ分布資料四分位數(shù)間距Q75-Q25偏態(tài)數(shù)據(jù)或“開口數(shù)據(jù)”幾何均數(shù)
G對數(shù)正態(tài)分布或成倍數(shù)關(guān)系的數(shù)據(jù)標(biāo)準(zhǔn)差
S正態(tài)分布或?qū)ΨQ分布資料中位數(shù)
M偏態(tài)數(shù)據(jù)或“開口數(shù)據(jù)”某市抽查187名賓館女性服務(wù)人員年齡資料如下
254033182225333035182420222225262428184021…………….192220223329384022181920252429313228262519187名賓館女性服務(wù)人員年齡分布年齡分組(歲)頻數(shù)<202120~4925~8930~19>=359
現(xiàn)檢測出11名梅毒患者的血清梅毒抗體滴度如下,請計(jì)算其平均抗體滴度。1:51:201:401:801:801:801:1601:1601:3201:3201:640數(shù)據(jù)之間呈倍數(shù)關(guān)系-幾何均數(shù)艾滋病患者月均收入的頻數(shù)表月均收入(天)人數(shù)<50031500~141000~131500~82000~6>=25002合計(jì)74偏態(tài)分布與開口資料,采用中位數(shù)(M)與四分位數(shù)間距(Q75-Q25)描述某人收集到如下的統(tǒng)計(jì)資料,從資料表達(dá)方式的角度看,存在的主要錯(cuò)誤是什么?該資料應(yīng)如何進(jìn)行表達(dá)?艾滋病患者某藥治療前后CD4測定結(jié)果
明顯偏態(tài)資料-采用中位數(shù)描述平均水平,由于例數(shù)太少,采用最大值-最小值反映離散。
治療例數(shù)
治療前1924±38治療后191008±1586標(biāo)準(zhǔn)差大于均數(shù),提示明顯偏態(tài)。二、分類資料的統(tǒng)計(jì)描述案例1請選擇適當(dāng)指標(biāo)描述該兩組資料結(jié)果。資料類型多項(xiàng)無序分類資料
艾滋病健康教育干預(yù)組與對照組的職業(yè)構(gòu)成組別例數(shù)工人個(gè)體戶職員其他干預(yù)照組12030403020合計(jì)27050907060案例2請選擇適當(dāng)指標(biāo)描述兩組結(jié)果。兩項(xiàng)分類資料
兩方法治療尖銳濕疣療效比較
組別例數(shù)有效無效A方法15011238B方法13011812案例3
等級資料(多項(xiàng)有序分類資料)請選擇適當(dāng)指標(biāo)描述兩組結(jié)果。
兩方法治療尖銳濕疣療效比較
組別例數(shù)控制顯效有效無效A方方/p>
資料統(tǒng)計(jì)描述方法計(jì)量資料分類資料集中趨勢離散趨勢計(jì)數(shù)資料等級資料均數(shù)幾何均數(shù)中位數(shù)全距四分位數(shù)間距方差標(biāo)準(zhǔn)差變異系數(shù)二項(xiàng)分類資料多項(xiàng)無序分類資料
率
構(gòu)成比
構(gòu)成比
據(jù)表中某地、某年梅毒監(jiān)測資料,計(jì)算各年齡的構(gòu)成比和梅毒報(bào)告發(fā)病率
某地、某年梅毒監(jiān)測資料年齡(歲)人口數(shù)梅毒報(bào)告數(shù)構(gòu)成比/%發(fā)病率(1/萬)0-5894521920-65493519430-43256750340-123794536>=5031129261
合計(jì)1831877
1513
第三部分統(tǒng)計(jì)學(xué)假設(shè)檢驗(yàn)方法的選擇
選擇統(tǒng)計(jì)方法的基本思路:
反應(yīng)變量是單變量、雙變量或多變量
數(shù)據(jù)屬于哪種類型資料:計(jì)量資料、計(jì)數(shù)資料或等級資料(針對單變量數(shù)據(jù))數(shù)據(jù)所屬的設(shè)計(jì)類型:完全隨機(jī)設(shè)計(jì)、配對設(shè)計(jì)、隨機(jī)區(qū)組設(shè)計(jì)或其他設(shè)計(jì)
影響因素是單因素還是多因素
數(shù)據(jù)是單一樣本、兩組樣本還是多組樣本
數(shù)據(jù)是否符合擬采用的統(tǒng)計(jì)分析方法的應(yīng)用條件
(一)單變量計(jì)量資料的分析1、樣本均數(shù)于已知總體均數(shù)比較1、一般健康孕婦生產(chǎn)男孩的出生體重為3kg。隨機(jī)抽樣調(diào)查某地某年15名梅毒感染孕婦生產(chǎn)男孩的出生體重,得如下數(shù)據(jù),問:問梅毒感染孕婦與健康孕婦生產(chǎn)男孩的出生體重是否有差異?樣本均數(shù)與總體均數(shù)比較15名梅毒感染孕婦生產(chǎn)男孩的出生體重(kg):1.82.22.52.61.61.81.92.62.21.92.02.52.61.72.0馮啟明2023/2/3
(一)單變量計(jì)量資料的分析2、配對樣本均數(shù)比較3、兩樣本均數(shù)比較40名艾滋病患者隨機(jī)分為兩組,分別給予A藥和B藥治療,治療后艾滋病患者血液CD4含量如下,請比較兩組患者治療后CD4差異。完全隨機(jī)設(shè)計(jì)兩樣本均數(shù)比較
治療后艾滋病患者血液CD4含量A藥200,250,300,500,1005,350,280,450,600,780B藥1400,1250,1580,1890,9001104,1589,789,698,1560兩種方法檢測7名艾滋病患者的血液CD4含量,所得結(jié)果如下。問:甲乙兩法檢出CD4含量是否相同,用何統(tǒng)計(jì)方法?
樣本號1234567
乙法270540125500485185650
甲法329602101625508175761
配對設(shè)計(jì)計(jì)量資料
(一)單變量計(jì)量資料的分析4、多個(gè)樣本均數(shù)比較
某研究者將27只感染艾滋病雄性猩猩隨機(jī)分成三組(每組9只),給予不同處理,觀察12周。測定。處理前后血液中的CD4升高值見下表。問三組的CD4升高值是否相同?
A藥組B藥組C藥組365348360394355368373319386375354369358352352370356371350324374410356368360350372完全隨機(jī)設(shè)計(jì)多樣本比較A藥B藥C藥1.671.772.102.042.032.071.381.451.481.021.091.071.291.151.921.321.051.281.171.261.082.121.872.071.641.721.651.751.852.451.651.561.38按性別相同、年齡相近、病情相近把33例艾滋病患者配成11個(gè)區(qū)組,每區(qū)組3個(gè)患者,分別給予A藥、B藥和C藥治療。治療后患者血漿中的IGA含量見表。問經(jīng)三種不同藥物治療后該病患者血漿中IGA含量有無差別?
隨機(jī)區(qū)組設(shè)計(jì)計(jì)量資料
某醫(yī)院用某中藥給8名吸毒者戒毒,在治療前、治療后一周、二周、三周和四周分別測定患者的血清谷丙轉(zhuǎn)氨酶SGPT的變化,其數(shù)據(jù)如表5-2所示,試分析各周SGPT值的差別是否有顯著性意義。單因素重復(fù)測量數(shù)據(jù)方差分析組別受試號
監(jiān)測時(shí)間(小時(shí))1234膠囊組19.7354.6155.946.8125.5050.8779.9062.3737.9623.4364.1056.0042.3718.6373.1076.0552.3755.2493.3565.4766.5032.0873.4576.27片劑組70.8425.0053.8044.2580.6817.3464.5661.0692.1414.1069.7766.65102.3053.4073.8362.00116.1725.8545.8053.80122.4553.3058.8057.80
將12名吸毒者隨機(jī)分為兩組,每組6名,采用某種藥物進(jìn)行治療戒毒,一組服用膠囊,另一組服用片劑。分別于服藥后1,2,3,4小時(shí)測定血藥濃度,血藥濃度檢測結(jié)果見下表。試比較兩種劑型服用后血藥濃度有無差別?兩因素重復(fù)測量數(shù)據(jù)方差分析22例艾滋病患者隨機(jī)分成兩組:A藥組,B藥組。從治療開始日開始隨訪,隨訪時(shí)間(月)如下。試比較兩組的療效有無差異,(帶+者為截尾數(shù)據(jù))。
A組1,2,3,5,6,9+,11,13,16,26,37+B組:10,11+,14,18,22,22,26,32,38,
40+,42+生存數(shù)據(jù),宜用Log-rank檢驗(yàn)(二)單變量計(jì)數(shù)資料的分析1、兩個(gè)率比較
據(jù)以往調(diào)查數(shù)據(jù),某地女性梅毒發(fā)病率一般為1.2%。某人在當(dāng)?shù)嘏苑?wù)人員中抽查400名,檢測出8例梅毒。問該地女性服務(wù)人員梅毒發(fā)病率是否高于一般女性?樣本率與總體率比較-基于二項(xiàng)分布的直接概率法
根據(jù)以往觀察,一般35歲以上孕婦有10%發(fā)生流產(chǎn)?,F(xiàn)某醫(yī)院觀察35歲以上患梅毒孕婦254例,有60例發(fā)生流產(chǎn)。問35歲以上梅毒患者是否較容易流產(chǎn)?樣本率與總體率比較-基于二項(xiàng)分布的u檢驗(yàn)法
某醫(yī)院將376例淋病患者隨機(jī)分為兩組,分別用中藥和西藥治療,結(jié)果見表7-1。問兩種藥物療效的差別有無意義?兩樣本率比較-四格表X2檢驗(yàn)(二)單變量計(jì)數(shù)資料的分析2、行×列表資料比較當(dāng)生殖器出現(xiàn)異常時(shí),外展服務(wù)干預(yù)前后女性服務(wù)從業(yè)人員求醫(yī)行為見下表,請比較干預(yù)前后女性服務(wù)從業(yè)人員求醫(yī)行為差異有統(tǒng)計(jì)學(xué)意義。行×列表X2檢驗(yàn)
干預(yù)前后女性從業(yè)人員求醫(yī)行為比較(%)求醫(yī)行為干預(yù)前(n=187)干預(yù)后(n=173)X2P公立醫(yī)院就診37.478.972.8720.000私人診所就診43.411.5自己買藥處理19.29.6
采用兩種方法檢測女性服務(wù)人員梅毒感染率,結(jié)果如表所示,問兩種方法的檢出率差別有無統(tǒng)計(jì)學(xué)意義?配對設(shè)計(jì)計(jì)數(shù)資料X2檢驗(yàn)A方法合計(jì)
陽性陰性B方法陽性2080100陰性2575100
合計(jì)45155200某醫(yī)院用三種方案治療淋病254例,結(jié)果如下,問三組療效有無差別?
組別無效好轉(zhuǎn)顯效痊愈合計(jì)西藥組
4931515100中藥組45922480中西藥組1528112074合計(jì)109683839254不宜用X2檢驗(yàn),要采用秩和檢驗(yàn)(三)單變量等級資料的分析1、兩組等級資料比較
有9個(gè)艾滋病血液樣品分成兩份,分別在溫度為80℃和20℃的條件下加入相同顯色劑,結(jié)果如下,請比較兩種溫度下的顯色效應(yīng)差異
溫度顯色效應(yīng)12345678980℃深深深中淺深深深中20℃淺淺淺淺淺中淺淺淺配對設(shè)計(jì)等級資料-配對設(shè)計(jì)秩和檢驗(yàn)?zāi)翅t(yī)院對比兩種療法對梅毒治療效果,結(jié)果如下,問兩組的療法是否有差別?
組別觀察例數(shù)愈合
好轉(zhuǎn)無效A療法
625471B療法
6444119合計(jì)126981810兩樣本等級資料,不宜用X2檢驗(yàn),要采用秩和檢驗(yàn)(三)單變
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《偵查策略》課件
- 外陰濕疹的臨床護(hù)理
- 孕期中暑的健康宣教
- 傳導(dǎo)性耳鳴的健康宣教
- 這位廳官的講話火了
- 雙曲線定義課件
- 你們想錯(cuò)了課件
- 化膿性腮腺炎的健康宣教
- 科學(xué)探究:物質(zhì)的比熱容課件滬科
- 鼻毛孔粗大伴白色分泌物的臨床護(hù)理
- 2024版國開電大??啤禘CEL在財(cái)務(wù)中的應(yīng)用》在線形考(形考作業(yè)一至四)試題及答案
- 英國文學(xué)史及選讀試題及答案
- 新國際政治學(xué)概論(第三版)-教學(xué)課件-陳岳-109503國際政治學(xué)概論(第三版)
- 知識產(chǎn)權(quán)維權(quán)授權(quán)書
- 焊接工藝優(yōu)化與提高焊接效率
- 整理收納師職業(yè)規(guī)劃
- 工商管理就業(yè)去向分析報(bào)告
- 2024年度醫(yī)院心胸外科護(hù)士長述職報(bào)告課件
- (期末押題最后一卷)期末綜合測試預(yù)測卷-2023-2024學(xué)年六年級上學(xué)期科學(xué)高頻易錯(cuò)期末提高必刷卷(蘇教版)
- 博鰲機(jī)場控制區(qū)證件培訓(xùn)試題 C
- 剪映專業(yè)版使用方法教程大全
評論
0/150
提交評論