版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第二章臨床醫(yī)學(xué)數(shù)據(jù)采集與分析數(shù)據(jù)的概念數(shù)據(jù)(data)是對客觀事物特征狀態(tài)的記錄。如某類藥物的使用量、床位使用率、心率、血壓等生理參數(shù)數(shù)據(jù)是信息和知識的載體;信息和知識才是真正有意義的。數(shù)據(jù)的結(jié)構(gòu)數(shù)據(jù)對象(或數(shù)據(jù)記錄)一個(gè)樣本的數(shù)據(jù)記錄對應(yīng)表格的一行特征屬性表格的每一列也稱為:變量、指標(biāo)、字段、特征、維AttributesObjects屬性值字段名一條記錄的所有屬性的結(jié)合描述了這個(gè)具體對象的特征標(biāo)識變量分析變量自變量(解釋變量)反應(yīng)變量屬性與屬性值數(shù)據(jù)類型不同,值的形式也不同相同的屬性可能有不同的屬性值 例子: 高度可以用米或英尺來表示不同的屬性可能映射到相同的值的集合 例子: 雇員ID an
2、d 年齡 都用整型表示 然而,談?wù)撈骄挲g是有意義的,平均ID是無意義的ID和年齡最大值不同數(shù)據(jù)的類型數(shù)據(jù)定量(數(shù)值)連續(xù)離散定性(分類)無序二分類多項(xiàng)分類有序(半定量或等級)不同類型的分類數(shù)據(jù)在統(tǒng)計(jì)分析方法上也不同定量數(shù)據(jù)研究對象的指標(biāo)(X)表現(xiàn)為有數(shù)字大小和單位的數(shù)據(jù),又稱計(jì)量數(shù)據(jù).連續(xù)性數(shù)據(jù)(Continuous Data)身高值 (cm) :1.65,1.70 , 1.58 .體重值 (kg): 52,55,61.不連續(xù)性數(shù)據(jù)(Discrete Data)如疾病的復(fù)發(fā)次數(shù)、年齡、學(xué)習(xí)成績等。定性數(shù)據(jù)定性數(shù)據(jù)(Qualitative Data)或稱分類數(shù)據(jù)(Categorical Dat
3、a) 變量值表現(xiàn)為按某屬性劃分的定性類別分類數(shù)據(jù)的分層大于2時(shí),又稱為多分類數(shù)據(jù)。定性數(shù)據(jù)類型有無序和有序。無序數(shù)據(jù)(Nominal Categorial)二分類:如性別(男、女)、多分類:血型(A、B、O、AB型)等。有序數(shù)據(jù)(Ordinal Categorieal)如腫瘤的分級(I級、II級、III級)、疼痛的程度(輕、 中、重)等,以及在臨床研究設(shè)計(jì)中,經(jīng)??吹降摹胺浅:?、好、一般、差”這樣的數(shù)據(jù)類型。數(shù)據(jù)類型的轉(zhuǎn)換 數(shù)據(jù)的類型是可以轉(zhuǎn)換的定量數(shù)據(jù)轉(zhuǎn)換為定性或等級數(shù)據(jù)- 分組切割值確定方法以正常參考值或臨床診斷標(biāo)準(zhǔn)作為分組依據(jù)。年齡資料是計(jì)量資料,但可以按大于65歲、4565歲、小于45
4、歲分為老、中、青年3類而轉(zhuǎn)變?yōu)榈燃壻Y料 某些定量指標(biāo)尚無公認(rèn)的正常參考值,可根據(jù)均數(shù)或四分位間距值,將其分為兩組或四組。根據(jù)數(shù)據(jù)的分布特點(diǎn)和研究需要,自行確定,但要能對統(tǒng)計(jì)分析結(jié)果做出合理的解釋。數(shù)據(jù)的類型決定著所要選擇的分析方法。定量數(shù)據(jù)轉(zhuǎn)換為定性數(shù)據(jù)一般比較簡單從定性數(shù)據(jù)就無法再轉(zhuǎn)換成定量數(shù)據(jù)對兩組或多組研究單項(xiàng)的某項(xiàng)指標(biāo)進(jìn)行分析時(shí),數(shù)據(jù)從定量轉(zhuǎn)換為定性或等級數(shù)據(jù)時(shí),數(shù)據(jù)的信息量會下降。注意事項(xiàng)臨床醫(yī)學(xué)原始資料臨床醫(yī)學(xué)原始資料的收集方式直接觀察法:包括體檢標(biāo)本檢測等。采訪法:面訪、調(diào)查會及信訪電話訪問等醫(yī)學(xué)數(shù)據(jù)的特點(diǎn)隱私性(Privacy)醫(yī)學(xué)數(shù)據(jù)不可避免地涉及到患者的一些隱私信息,當(dāng)這些
5、隱私信息使患者在日常生活中遭遇到不可預(yù)料的侵?jǐn)_時(shí),就產(chǎn)生了隱私性問題。知情同意書多樣性由于醫(yī)學(xué)數(shù)據(jù)是從醫(yī)學(xué)影像、實(shí)驗(yàn)數(shù)據(jù)以及醫(yī)生與病人的交流中獲得的,所以原始的醫(yī)學(xué)數(shù)據(jù)具有多種形式。醫(yī)學(xué)數(shù)據(jù)的多樣性是它區(qū)別于其它領(lǐng)域數(shù)據(jù)的最顯著特征。不完整性醫(yī)學(xué)數(shù)據(jù)的搜集和處理過程經(jīng)常相互脫節(jié),以及一些人為因素使得醫(yī)學(xué)數(shù)據(jù)庫不可能對任何疾病信息都能全面地反映。冗余性醫(yī)學(xué)數(shù)據(jù)庫是一個(gè)龐大的數(shù)據(jù)資源,每天都會有大量的記錄存儲到數(shù)據(jù)庫中,其中可能會包含重復(fù)的、無關(guān)緊要的、甚至是相互矛盾的記錄。數(shù)據(jù)質(zhì)量 數(shù)據(jù)質(zhì)量問題: 噪聲(Noise) 離群點(diǎn)(outliers )遺漏值(missing values )重復(fù)數(shù)據(jù)(
6、 duplicate data )(1)噪聲噪聲是測量誤差的隨機(jī)部分 Examples: distortion of a persons voice when talking on a poor phone and “snow” on television screenTwo Sine WavesTwo Sine Waves + Noise測定值(X)=真值(t)+誤差(e)系統(tǒng)誤差隨機(jī)誤差(內(nèi)源性) 隨機(jī)誤差非隨機(jī)誤差/系統(tǒng)誤差儀器、方法的不一致,選擇對象偏倚、測量偏倚 未知眾多微小因素所引起數(shù)據(jù)的變異,如抽樣誤差。不能避免,有統(tǒng)計(jì)學(xué)規(guī)律性可控制和縮小誤差來源與種類(外源性)過失誤差研究者操
7、作失誤予以清除(2)離群點(diǎn)噪聲和離群點(diǎn)的區(qū)別離群點(diǎn)可以是合法的數(shù)據(jù)對象或值,不像噪聲,離群點(diǎn)本身可以是令人感興趣的例子:欺詐和網(wǎng)絡(luò)攻擊檢測中,目標(biāo)就是從大量正常對象或事件中發(fā)現(xiàn)不正常的對象和事件離群值和極端值離群值(outliner) 與P25或P75的距離為“四分位數(shù)間距”的1.53.0倍。極端值(extreme value) 與P25或P75的距離為“四分位數(shù)間距”的3.0倍以上。剔除離群或極端值要予以合理解釋。發(fā)現(xiàn)可疑值后,首先應(yīng)從專業(yè)、技術(shù)與操作方面進(jìn)行檢查,尋找可能發(fā)生失誤的原因。若查明屬于粗枝大葉、中途條件改變、未遵守操作規(guī)程、儀器或試劑失靈等,則應(yīng)舍棄該可疑值。如身高1755cm
8、數(shù)據(jù)無明顯的邏輯錯(cuò)誤,可將數(shù)據(jù)剔除前后各做一次分析,若結(jié)果不矛盾可以不剔除。否則,需要剔除,并給出充分合理的解釋,如,用何種方法確定偏離數(shù)據(jù),該數(shù)據(jù)在實(shí)驗(yàn)中何種干擾下產(chǎn)生等(3)遺漏值產(chǎn)生遺漏值的原因信息未收集到例如:血脂或血糖因?yàn)檠辶坎蛔慊蜓芯繉ο缶芙^采血而導(dǎo)致某些研究對象實(shí)驗(yàn)室的檢測結(jié)果成為缺失數(shù)據(jù)。 屬性并不能用于所有對象例如:填寫學(xué)歷后,填寫專業(yè),研究方向處理遺漏值刪除數(shù)據(jù)對象或?qū)傩怨烙?jì)遺漏值在分析時(shí)忽略遺漏值(4)重復(fù)數(shù)據(jù)數(shù)據(jù)集可能包含重復(fù)或幾乎重復(fù)的數(shù)據(jù)對象例1:許多人收到重復(fù)的郵件例2:不同數(shù)據(jù)庫收集的蛋白質(zhì)互作數(shù)據(jù)和通路數(shù)據(jù)的重復(fù)例3:重復(fù)序列,如rRNA基因、tRNA基因和
9、某些蛋白質(zhì)(如組蛋白、肌動蛋白等)的基因序列例4:旁系同源基因合并重復(fù)數(shù)據(jù)數(shù)據(jù)的轉(zhuǎn)換偏態(tài)分布資料數(shù)據(jù)轉(zhuǎn)換 數(shù)據(jù)變量轉(zhuǎn)換的方法很多,可以根據(jù)數(shù)據(jù)的分布特征,選擇合適的數(shù)據(jù)轉(zhuǎn)換方法。常用的方法有對數(shù)變換,平方根變換或倒數(shù)變換等。 數(shù)據(jù)轉(zhuǎn)換的目的:使偏態(tài)分布接近正態(tài)分布;消除多組資料均數(shù)與標(biāo)準(zhǔn)差的正比關(guān)系。多見于用百分比做觀察結(jié)果的數(shù)值變量資料。資料類型的轉(zhuǎn)換數(shù)據(jù)的整理將數(shù)據(jù)存儲成規(guī)范的表格形式基于臨床數(shù)據(jù)發(fā)現(xiàn)廣義知識計(jì)量資料的統(tǒng)計(jì)描述分類資料的統(tǒng)計(jì)描述計(jì)量資料的統(tǒng)計(jì)描述概念:即用少量幾個(gè)統(tǒng)計(jì)指標(biāo)刻畫出原始數(shù)據(jù)的特征稱為統(tǒng)計(jì)描述。計(jì)量資料的統(tǒng)計(jì)描述方法:1. 通過頻數(shù)表描述數(shù)據(jù)特征2.用統(tǒng)計(jì)指標(biāo) 定
10、量描述數(shù)據(jù)的特征。 計(jì)量資料的頻數(shù)表(大樣本數(shù)據(jù))頻數(shù)表:將變量值分為不同數(shù)量的組段,清點(diǎn)各組段的例數(shù)。意義:概括了解變量值在各組段中的分布范圍和規(guī)律。例: 表1例1 從某單位1999年的職工體檢資料中獲得101名正常成年女子的血清總膽固醇(mmol/L )的測量結(jié)果 2.354.213.325.354.174.132.784.263.584.344.844.414.783.953.923.583.664.283.263.52.74.614.752.913.914.594.192.684.524.913.183.684.833.873.953.914.154.554.83.414.123.95
11、5.084.533.923.585.353.843.63.514.063.073.554.233.574.833.523.844.53.964.53.274.523.194.593.753.984.134.263.633.875.713.34.734.175.133.784.573.83.933.783.994.484.284.065.265.253.985.033.513.863.023.74.333.293.254.154.364.953.003.26計(jì)量資料編制頻數(shù)表的步驟例1數(shù)據(jù) 1.確定全距(R)=最大值 最小值DATA=importdata(E:本科課程生物醫(yī)學(xué)數(shù)據(jù)挖掘第二章 例1
12、.xls);max(DATA) ; min(DATA)2.定組數(shù)(8-15組)和組距:大概分成10組3.36/10=0.3360.33.寫出組段:第1組段小于或等于最小值,并以整數(shù)(0,5或2,4,6,8)較好。4.劃計(jì)并計(jì)數(shù)(見表2-3)表2-1 101名正常成年女性血清總膽固醇頻數(shù)表 組段 頻數(shù)(f) f(%) 2.3- 1 1.0 2.6- 3 3.0 2.9- 6 6.0 3.2- 8 8.0 3.5- 17 17.0 3.8- 20 20.0 4.1- 17 17.0 4.4- 12 12.0 4.7- 9 9.0 5.0- 5 5.0 5.3- 2 2.0 5.6- 5.9 1 1
13、.0 合計(jì) 101 100.0頻數(shù)表及分布圖的用途1. 通過頻數(shù)表了解數(shù)據(jù)的分布特征。X值分布情況:偏態(tài)或正態(tài)分布取值情況:變量值取值范圍集中趨勢:變量值集中位置。2.便于發(fā)現(xiàn)資料中的可疑值。3.組段的頻率作為概率的估計(jì)。例:表2-1資料頻數(shù)分布圖直方圖圖2-1 101名正常成年女性血清總膽固醇頻數(shù)分布頻數(shù)血清總膽固醇正態(tài)分布連續(xù)變量的指標(biāo)集中趨勢指標(biāo)平均數(shù):算數(shù)平均數(shù)、幾何平均數(shù)、中位數(shù)、眾數(shù)離散趨勢指標(biāo)變異指標(biāo):極差、標(biāo)準(zhǔn)差、方差、標(biāo)準(zhǔn)誤、變異系數(shù)經(jīng)常和統(tǒng)計(jì)圖(如直方圖,柱形圖,折線圖,散點(diǎn)圖等)配合使用。集中趨勢指標(biāo)平均數(shù)用于描述一組同質(zhì)計(jì)量資料的集中趨勢,反映一組觀察值的平均水平或者一
14、個(gè)分布的平均位置的指標(biāo)作用:是一組計(jì)量數(shù)據(jù)平均水平的代表值;可作為不同組間的比較值。平均數(shù)的種類算術(shù)平均數(shù)幾何平均數(shù)中位數(shù)眾數(shù)調(diào)和平均數(shù)集中趨勢指標(biāo)算術(shù)平均數(shù) (mean),簡稱均數(shù),常用 表示定義:是一群已知性質(zhì)相同的數(shù)值之和除以數(shù)值個(gè)數(shù)的商數(shù)。適用條件:頻數(shù)為正態(tài)或近似正態(tài)分布的計(jì)量資料計(jì)算方法直接計(jì)算法加權(quán)計(jì)算法注意事項(xiàng)同質(zhì)對稱表2-2 101名正常成年女性血清總膽固醇頻數(shù)表 組段 頻數(shù)(f) 組中值X fX 2.3- 1 2.45 2.45 2.6- 3 2.75 8.25 2.9- 6 3.05 18.30 3.2- 8 3.35 3.5- 17 3.65 3.8- 20 3.95
15、4.1- 17 4.25 4.4- 12 4.55 4.7- 9 4.85 5.0- 5 5.15 5.3- 2 5.45 5.6- 5.9 1 5.75 合計(jì) 101 409.7加權(quán)法公式計(jì)算頻數(shù)(f)作為X值的權(quán)數(shù)集中趨勢指標(biāo)幾何平均數(shù)(Geometric mean)適用條件:不呈正態(tài)分布,差距較大,X值呈倍數(shù)增長或部分?jǐn)?shù)據(jù)偏離過的大偏態(tài)分布(正偏態(tài))資料59名鏈球菌咽喉炎患者潛伏期正偏態(tài)分布幾何平均數(shù)計(jì)算方法直接法加權(quán)法注意事項(xiàng)觀察值不能小于或等于零觀察值不能同時(shí)有正值和負(fù)值同一組資料求得的幾何均數(shù)小于算術(shù)均數(shù)或例3 某地5例微絲蚴血癥患者治療7年后用間接熒光抗體試驗(yàn)測得其抗體滴度分別為1/10,1/20,1/40,1/80,1/160,求幾何均數(shù)。結(jié)論:平均抗體滴度為1:34(幾何均數(shù)法)直接法,例數(shù)較少用表2-3 69例RA患者血清EBV-lgG抗體測定結(jié)果滴度倒數(shù) X 人數(shù) f lgX flgX1041.00004.00002031.30103.903040101.602116.021080101.903119.0310160112.204124.2451320152.505137.5765640142.806239.28681280 23.1072 6.2144合計(jì)69150.2778
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 超聲波和次聲波課件
- 《PDA發(fā)展與介紹》課件
- 單位管理制度展示大全【人事管理】十篇
- 單位管理制度展示大合集【人力資源管理篇】十篇
- 策略深度研究:當(dāng)前還有哪些高股息值得關(guān)注
- 全程編制棉絲絨項(xiàng)目可行性研究報(bào)告方案可用于立項(xiàng)及銀行貸款+201
- 2024-2026年中國微信公眾號市場調(diào)查研究及行業(yè)投資潛力預(yù)測報(bào)告
- 可行性項(xiàng)目研究報(bào)告電子類
- 2024河南金屬及金屬礦批發(fā)市場前景及投資研究報(bào)告
- 2025年鹽酸酯項(xiàng)目可行性研究報(bào)告
- 2025北京朝陽初二(上)期末數(shù)學(xué)真題試卷(含答案解析)
- 做賬實(shí)操-科學(xué)研究和技術(shù)服務(wù)業(yè)的賬務(wù)處理示例
- 2025年人教版歷史八上期末復(fù)習(xí)-全冊重難點(diǎn)知識
- 2024年國家安全員資格考試題庫及解析答案
- 山東省濱州市2023-2024學(xué)年高一上學(xué)期1月期末考試 政治 含答案
- 儀控技術(shù)手冊-自控專業(yè)工程設(shè)計(jì)用典型條件表
- 法務(wù)崗位招聘筆試題及解答(某大型國企)2025年
- 《慶澳門回歸盼祖國統(tǒng)一》主題班會教案
- 洗衣房工作人員崗位職責(zé)培訓(xùn)
- 廣東省深圳市光明區(qū)2022-2023學(xué)年五年級上學(xué)期數(shù)學(xué)期末試卷(含答案)
- XX小區(qū)春節(jié)燈光布置方案
評論
0/150
提交評論