透析證候研究中變量聚類結(jié)果_第1頁
透析證候研究中變量聚類結(jié)果_第2頁
透析證候研究中變量聚類結(jié)果_第3頁
透析證候研究中變量聚類結(jié)果_第4頁
透析證候研究中變量聚類結(jié)果_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、透析證候研究中變量聚類結(jié)果近年來,有不少學(xué)者利用系統(tǒng)變量聚類方法對(duì)西醫(yī)病種中中醫(yī)癥狀的分布 情況進(jìn)行研究。例如,麻氏等1通過對(duì)739例膽病病案進(jìn)行分析,得到9 個(gè)類,并把它們分別詮釋為肝膽濕熱證、肝膽郁熱證、肝膽蘊(yùn)熱證、肝膽 氣郁證、血瘀證、脾失健運(yùn)證、陽虛寒濕證、陰虛內(nèi)熱證和熱毒亡陽證。筆者剖析系統(tǒng)變量聚類結(jié)果的統(tǒng)計(jì)學(xué)含義,并基于此討論把它們?cè)忈尀樽C 候的合理性。我們的結(jié)論是,變量聚類的結(jié)果不能詮釋為證候。1變量聚類結(jié)果的統(tǒng)計(jì)學(xué)含義在麻氏等2分析的膽病數(shù)據(jù)中,癥狀變量全部是二值的。分析所得的變 量類z如下。類1:發(fā)熱寒戰(zhàn)、右上腹壓痛拒按、黃疸、惡心嘔吐、右上腹疼痛、大便 秘結(jié)、小便色黃、苔黃

2、、苔膩、脈滑、脈眩、口苦。本節(jié)以這個(gè)類為例,剖析系統(tǒng)變量聚類結(jié)果的含義。要準(zhǔn)確把握這個(gè)類的 含義,需??紤]3個(gè)因素,即“變量”與“事件”這兩個(gè)概念的區(qū)別、變 量間相似系數(shù)的定義以及變量類間相似系數(shù)的定義。下面逐一討論這3個(gè) 因素。1. 1變量與事件變量是刻畫事物某方面特征的指標(biāo),它的每一個(gè)取值對(duì)應(yīng)個(gè)事件。先拿 概率論中常用的拋擲碩幣試驗(yàn)為例來解釋這兩概念。拋擲碩幣試驗(yàn)可以從 多個(gè)方面來看:使用的硬幣是否質(zhì)地均勻、拋擲方式如何、拋擲結(jié)果是什 么等等?!皰仈S結(jié)果”這個(gè)指標(biāo)刻畫試驗(yàn)一個(gè)方面的特征,因此它是一個(gè) 變量。這個(gè)變量有兩個(gè)可能的取值,即“正面朝上”和“反面朝上”。于 是有兩個(gè)事件,即“拋擲結(jié)

3、果正面朝上”和“拋擲結(jié)果反面朝上”。接下來看一個(gè)中醫(yī)的例子?!坝袩o口苦”是反映患者身體一個(gè)方面特征的 指標(biāo),因此它是個(gè)變量,稱為癥狀變量。它有兩個(gè)可能的取值,即“冇” 和“無”。于是有兩個(gè)癥狀事件,即“(患者)有口苦”和“(患者)無口 苦”。如果要考慮不同輕重程度,相應(yīng)的變量是“ 口苦程度”。一般情況 下,程度變量有4個(gè)可能的取值,即“無”、“輕”、“中”和“重”。于是 有4個(gè)癥狀事件,即“無口苦”、“有輕度口苦”、“有中度口苦”和“有重 度口苦”。為了統(tǒng)一二值和多值情況下癥狀變量的稱謂,可以用“口苦情 況”來替代“有無口苦”和“ 口苦程度”。“有口苦”這個(gè)詞通常被簡化為“口苦”。同時(shí),“口苦

4、情況”也被簡化為 “口苦”。這樣,“口苦”時(shí)而指“口苦情況”這個(gè)變量,時(shí)而又指“有口 苦”這個(gè)事件。在下一節(jié)讀者將會(huì)看到,這種歧義性造成了對(duì)變量聚類結(jié) 果之含義的誤解。顧名思義,變量聚類的對(duì)象是變量而不是事件,其結(jié)果是變量的類而不是 事件的類。所以,類1的成員是“口苦情況”等癥狀變量,而不是“有口 苦”等癥狀事件。為了避免誤解,我們把類1的定義改寫如下。類發(fā)熱寒戰(zhàn)情況、右上腹壓痛拒按情況、黃疸情況、右上腹疼痛情況、 惡心嘔吐情況、大便秘結(jié)情況、小便色黃情況、苔黃情況、苔膩情況、脈 滑情況、脈弦情況、口苦情況。12變量類相似系數(shù)“口苦情況”等12個(gè)癥狀變量為什么會(huì)被聚成一類呢?它們被聚成一類 這

5、件事的含義是什么? 一個(gè)粗略的回答是,這意味著“口苦情況”等12 個(gè)癥狀變量之間的相似度高。如果耍準(zhǔn)確回答這個(gè)問題,則需??紤]如何 基于變量之間的相似系數(shù)定義類之間的相似系數(shù)。常用的方法冇最大相似系數(shù)法、最小相似系數(shù)法和平均相似系數(shù)法。在計(jì) 算兩個(gè)類a和b間的相似系數(shù)時(shí),考慮a中變量與b中變量間的相似系數(shù)。 最大相似系數(shù)法取其最大者,最小相似系數(shù)法取其最小者,而平均相似系 數(shù)法取平均數(shù)2。如果類1是用最大相似系數(shù)法獲得的,那么對(duì)類中任意一個(gè)變量v,類中 冇另外一個(gè)變量u使得v和u間的相似系數(shù)不低于某個(gè)閾值。如果類1是 用最小相似系數(shù)法獲得的,那么類中任意兩個(gè)變量間的相似系數(shù)不低于某 個(gè)閾值。如

6、果類1是用平均相似系數(shù)法獲得的,那么類中變量間的相似系 數(shù)的平均值不低于某個(gè)閾值2。上面提到閾值是怎樣決定的呢?在獲得類1的過程中,需要合并多對(duì)變量 類,而每對(duì)類之間都有一個(gè)相似系數(shù)。這些相似系數(shù)的最小者就是上面說 的閾值。一般說,最大相似系數(shù)法的閾值最大,平均相似系數(shù)法的閾值次 z,最小相似系數(shù)法的閾值最小。1.3變量相似系數(shù)變量間相似系數(shù)的高低的直觀含義是什么?這個(gè)問題的答案依賴所選用 的相似系數(shù)是什么。相似系數(shù)冇各種各樣的類型2。作為例子,這里只 討論jac card相似度和相關(guān)系數(shù)。jaccard相似度只適用于二值變量。下面用一個(gè)例子來說明它的定義和直 觀含義。用d記脈弦和口苦同時(shí)出現(xiàn)

7、的樣本數(shù),b記脈弦出現(xiàn)而口苦不出 現(xiàn)的樣本數(shù),c記脈眩不出現(xiàn)而口苦出現(xiàn)的樣本數(shù)?!懊}弦情況”和“口苦 情況”這兩個(gè)變量的jaccard相似度定義為d/(b+c+d)。jaccard相似度 的取值在01之間,可以視為是癥狀出現(xiàn)的“同步率”。它的值越高,脈 弦和口苦出現(xiàn)時(shí)的“同步率”就越高,即脈弦和口苦的出現(xiàn)更接近如下情 況:要么兩者都不出現(xiàn),要么兩者都出現(xiàn)。相關(guān)系數(shù)是統(tǒng)計(jì)學(xué)中用來度量數(shù)寧變量間關(guān)聯(lián)程度的一個(gè)指標(biāo)。如果把癥 狀的出現(xiàn)表示為1,不出現(xiàn)表示為0,那么就可以定義“脈弦情況”和“口 苦情況”間的相關(guān)系數(shù)。相關(guān)系數(shù)的取值在01之間。當(dāng)兩個(gè)變量的可 能取值相同時(shí),它們之間的相關(guān)系數(shù)也可視為是一

8、種“同步率”?!懊}弦情 況”和“口苦情況”間的相關(guān)系數(shù)越高,脈弦和口苦同時(shí)出現(xiàn)或同時(shí)不出 現(xiàn)的次數(shù)也就越多,反z亦然。14類1的含義在分析數(shù)據(jù)時(shí),麻氏等1用的是sas軟件。由于他們未提及軟件設(shè)置, 所使用的變量相似系數(shù)應(yīng)該是sas默認(rèn)的jaccard相似度,而所使用的變 量類相似系數(shù)應(yīng)該是sas默認(rèn)的平均相似系數(shù)。所以,類1是一個(gè)由口苦 情況等12個(gè)癥狀變量組成的集合,其含義是這12變量兩兩z間的jaccard 相似度平均不低于某個(gè)閾值,即口苦等12個(gè)癥狀兩兩同步出現(xiàn)的頻率平 均不低于某個(gè)閾值。2證候的含義證候是一個(gè)具爭議性的概念。但是,在詮釋變量聚類結(jié)果時(shí)人們所使用的 證候其意義基本是統(tǒng)一的

9、、清楚的。例如,在把類1詮釋為肝膽濕熱證時(shí),“肝膽濕熱證”對(duì)應(yīng)由口苦等12個(gè)癥狀(事件)組成的癥狀群,其意義如 下:如果這些癥狀全部(或其大多數(shù))在某患者身上同時(shí)出現(xiàn),那么該患 者有肝膽濕熱證;如果這些癥狀中許多不在一患者身上出現(xiàn),那么該患 者無肝膽濕熱證。3變量聚類結(jié)果的詮釋現(xiàn)在我們以類1為例來討論變量聚類的詮釋問題。在文獻(xiàn)1中,類1被 詮釋為肝膽濕熱證。這是山于類1被認(rèn)為是由“有口苦”等12個(gè)癥狀事 件組成的集合,進(jìn)而其意義被理解為口苦等12個(gè)癥狀同時(shí)出現(xiàn)。在把類1 詮釋為肝膽濕熱之后,進(jìn)一步得出結(jié)論:肝膽濕熱證是肝膽病中的中醫(yī)證 候之一。這就是說,肝膽濕熱證存在于研究涉及的739個(gè)樣本屮

10、,即有一 部分樣木同時(shí)包含口苦等12個(gè)癥狀或其大多數(shù)。為方便討論,我們將這 一段文字涉及的幾件事按邏輯順序整理如下:把類1認(rèn)為是山“有口苦” 等12個(gè)癥狀事件組成的集合;把類1的意義理解為口苦等12個(gè)癥狀同 時(shí)岀現(xiàn),從而把它詮釋為肝膽濕熱證。在的基礎(chǔ)上,得出肝膽病中有 肝膽濕熱證的結(jié)論,即冇一部分樣本同時(shí)包含“ 口苦”等12個(gè)癥狀或其 大多數(shù)。根據(jù)第2節(jié)的結(jié)論,類1是癥狀變量的集合而不是癥狀事件的集合。所以, 上述第1步是不正確的。再根據(jù)第2節(jié)的結(jié)論,類1的意義不是口苦等12 個(gè)癥狀同時(shí)出現(xiàn)。實(shí)際上,句子“ 口苦等12個(gè)癥狀同時(shí)出現(xiàn)”本身是一 個(gè)病句。顯然,口苦等12癥狀不可能在每一個(gè)樣本屮都

11、同時(shí)出現(xiàn)。那么 它們究竟在哪些樣木中出現(xiàn)呢?句子沒有指明,因此意義不清。所以,第 2步也是錯(cuò)誤的。最后,第3步從“ 口苦等12個(gè)癥狀同時(shí)岀現(xiàn)”這個(gè)含義 不清的命題推出“有一部分樣本同時(shí)包含口苦等12個(gè)癥狀或其大多數(shù)”。這是不合邏輯的。上述三步都有問題。那么有沒有可能不通過它們,而直接從類1的含義出 發(fā)得出“有一部分樣本同時(shí)包含口苦等12個(gè)癥狀或其大多數(shù)”這個(gè)結(jié)論 呢?回答是否定。類1的含義只是說口苦等12個(gè)癥狀兩兩以一定頻率在 樣木中同時(shí)出現(xiàn)。這并不意味12個(gè)癥狀同時(shí)出現(xiàn)在某些樣木中。在邏輯 上,從兩兩雙邊關(guān)系是無法推出多邊關(guān)系的。打一個(gè)比方:青年a與一對(duì) 好朋友b和c談三角戀愛,a和b常常一起出現(xiàn),a和c常常一起出現(xiàn),b 和c常常一起出現(xiàn),但這些并不意味著他們?nèi)藭?huì)同時(shí)出現(xiàn)。上面的討論以文獻(xiàn)1為例。但是,所指出的問題是其它用變量聚類研究 證候分布工作共有的。問題的根源在于研究目的與研究方法不匹配。這些 工作是要通過分析一組關(guān)于西醫(yī)某病種的樣本,揭示該病種中中醫(yī)證候的 分布規(guī)律,這其實(shí)是揭示該組樣本中中醫(yī)證候的分布情況。簡而言之,這 就是要揭示樣本某方面的特征和性質(zhì)。變量聚類方法只考慮變量間的關(guān) 系,完全不分析樣本的特征和性質(zhì)。既然如此,它又怎么能揭示樣本屮屮 醫(yī)證候的分布規(guī)律呢?4結(jié)朿語

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論