中醫(yī)辨證分類算法綜述_第1頁(yè)
中醫(yī)辨證分類算法綜述_第2頁(yè)
中醫(yī)辨證分類算法綜述_第3頁(yè)
中醫(yī)辨證分類算法綜述_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

中醫(yī)辨證分類算法綜述

挖掘數(shù)據(jù)并從大量數(shù)據(jù)中獲取有用的信息。換句話說(shuō),人們?cè)诖罅?、不完整、噪聲、模糊和隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中發(fā)現(xiàn)了隱藏的、規(guī)律性的信息,而人們過去或?qū)?lái)不知道,但它是一個(gè)尚未理解的、有害的信息和知識(shí)的非常方法過程。數(shù)據(jù)挖掘的主要任務(wù)有分類分析、聚類分析、關(guān)聯(lián)分析、序列模式分析等,其中的分類分析一直是數(shù)據(jù)挖掘研究的熱點(diǎn)。分類就是找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預(yù)測(cè)類標(biāo)記未知的對(duì)象類。分類的過程一般分為2個(gè)步驟:第1步,通過已知數(shù)據(jù)集建立概念描述模型;第2步,就是利用所獲得的模型進(jìn)行分類操作。分類的目的是學(xué)會(huì)一個(gè)分類函數(shù)或分類模型(也常稱作分類器),該模型能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè)類中。中醫(yī)辨證論治從癥狀-疾病-證候-藥物組合-方劑等這一過程中,含有非線性、模糊性、復(fù)雜性、非定量等思想,由此產(chǎn)生的中醫(yī)數(shù)據(jù)也具有非線性、模糊性、非定量等特征。如果單純?nèi)藶榈貙?duì)龐大的中醫(yī)證候數(shù)據(jù)進(jìn)行分類分析,無(wú)異于大海撈針,而且難以保證對(duì)全部信息的綜合考量。數(shù)據(jù)挖掘技術(shù)本身所具有的特點(diǎn),使其自然成為能從中醫(yī)海量數(shù)據(jù)中探索規(guī)律和有興趣知識(shí)的主要技術(shù)之一。以下就目前數(shù)據(jù)挖掘技術(shù)中比較成熟的幾種分類算法如決策樹、關(guān)聯(lián)規(guī)則分類、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等進(jìn)行論述,并總結(jié)其在中醫(yī)證候?qū)W研究中的應(yīng)用。b.分類算法在網(wǎng)絡(luò)學(xué)習(xí)中的應(yīng)用決策樹是一個(gè)類似流程圖的樹型結(jié)構(gòu),其中樹的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)非類別屬性,每條邊對(duì)應(yīng)這個(gè)屬性的每種可能值,而樹的每個(gè)葉結(jié)點(diǎn)代表一個(gè)類別。C4.5是較早提出的使用最普遍的決策樹分類算法之一。C4.5算法的核心是假設(shè)T為訓(xùn)練集,為T構(gòu)造決策樹時(shí),根據(jù)InformationGain值選擇作為分裂結(jié)點(diǎn)的屬性及標(biāo)準(zhǔn),按照此標(biāo)準(zhǔn)將T分成n個(gè)子集。若第i個(gè)子集Ti含有的元組的類別一致,該結(jié)點(diǎn)就成為決策樹的葉子結(jié)點(diǎn)而停止分裂。而對(duì)于不滿足此條件的T的其他子集,按照上述方法繼續(xù)分裂直至所有子集所含元組都屬于一個(gè)類別為止。C4.5分類算法產(chǎn)生的分類規(guī)則易于理解,速度相對(duì)較快,同時(shí)其準(zhǔn)確率相對(duì)較高。但是C4.5只適合于能夠駐留于內(nèi)存的數(shù)據(jù)集使用,當(dāng)訓(xùn)練集大得無(wú)法在內(nèi)存容納時(shí)程序無(wú)法運(yùn)行。為了適應(yīng)處理大規(guī)模數(shù)據(jù)集的需要,后來(lái)又提出了若干改進(jìn)的算法,如SLIQ和SPRINT等。瞿海斌等利用決策樹從290例血瘀證病例的35個(gè)變量中自動(dòng)地提取相應(yīng)的診斷規(guī)則,得到?jīng)Q策樹分類模型并歸納出5條血瘀證的診斷規(guī)則。利用該模型對(duì)194例血瘀證病例測(cè)試,其結(jié)果為陽(yáng)性檢測(cè)正確率、陰性檢測(cè)正確率和檢測(cè)正確率分別達(dá)到97.67%、99.07%和98.45%。實(shí)驗(yàn)結(jié)果表明決策樹能自動(dòng)從中醫(yī)病例中歸納診斷規(guī)則,通過決策樹方法還可判斷各證候?qū)τ谘鲎C診斷的貢獻(xiàn)大小。徐蕾等對(duì)406例慢性胃炎病例進(jìn)行bootstrap抽樣至2000病例,采用基于信息熵的決策樹C4.5算法篩選出影響中醫(yī)辨證分型的26個(gè)重要因素,產(chǎn)生可用于分類的診斷規(guī)則,建立辨證模型,模型分類符合率為訓(xùn)練集83.60%、驗(yàn)證集80.67%、測(cè)試集81.25%,發(fā)現(xiàn)決策樹C4.5算法建立的模型效果較好,可應(yīng)用于慢性胃炎中醫(yī)辨證分型的預(yù)測(cè)。從關(guān)聯(lián)規(guī)則技術(shù)的應(yīng)用到慢性疲勞綜合征的判斷CBA(classificationbasedonassociation,CBA)是基于關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法的分類算法。該算法分2個(gè)步驟構(gòu)造分類器。第1步:發(fā)現(xiàn)所有形如Xi1∧Xi2=>Ci的關(guān)聯(lián)規(guī)則,即右部為類別屬性值的類別關(guān)聯(lián)規(guī)則CAR(classificationassociationrules,CAR)。第2步:從已發(fā)現(xiàn)的CAR中選擇高優(yōu)先度的規(guī)則來(lái)覆蓋訓(xùn)練集,也就是說(shuō),如果有多條關(guān)聯(lián)規(guī)則的左部相同,而右部為不同的類,則選擇具有最高置信度的規(guī)則作為可能規(guī)則。通過CBA算法可以尋找出相關(guān)聯(lián)的各個(gè)數(shù)據(jù),當(dāng)某些癥狀總是同時(shí)出現(xiàn)時(shí),可以從中找出某種證型規(guī)律,甚至是病機(jī)規(guī)律,算法簡(jiǎn)單,分類準(zhǔn)確度較高,可解釋性強(qiáng);其缺點(diǎn)是計(jì)算時(shí)間長(zhǎng)、分析代價(jià)大。黃小波等以關(guān)聯(lián)規(guī)則技術(shù)為工具,根據(jù)慢性疲勞綜合征的臨床表現(xiàn),選擇慢性疲勞綜合征中氣虛和血虛2種證型,通過分析“證”與癥候之間的相關(guān)性,認(rèn)為慢性疲勞綜合征中氣虛與血虛2種證型之間顯著相關(guān)。沈亞誠(chéng)等采用關(guān)聯(lián)規(guī)則技術(shù)分析了絕經(jīng)綜合征癥狀與證候之間的聯(lián)系和證候規(guī)律,包括中醫(yī)癥狀與證候之間、中醫(yī)癥狀與西醫(yī)癥狀之間、證候與生存質(zhì)量之間、中醫(yī)癥狀與檢驗(yàn)指標(biāo)值之間的關(guān)聯(lián)規(guī)則。陳明等通過對(duì)400例肝硬變患者進(jìn)行關(guān)聯(lián)分析,找出符合最小支持度和最小置信度并形成規(guī)則的中醫(yī)證候,結(jié)果表明,氣滯/氣郁證和血瘀證最小支持度分別為21%和25%,最小置信度分別為30%和35%,是最符合強(qiáng)規(guī)則的中醫(yī)證候。中醫(yī)證候分類神經(jīng)網(wǎng)絡(luò)就是一組相互連接的輸入輸出單元(又稱神經(jīng)元),單元之間的每個(gè)連接都與一個(gè)權(quán)重相關(guān)聯(lián)。在網(wǎng)絡(luò)學(xué)習(xí)階段,網(wǎng)絡(luò)通過調(diào)整權(quán)重來(lái)實(shí)現(xiàn)輸入樣本與其相應(yīng)類別的對(duì)應(yīng)。神經(jīng)網(wǎng)絡(luò)訓(xùn)練完畢后,只要把數(shù)據(jù)輸入到已訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)輸入端,就可以從輸出端直接得到分類結(jié)果。用于數(shù)據(jù)分類常見的神經(jīng)網(wǎng)絡(luò)模型包括:反向傳播(BP)神經(jīng)網(wǎng)絡(luò)、徑向基(RBF)神經(jīng)網(wǎng)絡(luò)、自組織特征映射神經(jīng)網(wǎng)絡(luò)、學(xué)習(xí)矢量化神經(jīng)網(wǎng)絡(luò)等。林維鑒利用40份中醫(yī)痹證病例進(jìn)行BP網(wǎng)絡(luò)訓(xùn)練,建立了中醫(yī)痹證辨證分類的BP網(wǎng)絡(luò)模型,用其余40份病例作為檢驗(yàn),根據(jù)輸出向量確定該患者的證型,結(jié)果符合率為92.5%。邊沁等采用一種基于MFBP算法的神經(jīng)網(wǎng)絡(luò),以臨床調(diào)查資料為研究對(duì)象,對(duì)具體病的證型進(jìn)行了規(guī)則提取研究,并從其解決實(shí)際問題的能力對(duì)網(wǎng)絡(luò)的性能作出評(píng)價(jià)。研究結(jié)果表明,神經(jīng)網(wǎng)絡(luò)有較好獲取數(shù)據(jù)規(guī)則的能力,可用于證的規(guī)范化研究。樊曉平等研究了用于抑郁癥中醫(yī)證候分類的一類MLPANN;設(shè)計(jì)了一種基于自定義網(wǎng)絡(luò)結(jié)構(gòu)及其他參數(shù)的BP訓(xùn)練算法分類系統(tǒng)并應(yīng)用在抑郁癥的中醫(yī)證候分類研究中。該系統(tǒng)利用實(shí)際病癥樣本數(shù)據(jù)進(jìn)行了訓(xùn)練和分類,結(jié)果表明系統(tǒng)具有很好的分類效果,可以用于指導(dǎo)抑郁癥診斷和治療。胡隨瑜等將1731例抑郁癥患者隨即分成2組,輪流進(jìn)行訓(xùn)練和測(cè)試,結(jié)果BP網(wǎng)絡(luò)訓(xùn)練總體陽(yáng)性率為97.7%,測(cè)試陽(yáng)性率為72.5%。結(jié)論是BP網(wǎng)絡(luò)能較好的區(qū)分抑郁癥5類中醫(yī)證型,在中醫(yī)證型分類識(shí)別中有一定的價(jià)值。李建生等將200份包含6種證型的2型糖尿病文獻(xiàn)資料中的41個(gè)癥狀作為訓(xùn)練學(xué)習(xí)樣本,運(yùn)用RBF網(wǎng)絡(luò)算法進(jìn)行2型糖尿病的中醫(yī)辨證建模,最后建立一個(gè)輸入層節(jié)點(diǎn)數(shù)為41,隱層節(jié)點(diǎn)為6,輸出層節(jié)點(diǎn)為6的RBF神經(jīng)網(wǎng)絡(luò)模型。同時(shí)又運(yùn)用BP神經(jīng)網(wǎng)絡(luò)的方法建立BP神經(jīng)網(wǎng)絡(luò)模型,并用63個(gè)測(cè)試樣本對(duì)2個(gè)網(wǎng)絡(luò)進(jìn)行檢驗(yàn)。結(jié)果證候診斷模型判準(zhǔn)率RBF網(wǎng)絡(luò)為93.8%,BP網(wǎng)絡(luò)為61.9%,且RBF網(wǎng)絡(luò)證候診斷模型訓(xùn)練速度比BP網(wǎng)絡(luò)模型快103-104倍。杜文斌以建國(guó)后名老中醫(yī)冠心病醫(yī)案為研究對(duì)象,并對(duì)入選醫(yī)案進(jìn)行數(shù)據(jù)的規(guī)范化預(yù)處理和癥狀的降維處理。然后根據(jù)醫(yī)案癥狀的分布頻數(shù)確定各映射區(qū)的癥狀分布情況,參照醫(yī)案中病機(jī)的闡述及相關(guān)中醫(yī)理論確定映射區(qū)集合的證候類型。在此基礎(chǔ)上給出了每個(gè)癥狀的權(quán)重,建立了基于自組織神經(jīng)網(wǎng)絡(luò)的冠心病證候診斷標(biāo)準(zhǔn)。證候分類結(jié)果提示:本醫(yī)案集的冠心病證候可分為陰虛火旺、心腎陽(yáng)虛、痰濁內(nèi)阻、氣虛血瘀4個(gè)證型。實(shí)例分析表明,本證候診斷標(biāo)準(zhǔn)所作出的診斷同醫(yī)案診斷結(jié)果非常接近,完全符合率為73.3%,基本符合率為93.3%。不確定性知識(shí)的處理貝葉斯網(wǎng)絡(luò)表現(xiàn)為一個(gè)賦值的復(fù)雜因果關(guān)系網(wǎng)絡(luò)圖,網(wǎng)絡(luò)中的每一個(gè)節(jié)點(diǎn)表示一個(gè)變量,即一個(gè)事件。各變量之間的弧表示事件發(fā)生的直接因果關(guān)系。每當(dāng)一個(gè)原因節(jié)點(diǎn)的出現(xiàn)而導(dǎo)致某個(gè)結(jié)果的產(chǎn)生時(shí),用條件概率進(jìn)行表述。事件變量間關(guān)系的概率強(qiáng)度,構(gòu)成貝葉斯網(wǎng)絡(luò)中的條件概率表。根據(jù)貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)以及條件概率表,可以快速得到每個(gè)基本事件的組合概率。貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)及推理原理與中醫(yī)辨證的思維認(rèn)知過程頗為近似,因此極其復(fù)雜、高度非線性的中醫(yī)辨證系統(tǒng),可用貝葉斯網(wǎng)絡(luò)處理不確定性知識(shí)的方法進(jìn)行描述。朱詠華等通過將中醫(yī)體系中的916個(gè)證候,51項(xiàng)證素及其構(gòu)成的1700條證名構(gòu)成中醫(yī)辨證貝葉斯網(wǎng)絡(luò)的節(jié)點(diǎn)集,初步建立起中醫(yī)辨證數(shù)據(jù)庫(kù)并通過網(wǎng)絡(luò)學(xué)習(xí),形成中醫(yī)辨證貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)及概率表,利用建立的貝葉斯網(wǎng)絡(luò)中醫(yī)辨證系統(tǒng),進(jìn)行數(shù)據(jù)計(jì)量分析、推理驗(yàn)證證候—證素—證名間的關(guān)系,其結(jié)果與中醫(yī)專家經(jīng)驗(yàn)有很高的吻合性。王學(xué)偉等應(yīng)用貝葉斯網(wǎng)絡(luò)方法通過分析474例血瘀證臨床診斷數(shù)據(jù)進(jìn)行血瘀證定量診斷。該方法發(fā)現(xiàn)了血瘀證的7個(gè)關(guān)鍵癥狀,并定量計(jì)算其診斷貢獻(xiàn)度?;谶@些關(guān)鍵癥狀建立的簡(jiǎn)單貝葉斯分類器模型對(duì)血瘀證診斷的準(zhǔn)確率達(dá)到96.6%。唐啟盛等制訂《抑郁癥中醫(yī)證候觀察表》,觀察611例患者的橫斷面證候,運(yùn)用貝葉斯網(wǎng)絡(luò)模型進(jìn)行數(shù)據(jù)研究,并結(jié)合前期聚類分析研究結(jié)果,得出中醫(yī)證型及診斷標(biāo)準(zhǔn),結(jié)果擬定出抑郁癥的6個(gè)中醫(yī)證型:腎虛肝郁證、肝郁脾虛證、心脾兩虛證、肝膽濕熱證、心膽氣虛證。孫亞男等利用信息增益算法進(jìn)行辨證屬性選擇,并分別采用樸素貝葉斯和強(qiáng)屬性集貝葉斯網(wǎng)絡(luò)算法建立了中醫(yī)冠心病臨床證型診斷模型,其實(shí)驗(yàn)結(jié)果表明該分類算法在中醫(yī)冠心病臨床診斷模型中具有良好的分類性能。svm分類方法支持向量機(jī)(supportvectormachine,SVM)是數(shù)據(jù)挖掘中的一個(gè)新分類方法,數(shù)據(jù)點(diǎn)是n維實(shí)空間中的點(diǎn)。筆者希望能夠把這些點(diǎn)通過一個(gè)n-1維的超平面分開。支持向量機(jī)將向量映射到一個(gè)更高維的空間里,在這個(gè)空間里建立有一個(gè)最大間隔超平面。在分開數(shù)據(jù)的超平面的兩邊建有2個(gè)互相平行的超平面。建立方向合適的分隔超平面使2個(gè)與之平行的超平面間的距離最大化。其假定為平行超平面間的距離或差距越大,分類器的總誤差越小。楊小波等以中醫(yī)證候數(shù)據(jù)庫(kù)收集的30余萬(wàn)條中醫(yī)證候文獻(xiàn)信息作為訓(xùn)練和測(cè)試數(shù)據(jù)集,以中醫(yī)專業(yè)知識(shí)作為先驗(yàn)知識(shí),將樣本集置信度通過帶權(quán)分類間隔導(dǎo)入SVM模型中進(jìn)行分類,計(jì)算其分類置信度。結(jié)果表明:在有中醫(yī)專業(yè)知識(shí)的情況下,中醫(yī)證候信息分類的正確率得到了很大的提高,正確率約為95%。中醫(yī)證候數(shù)據(jù)庫(kù)的應(yīng)用隨著中醫(yī)藥信息化的發(fā)展,中醫(yī)藥數(shù)據(jù)庫(kù)系統(tǒng)應(yīng)運(yùn)而生,它可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢和統(tǒng)計(jì)等功能,但仍無(wú)法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無(wú)法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)。數(shù)據(jù)挖掘技術(shù)作為一個(gè)從海量數(shù)據(jù)中獲取知識(shí)的有力工具,借鑒其方法來(lái)研究中醫(yī)證候的構(gòu)成特點(diǎn)及規(guī)律,將對(duì)中醫(yī)證候的研究起到巨大的促進(jìn)作用。辨證論治是中醫(yī)理論和臨床體系的重要支撐,貫穿于對(duì)疾病診斷、治療、康復(fù)、療效評(píng)價(jià)的全過程?!白C候”乃是從整體性出發(fā),對(duì)個(gè)體疾病狀態(tài)下特征的描述以及對(duì)疾病內(nèi)在變化規(guī)律的概括。筆者通過對(duì)中醫(yī)證候數(shù)據(jù)進(jìn)行分類研究,可以得到某病的證候分布及某證型的癥狀分布,甚至可以得到證候的預(yù)測(cè)因子或核心證候。在此基礎(chǔ)上可以進(jìn)一步進(jìn)行中醫(yī)辨證規(guī)范化研究,另外可通過分類方法建立模型,對(duì)反復(fù)采集的證候信息進(jìn)行分析,實(shí)現(xiàn)“即時(shí)辨證”功能,真正做到“知犯何逆,隨證治之”。數(shù)據(jù)分類是數(shù)據(jù)挖掘的重要研究?jī)?nèi)容之一。分類研究得到的結(jié)果可以作為進(jìn)一步證候規(guī)范研究的基礎(chǔ)。在上面筆者介紹了各

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論