中醫(yī)辨證分類算法綜述_第1頁
中醫(yī)辨證分類算法綜述_第2頁
中醫(yī)辨證分類算法綜述_第3頁
中醫(yī)辨證分類算法綜述_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

中醫(yī)辨證分類算法綜述

挖掘數(shù)據(jù)并從大量數(shù)據(jù)中獲取有用的信息。換句話說,人們在大量、不完整、噪聲、模糊和隨機的實際應(yīng)用數(shù)據(jù)中發(fā)現(xiàn)了隱藏的、規(guī)律性的信息,而人們過去或?qū)聿恢?,但它是一個尚未理解的、有害的信息和知識的非常方法過程。數(shù)據(jù)挖掘的主要任務(wù)有分類分析、聚類分析、關(guān)聯(lián)分析、序列模式分析等,其中的分類分析一直是數(shù)據(jù)挖掘研究的熱點。分類就是找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預(yù)測類標(biāo)記未知的對象類。分類的過程一般分為2個步驟:第1步,通過已知數(shù)據(jù)集建立概念描述模型;第2步,就是利用所獲得的模型進(jìn)行分類操作。分類的目的是學(xué)會一個分類函數(shù)或分類模型(也常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個類中。中醫(yī)辨證論治從癥狀-疾病-證候-藥物組合-方劑等這一過程中,含有非線性、模糊性、復(fù)雜性、非定量等思想,由此產(chǎn)生的中醫(yī)數(shù)據(jù)也具有非線性、模糊性、非定量等特征。如果單純?nèi)藶榈貙嫶蟮闹嗅t(yī)證候數(shù)據(jù)進(jìn)行分類分析,無異于大海撈針,而且難以保證對全部信息的綜合考量。數(shù)據(jù)挖掘技術(shù)本身所具有的特點,使其自然成為能從中醫(yī)海量數(shù)據(jù)中探索規(guī)律和有興趣知識的主要技術(shù)之一。以下就目前數(shù)據(jù)挖掘技術(shù)中比較成熟的幾種分類算法如決策樹、關(guān)聯(lián)規(guī)則分類、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)和支持向量機等進(jìn)行論述,并總結(jié)其在中醫(yī)證候?qū)W研究中的應(yīng)用。b.分類算法在網(wǎng)絡(luò)學(xué)習(xí)中的應(yīng)用決策樹是一個類似流程圖的樹型結(jié)構(gòu),其中樹的每個節(jié)點對應(yīng)一個非類別屬性,每條邊對應(yīng)這個屬性的每種可能值,而樹的每個葉結(jié)點代表一個類別。C4.5是較早提出的使用最普遍的決策樹分類算法之一。C4.5算法的核心是假設(shè)T為訓(xùn)練集,為T構(gòu)造決策樹時,根據(jù)InformationGain值選擇作為分裂結(jié)點的屬性及標(biāo)準(zhǔn),按照此標(biāo)準(zhǔn)將T分成n個子集。若第i個子集Ti含有的元組的類別一致,該結(jié)點就成為決策樹的葉子結(jié)點而停止分裂。而對于不滿足此條件的T的其他子集,按照上述方法繼續(xù)分裂直至所有子集所含元組都屬于一個類別為止。C4.5分類算法產(chǎn)生的分類規(guī)則易于理解,速度相對較快,同時其準(zhǔn)確率相對較高。但是C4.5只適合于能夠駐留于內(nèi)存的數(shù)據(jù)集使用,當(dāng)訓(xùn)練集大得無法在內(nèi)存容納時程序無法運行。為了適應(yīng)處理大規(guī)模數(shù)據(jù)集的需要,后來又提出了若干改進(jìn)的算法,如SLIQ和SPRINT等。瞿海斌等利用決策樹從290例血瘀證病例的35個變量中自動地提取相應(yīng)的診斷規(guī)則,得到?jīng)Q策樹分類模型并歸納出5條血瘀證的診斷規(guī)則。利用該模型對194例血瘀證病例測試,其結(jié)果為陽性檢測正確率、陰性檢測正確率和檢測正確率分別達(dá)到97.67%、99.07%和98.45%。實驗結(jié)果表明決策樹能自動從中醫(yī)病例中歸納診斷規(guī)則,通過決策樹方法還可判斷各證候?qū)τ谘鲎C診斷的貢獻(xiàn)大小。徐蕾等對406例慢性胃炎病例進(jìn)行bootstrap抽樣至2000病例,采用基于信息熵的決策樹C4.5算法篩選出影響中醫(yī)辨證分型的26個重要因素,產(chǎn)生可用于分類的診斷規(guī)則,建立辨證模型,模型分類符合率為訓(xùn)練集83.60%、驗證集80.67%、測試集81.25%,發(fā)現(xiàn)決策樹C4.5算法建立的模型效果較好,可應(yīng)用于慢性胃炎中醫(yī)辨證分型的預(yù)測。從關(guān)聯(lián)規(guī)則技術(shù)的應(yīng)用到慢性疲勞綜合征的判斷CBA(classificationbasedonassociation,CBA)是基于關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法的分類算法。該算法分2個步驟構(gòu)造分類器。第1步:發(fā)現(xiàn)所有形如Xi1∧Xi2=>Ci的關(guān)聯(lián)規(guī)則,即右部為類別屬性值的類別關(guān)聯(lián)規(guī)則CAR(classificationassociationrules,CAR)。第2步:從已發(fā)現(xiàn)的CAR中選擇高優(yōu)先度的規(guī)則來覆蓋訓(xùn)練集,也就是說,如果有多條關(guān)聯(lián)規(guī)則的左部相同,而右部為不同的類,則選擇具有最高置信度的規(guī)則作為可能規(guī)則。通過CBA算法可以尋找出相關(guān)聯(lián)的各個數(shù)據(jù),當(dāng)某些癥狀總是同時出現(xiàn)時,可以從中找出某種證型規(guī)律,甚至是病機規(guī)律,算法簡單,分類準(zhǔn)確度較高,可解釋性強;其缺點是計算時間長、分析代價大。黃小波等以關(guān)聯(lián)規(guī)則技術(shù)為工具,根據(jù)慢性疲勞綜合征的臨床表現(xiàn),選擇慢性疲勞綜合征中氣虛和血虛2種證型,通過分析“證”與癥候之間的相關(guān)性,認(rèn)為慢性疲勞綜合征中氣虛與血虛2種證型之間顯著相關(guān)。沈亞誠等采用關(guān)聯(lián)規(guī)則技術(shù)分析了絕經(jīng)綜合征癥狀與證候之間的聯(lián)系和證候規(guī)律,包括中醫(yī)癥狀與證候之間、中醫(yī)癥狀與西醫(yī)癥狀之間、證候與生存質(zhì)量之間、中醫(yī)癥狀與檢驗指標(biāo)值之間的關(guān)聯(lián)規(guī)則。陳明等通過對400例肝硬變患者進(jìn)行關(guān)聯(lián)分析,找出符合最小支持度和最小置信度并形成規(guī)則的中醫(yī)證候,結(jié)果表明,氣滯/氣郁證和血瘀證最小支持度分別為21%和25%,最小置信度分別為30%和35%,是最符合強規(guī)則的中醫(yī)證候。中醫(yī)證候分類神經(jīng)網(wǎng)絡(luò)就是一組相互連接的輸入輸出單元(又稱神經(jīng)元),單元之間的每個連接都與一個權(quán)重相關(guān)聯(lián)。在網(wǎng)絡(luò)學(xué)習(xí)階段,網(wǎng)絡(luò)通過調(diào)整權(quán)重來實現(xiàn)輸入樣本與其相應(yīng)類別的對應(yīng)。神經(jīng)網(wǎng)絡(luò)訓(xùn)練完畢后,只要把數(shù)據(jù)輸入到已訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)輸入端,就可以從輸出端直接得到分類結(jié)果。用于數(shù)據(jù)分類常見的神經(jīng)網(wǎng)絡(luò)模型包括:反向傳播(BP)神經(jīng)網(wǎng)絡(luò)、徑向基(RBF)神經(jīng)網(wǎng)絡(luò)、自組織特征映射神經(jīng)網(wǎng)絡(luò)、學(xué)習(xí)矢量化神經(jīng)網(wǎng)絡(luò)等。林維鑒利用40份中醫(yī)痹證病例進(jìn)行BP網(wǎng)絡(luò)訓(xùn)練,建立了中醫(yī)痹證辨證分類的BP網(wǎng)絡(luò)模型,用其余40份病例作為檢驗,根據(jù)輸出向量確定該患者的證型,結(jié)果符合率為92.5%。邊沁等采用一種基于MFBP算法的神經(jīng)網(wǎng)絡(luò),以臨床調(diào)查資料為研究對象,對具體病的證型進(jìn)行了規(guī)則提取研究,并從其解決實際問題的能力對網(wǎng)絡(luò)的性能作出評價。研究結(jié)果表明,神經(jīng)網(wǎng)絡(luò)有較好獲取數(shù)據(jù)規(guī)則的能力,可用于證的規(guī)范化研究。樊曉平等研究了用于抑郁癥中醫(yī)證候分類的一類MLPANN;設(shè)計了一種基于自定義網(wǎng)絡(luò)結(jié)構(gòu)及其他參數(shù)的BP訓(xùn)練算法分類系統(tǒng)并應(yīng)用在抑郁癥的中醫(yī)證候分類研究中。該系統(tǒng)利用實際病癥樣本數(shù)據(jù)進(jìn)行了訓(xùn)練和分類,結(jié)果表明系統(tǒng)具有很好的分類效果,可以用于指導(dǎo)抑郁癥診斷和治療。胡隨瑜等將1731例抑郁癥患者隨即分成2組,輪流進(jìn)行訓(xùn)練和測試,結(jié)果BP網(wǎng)絡(luò)訓(xùn)練總體陽性率為97.7%,測試陽性率為72.5%。結(jié)論是BP網(wǎng)絡(luò)能較好的區(qū)分抑郁癥5類中醫(yī)證型,在中醫(yī)證型分類識別中有一定的價值。李建生等將200份包含6種證型的2型糖尿病文獻(xiàn)資料中的41個癥狀作為訓(xùn)練學(xué)習(xí)樣本,運用RBF網(wǎng)絡(luò)算法進(jìn)行2型糖尿病的中醫(yī)辨證建模,最后建立一個輸入層節(jié)點數(shù)為41,隱層節(jié)點為6,輸出層節(jié)點為6的RBF神經(jīng)網(wǎng)絡(luò)模型。同時又運用BP神經(jīng)網(wǎng)絡(luò)的方法建立BP神經(jīng)網(wǎng)絡(luò)模型,并用63個測試樣本對2個網(wǎng)絡(luò)進(jìn)行檢驗。結(jié)果證候診斷模型判準(zhǔn)率RBF網(wǎng)絡(luò)為93.8%,BP網(wǎng)絡(luò)為61.9%,且RBF網(wǎng)絡(luò)證候診斷模型訓(xùn)練速度比BP網(wǎng)絡(luò)模型快103-104倍。杜文斌以建國后名老中醫(yī)冠心病醫(yī)案為研究對象,并對入選醫(yī)案進(jìn)行數(shù)據(jù)的規(guī)范化預(yù)處理和癥狀的降維處理。然后根據(jù)醫(yī)案癥狀的分布頻數(shù)確定各映射區(qū)的癥狀分布情況,參照醫(yī)案中病機的闡述及相關(guān)中醫(yī)理論確定映射區(qū)集合的證候類型。在此基礎(chǔ)上給出了每個癥狀的權(quán)重,建立了基于自組織神經(jīng)網(wǎng)絡(luò)的冠心病證候診斷標(biāo)準(zhǔn)。證候分類結(jié)果提示:本醫(yī)案集的冠心病證候可分為陰虛火旺、心腎陽虛、痰濁內(nèi)阻、氣虛血瘀4個證型。實例分析表明,本證候診斷標(biāo)準(zhǔn)所作出的診斷同醫(yī)案診斷結(jié)果非常接近,完全符合率為73.3%,基本符合率為93.3%。不確定性知識的處理貝葉斯網(wǎng)絡(luò)表現(xiàn)為一個賦值的復(fù)雜因果關(guān)系網(wǎng)絡(luò)圖,網(wǎng)絡(luò)中的每一個節(jié)點表示一個變量,即一個事件。各變量之間的弧表示事件發(fā)生的直接因果關(guān)系。每當(dāng)一個原因節(jié)點的出現(xiàn)而導(dǎo)致某個結(jié)果的產(chǎn)生時,用條件概率進(jìn)行表述。事件變量間關(guān)系的概率強度,構(gòu)成貝葉斯網(wǎng)絡(luò)中的條件概率表。根據(jù)貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)以及條件概率表,可以快速得到每個基本事件的組合概率。貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)及推理原理與中醫(yī)辨證的思維認(rèn)知過程頗為近似,因此極其復(fù)雜、高度非線性的中醫(yī)辨證系統(tǒng),可用貝葉斯網(wǎng)絡(luò)處理不確定性知識的方法進(jìn)行描述。朱詠華等通過將中醫(yī)體系中的916個證候,51項證素及其構(gòu)成的1700條證名構(gòu)成中醫(yī)辨證貝葉斯網(wǎng)絡(luò)的節(jié)點集,初步建立起中醫(yī)辨證數(shù)據(jù)庫并通過網(wǎng)絡(luò)學(xué)習(xí),形成中醫(yī)辨證貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)及概率表,利用建立的貝葉斯網(wǎng)絡(luò)中醫(yī)辨證系統(tǒng),進(jìn)行數(shù)據(jù)計量分析、推理驗證證候—證素—證名間的關(guān)系,其結(jié)果與中醫(yī)專家經(jīng)驗有很高的吻合性。王學(xué)偉等應(yīng)用貝葉斯網(wǎng)絡(luò)方法通過分析474例血瘀證臨床診斷數(shù)據(jù)進(jìn)行血瘀證定量診斷。該方法發(fā)現(xiàn)了血瘀證的7個關(guān)鍵癥狀,并定量計算其診斷貢獻(xiàn)度?;谶@些關(guān)鍵癥狀建立的簡單貝葉斯分類器模型對血瘀證診斷的準(zhǔn)確率達(dá)到96.6%。唐啟盛等制訂《抑郁癥中醫(yī)證候觀察表》,觀察611例患者的橫斷面證候,運用貝葉斯網(wǎng)絡(luò)模型進(jìn)行數(shù)據(jù)研究,并結(jié)合前期聚類分析研究結(jié)果,得出中醫(yī)證型及診斷標(biāo)準(zhǔn),結(jié)果擬定出抑郁癥的6個中醫(yī)證型:腎虛肝郁證、肝郁脾虛證、心脾兩虛證、肝膽濕熱證、心膽氣虛證。孫亞男等利用信息增益算法進(jìn)行辨證屬性選擇,并分別采用樸素貝葉斯和強屬性集貝葉斯網(wǎng)絡(luò)算法建立了中醫(yī)冠心病臨床證型診斷模型,其實驗結(jié)果表明該分類算法在中醫(yī)冠心病臨床診斷模型中具有良好的分類性能。svm分類方法支持向量機(supportvectormachine,SVM)是數(shù)據(jù)挖掘中的一個新分類方法,數(shù)據(jù)點是n維實空間中的點。筆者希望能夠把這些點通過一個n-1維的超平面分開。支持向量機將向量映射到一個更高維的空間里,在這個空間里建立有一個最大間隔超平面。在分開數(shù)據(jù)的超平面的兩邊建有2個互相平行的超平面。建立方向合適的分隔超平面使2個與之平行的超平面間的距離最大化。其假定為平行超平面間的距離或差距越大,分類器的總誤差越小。楊小波等以中醫(yī)證候數(shù)據(jù)庫收集的30余萬條中醫(yī)證候文獻(xiàn)信息作為訓(xùn)練和測試數(shù)據(jù)集,以中醫(yī)專業(yè)知識作為先驗知識,將樣本集置信度通過帶權(quán)分類間隔導(dǎo)入SVM模型中進(jìn)行分類,計算其分類置信度。結(jié)果表明:在有中醫(yī)專業(yè)知識的情況下,中醫(yī)證候信息分類的正確率得到了很大的提高,正確率約為95%。中醫(yī)證候數(shù)據(jù)庫的應(yīng)用隨著中醫(yī)藥信息化的發(fā)展,中醫(yī)藥數(shù)據(jù)庫系統(tǒng)應(yīng)運而生,它可以高效地實現(xiàn)數(shù)據(jù)的錄入、查詢和統(tǒng)計等功能,但仍無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。數(shù)據(jù)挖掘技術(shù)作為一個從海量數(shù)據(jù)中獲取知識的有力工具,借鑒其方法來研究中醫(yī)證候的構(gòu)成特點及規(guī)律,將對中醫(yī)證候的研究起到巨大的促進(jìn)作用。辨證論治是中醫(yī)理論和臨床體系的重要支撐,貫穿于對疾病診斷、治療、康復(fù)、療效評價的全過程?!白C候”乃是從整體性出發(fā),對個體疾病狀態(tài)下特征的描述以及對疾病內(nèi)在變化規(guī)律的概括。筆者通過對中醫(yī)證候數(shù)據(jù)進(jìn)行分類研究,可以得到某病的證候分布及某證型的癥狀分布,甚至可以得到證候的預(yù)測因子或核心證候。在此基礎(chǔ)上可以進(jìn)一步進(jìn)行中醫(yī)辨證規(guī)范化研究,另外可通過分類方法建立模型,對反復(fù)采集的證候信息進(jìn)行分析,實現(xiàn)“即時辨證”功能,真正做到“知犯何逆,隨證治之”。數(shù)據(jù)分類是數(shù)據(jù)挖掘的重要研究內(nèi)容之一。分類研究得到的結(jié)果可以作為進(jìn)一步證候規(guī)范研究的基礎(chǔ)。在上面筆者介紹了各

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論