中醫(yī)古籍文本本分析系統(tǒng)關(guān)鍵技術(shù)研究與實(shí)現(xiàn)論文設(shè)計(jì)

上傳人：文*** IP屬地：山西上傳時(shí)間：2021-08-20 格式：DOCX 頁(yè)數(shù)：38 大?。?11.13KB 積分：20 舉報(bào) 版權(quán)申訴

中醫(yī)古籍文本本分析系統(tǒng)關(guān)鍵技術(shù)研究與實(shí)現(xiàn)論文設(shè)計(jì)_第2頁(yè)

中醫(yī)古籍文本本分析系統(tǒng)關(guān)鍵技術(shù)研究與實(shí)現(xiàn)論文設(shè)計(jì)_第3頁(yè)

中醫(yī)古籍文本本分析系統(tǒng)關(guān)鍵技術(shù)研究與實(shí)現(xiàn)論文設(shè)計(jì)_第4頁(yè)

中醫(yī)古籍文本本分析系統(tǒng)關(guān)鍵技術(shù)研究與實(shí)現(xiàn)論文設(shè)計(jì)_第5頁(yè)

已閱讀5頁(yè)，還剩33頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、摘要中國(guó)古籍是我國(guó)優(yōu)秀的民族文化遺產(chǎn)，中醫(yī)理論在長(zhǎng)期的醫(yī)療實(shí)踐中積累了大量數(shù)據(jù)，挖掘出其中蘊(yùn)含的寶貴經(jīng)驗(yàn)，是一項(xiàng)極有價(jià)值的研究工作。數(shù)據(jù)挖掘可以發(fā)現(xiàn)蘊(yùn)藏在中醫(yī)古籍中的潛在知識(shí)，而關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘中的一個(gè)主要研究分支，是目前的主流研究方向，側(cè)重尋找數(shù)據(jù)之間的依賴(lài)關(guān)系以及更好的應(yīng)用于特定領(lǐng)域中。本文重點(diǎn)是對(duì)關(guān)聯(lián)規(guī)則挖掘算法的研究，基于Apriori關(guān)聯(lián)算法對(duì)古籍傷寒九十論進(jìn)行數(shù)據(jù)挖掘，首先對(duì)收集到的古文數(shù)據(jù)進(jìn)行預(yù)處理工作，其次進(jìn)行關(guān)聯(lián)規(guī)則算法的設(shè)計(jì)，利用Matlab將中醫(yī)古籍文本數(shù)據(jù)挖掘，并通過(guò)對(duì)關(guān)聯(lián)規(guī)則結(jié)果的分析，表明挖掘的結(jié)果符合中醫(yī)相關(guān)理論，具有較好的臨床參考價(jià)值。關(guān)鍵詞：中醫(yī)古籍；傷

2、寒九十論；關(guān)聯(lián)算法；AprioriAbstractChinese ancient books are the outstanding national cultural heritage of our country. The theory of traditional Chinese medicine has accumulated a lot of data in the long-term medical practice, and it is a valuable research work to dig out the valuable experience contained th

3、erein.Data mining can discover the potential knowledge contained in ancient books of traditional Chinese medicine, and association rules, as a main research branch in data mining, is the mainstream research direction at present, which focuses on finding the dependency relationship between data and b

4、etter application in specific fields. This paper focuses on the study of association rule mining algorithm, based on the Apriori correlation algorithm of ancient books typhoid fever ninety theory of data mining, first of all the collected data preprocessing of ancient prose work, secondly for the de

5、sign of association rule algorithm, using Matlab to Chinese medical text data mining, and through the analysis of the result of the association rules, show that mining results conform to the relevant theories of traditional Chinese medicine, has good clinical reference value.Keywords: Ancient books

6、of traditional Chinese medicine; Ninety treatises on typhoid ；Association Rules; Apriori第1章緒論1.1 課題研究的背景和意義1.1.1 研究背景隨著計(jì)算機(jī)和網(wǎng)絡(luò)為代表的信息技術(shù)迅猛發(fā)展，人們獲取和利用信息的方式產(chǎn)生了巨大變革，文獻(xiàn)信息載體也逐漸向數(shù)字化、網(wǎng)絡(luò)化方向發(fā)展。中醫(yī)古籍文本的數(shù)字化建設(shè)、數(shù)字化產(chǎn)品，以及網(wǎng)絡(luò)化服務(wù)，將成為現(xiàn)代發(fā)展的主流趨勢(shì)。中醫(yī)古籍上起周秦，下至清代，歷時(shí)2000余年，具有數(shù)量龐大、專(zhuān)業(yè)性強(qiáng)、形式多樣、內(nèi)容雜糅、實(shí)用性強(qiáng)、價(jià)值巨大等特點(diǎn)，記載著古代人民創(chuàng)造出來(lái)的豐富知識(shí)，是珍貴的

7、歷史數(shù)據(jù)和具有重要價(jià)值的文化遺跡。對(duì)中醫(yī)古籍的整理研究，是對(duì)傳統(tǒng)醫(yī)學(xué)的繼承發(fā)展，早在西漢成帝年間就有侍醫(yī)李柱國(guó)校方技，北宋嘉佑年間林億等校正醫(yī)書(shū)等，正是這些歷代學(xué)者對(duì)古籍的不斷整理研究，才能使很多中醫(yī)古籍能夠流傳至今。然而，中醫(yī)古籍的客觀現(xiàn)狀卻不容樂(lè)觀，很多已年代湮遠(yuǎn)，有些甚至已成為孤本、善本，使得很多中醫(yī)古籍只能束之高閣；另中醫(yī)古籍因古籍的特殊性，不能以普通書(shū)籍印刷、傳閱等傳播方式廣泛流傳，這大大降低了中醫(yī)古籍資源的使用價(jià)值。如何客觀、合理地發(fā)掘遺產(chǎn)，發(fā)揚(yáng)學(xué)術(shù)，做到“古為今用”，又能很好的保護(hù)這些不可復(fù)制的古籍文本，是圖書(shū)館古籍利用和文獻(xiàn)保護(hù)工作中的一大難題。在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)還未發(fā)展之時(shí)，

8、傳統(tǒng)中醫(yī)古籍的整理與研究，從版本考證、編目、?？?、訓(xùn)詁以及專(zhuān)科研究都用手工作業(yè)的方式，使得效率進(jìn)展都很低，不能滿足當(dāng)前中醫(yī)事業(yè)的快速發(fā)展。隨著網(wǎng)絡(luò)時(shí)代的到來(lái)，借助現(xiàn)代信息技術(shù)進(jìn)行古籍整理工作已成為古籍整理得主流，近年來(lái)古籍資源的數(shù)字化，以其信息量大、檢索便捷、不受時(shí)空限制兼具保護(hù)和利用古籍等特質(zhì)，大大提高了古籍研究者的工作效率而倍受青睞。古籍?dāng)?shù)字化最早開(kāi)始于20世紀(jì)70到80年代，人們對(duì)古籍?dāng)?shù)字化一直不斷探索，中醫(yī)古籍的整理與研究發(fā)生了翻天覆地的變化。 2002年以后，古籍?dāng)?shù)字化的探討更多集中在理論方面，并逐漸轉(zhuǎn)向知識(shí)庫(kù)、知識(shí)發(fā)現(xiàn)等古籍深度利用研究方面。隨著古籍?dāng)?shù)字化的進(jìn)一步發(fā)展和成熟，對(duì)中

9、醫(yī)古籍的整理與研究必然會(huì)更加深入。1.1.2 研究意義（1）中醫(yī)古籍文本系統(tǒng)開(kāi)發(fā)的必要性古籍屬于珍貴的文物, 每一次翻閱都會(huì)對(duì)其造成不同程度的損害, 所以它不能像一般圖書(shū)那樣可以大范圍流通, 這大大降低了古籍資源的使用價(jià)值, 這就體現(xiàn)了古籍文獻(xiàn)資源保護(hù)和利用的矛盾性, 古籍為了保護(hù)的需要, 就難以實(shí)現(xiàn)其文化史料價(jià)值的挖掘。古籍文獻(xiàn)的保護(hù)和利用, 一直以來(lái)看似無(wú)法兼得, 通過(guò)實(shí)現(xiàn)古籍文獻(xiàn)資源的數(shù)字化, 將這一矛盾成功化解。（2）中醫(yī)古籍文本系統(tǒng)開(kāi)發(fā)的迫切性雖然現(xiàn)在大家對(duì)古籍都非常的重視, 古籍的存放環(huán)境非常的嚴(yán)格, 古籍存放溫度、濕度、空氣、光照都會(huì)影響古籍文獻(xiàn)的壽命, 針對(duì)古籍文獻(xiàn)的文物特性,

10、其安全性及防鼠、防蟲(chóng)工作也不可忽視。但是即便保存環(huán)境再?lài)?yán)格, 古籍一旦遇上了不幸的災(zāi)難, 這對(duì)于古籍的打擊來(lái)說(shuō)都是毀滅性的。古籍文獻(xiàn)資源是不可再生的, 古籍紙張每一秒鐘都在老化, 數(shù)量也在不斷減少, 所以古籍文獻(xiàn)資源數(shù)字化迫在眉睫。（3）中醫(yī)古籍文本系統(tǒng)開(kāi)發(fā)的便利性現(xiàn)有的數(shù)字存儲(chǔ)技術(shù)內(nèi)容、形式豐富多樣, 占用空間小、可長(zhǎng)久保存, 提高檢索速度, 方便用戶(hù)檢索。只要有網(wǎng)絡(luò), 讀者就可以隨時(shí)隨地的獲取所需古籍信息, 這種多方面、多層次、多形式的服務(wù), 使古籍研究的便利性有了質(zhì)的飛躍。圖像掃描技術(shù)十分簡(jiǎn)單快捷, 而且保存起來(lái)也非常便捷, 這些優(yōu)勢(shì)都促進(jìn)了古籍文獻(xiàn)資源的保護(hù)與研究。古籍資源共享, 也

11、有利于學(xué)術(shù)研究。古籍散落在全國(guó)各地, 古籍研究者如果需要使用某本古籍, 就非常不方便。古籍資源數(shù)字化消除了這種不便, 使得讀者可以隨時(shí)隨地獲取所需古籍信息, 不用為了某些珍貴古籍而奔波, 而且能使相關(guān)的古籍學(xué)者通過(guò)網(wǎng)絡(luò)相互探討、研究, 資源的利用率遠(yuǎn)遠(yuǎn)高于傳統(tǒng)紙質(zhì)古籍文獻(xiàn)。1.2 國(guó)內(nèi)外研究現(xiàn)狀1.2.1 國(guó)內(nèi)研究現(xiàn)狀據(jù)中國(guó)中醫(yī)古籍總目記載，我國(guó)現(xiàn)存1949年以前出版的中醫(yī)藥古籍圖書(shū)有13455種，可見(jiàn)中醫(yī)古典文獻(xiàn)浩如煙海，對(duì)數(shù)量巨多的中醫(yī)古籍進(jìn)行整理與究的工作任務(wù)十分艱巨。二十世紀(jì)90年代，有一些科研單位和一些大型圖書(shū)館開(kāi)始嘗試古籍書(shū)目建設(shè)，并取得了較為顯著的成效。在古籍書(shū)目數(shù)字化建設(shè)的同時(shí)

12、，善本古籍的數(shù)字化建設(shè)也在進(jìn)行，如1996年，上海圖書(shū)館選擇古代文獻(xiàn)中的善本古籍制成全文光盤(pán)，建立了古籍善本檢索系統(tǒng)。隨著我國(guó)計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的提高，古籍?dāng)?shù)字化已具雛形。20世紀(jì)90年代后期以來(lái)，古籍?dāng)?shù)字化在我國(guó)迅速發(fā)展。這一時(shí)期些人的出版單位、學(xué)術(shù)機(jī)構(gòu)和商業(yè)公司介入了古籍的數(shù)字化工作，使古籍?dāng)?shù)字化的規(guī)模迅速擴(kuò)大。如國(guó)家圖書(shū)館制定龐大古籍文獻(xiàn)的數(shù)字化計(jì)劃，像碑帖菁華、西夏碎金、敦煌遺珍、數(shù)字方志以及甲骨文、永樂(lè)大典等；北京大學(xué)圖書(shū)館推出了“秘籍琳瑯項(xiàng)目：劉俊文先生開(kāi)始主持“中國(guó)基本古籍庫(kù)光盤(pán)工程；北京書(shū)同文數(shù)字化技術(shù)有限公司先后開(kāi)發(fā)了四庫(kù)全書(shū)、四部叢刊、康熙字典的電子版：國(guó)學(xué)公司開(kāi)始開(kāi)發(fā)國(guó)學(xué)寶

13、典等系列產(chǎn)品。在這一過(guò)程中，人們對(duì)數(shù)字化古籍資源的特征、古籍實(shí)現(xiàn)數(shù)字化的原則、形式等基本問(wèn)題的認(rèn)識(shí)有了明顯的升華。過(guò)去長(zhǎng)期制約古籍?dāng)?shù)字化實(shí)現(xiàn)的一些關(guān)鍵性技術(shù)經(jīng)過(guò)持續(xù)的研究和試驗(yàn)。取得了明顯進(jìn)展。當(dāng)前，網(wǎng)上可見(jiàn)的中文古籍?dāng)?shù)據(jù)庫(kù)有近百個(gè)，大型的網(wǎng)絡(luò)古籍?dāng)?shù)據(jù)庫(kù)也是可圈可點(diǎn)。古籍?dāng)?shù)字化的形式也經(jīng)歷了光盤(pán)版、數(shù)據(jù)庫(kù)版、網(wǎng)絡(luò)版三個(gè)建設(shè)階段，開(kāi)發(fā)的重點(diǎn)也由早期的書(shū)目數(shù)據(jù)庫(kù)的建設(shè)轉(zhuǎn)向全文數(shù)據(jù)庫(kù)，而且逐漸向?qū)ｎ}特色數(shù)據(jù)庫(kù)、專(zhuān)科數(shù)據(jù)庫(kù)、地方特色數(shù)據(jù)庫(kù)的建設(shè)進(jìn)行轉(zhuǎn)變。在理論研究的方面，古籍?dāng)?shù)字化也取得了很多實(shí)質(zhì)性的進(jìn)步，主要表現(xiàn)在古籍?dāng)?shù)字化概念已經(jīng)形成；標(biāo)準(zhǔn)程式和體系結(jié)構(gòu)的確立：數(shù)據(jù)庫(kù)檢索系統(tǒng)、輔助性研究支持系統(tǒng)的

14、完善；書(shū)目數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)和規(guī)范已基本確定；技術(shù)研究更多地轉(zhuǎn)向古籍?dāng)?shù)字化的高級(jí)功能，如數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)等，“我國(guó)古籍?dāng)?shù)字化工程雖然起步比歐美國(guó)家晚，但是發(fā)展至今，無(wú)論在規(guī)模和水平上都已遠(yuǎn)遠(yuǎn)超過(guò)海外。1.2.2 國(guó)外研究現(xiàn)狀在國(guó)外，北美地區(qū)由美國(guó)圖書(shū)館協(xié)會(huì)在1980年提出了編制中國(guó)古籍善本國(guó)際聯(lián)合目錄，其中涉及的高校包括北美的13所，中國(guó)大陸的5所。在1991年，他們開(kāi)始實(shí)施把清嘉慶以前的刻本、抄本都制成機(jī)讀格式，被稱(chēng)為中國(guó)古籍國(guó)際聯(lián)合目錄.目前，該工作屬于美國(guó)普林斯頓大學(xué)東業(yè)研究所的一個(gè)獨(dú)立計(jì)劃，稱(chēng)為“RIG-CRBP”(Chinese Rare Books Project中國(guó)善本圖書(shū)計(jì)劃)。此

15、后，“American Memory PllotProject(美國(guó)記憶導(dǎo)航計(jì)劃)成功地將該館21萬(wàn)件館藏予以數(shù)字化處理，將所有的圖書(shū)、繪畫(huà)、手稿和照片全部轉(zhuǎn)化成數(shù)字化圖像并通過(guò)國(guó)際互聯(lián)網(wǎng)進(jìn)行傳輸，包括部分中文古籍圖書(shū)資源。同樣，英國(guó)圖書(shū)館于1993年發(fā)布了“2000年規(guī)劃目標(biāo)”(StrategicobjectivesfortheYear2000)，計(jì)劃到2000年實(shí)現(xiàn)館藏文獻(xiàn)數(shù)字化并運(yùn)行于網(wǎng)絡(luò)，為全球讀者盡可能地提供檢索查詢(xún)服務(wù)?！比毡緢D書(shū)館中收藏有大量的中文古籍，在1998年，日本國(guó)立國(guó)會(huì)圖書(shū)館制定了國(guó)立國(guó)會(huì)圖書(shū)館數(shù)字圖書(shū)館計(jì)劃。該計(jì)劃對(duì)中國(guó)傳統(tǒng)的文化和珍貴的典籍進(jìn)行了數(shù)字化，至2003年

16、，已建立了擁有500余件中文古籍圖像的數(shù)據(jù)庫(kù)，其中，水樂(lè)大典、古文孝經(jīng)、姓解、(天臺(tái)山記等都是國(guó)內(nèi)罕見(jiàn)的珍本古籍。目前，國(guó)外尚有很多中文古籍?dāng)?shù)字化項(xiàng)目正在建設(shè)當(dāng)中，如日本的漢方醫(yī)朽大成已經(jīng)進(jìn)入全文數(shù)字化第二版，韓國(guó)國(guó)立漢城大學(xué)圖書(shū)館的“奎章閣古籍掃描全文閱讀系統(tǒng)”，法國(guó)也在進(jìn)行永樂(lè)大典等相關(guān)奧籍的數(shù)字化1。1.2.3 中醫(yī)古籍文本系統(tǒng)的研究目的中醫(yī)藥是我國(guó)傳統(tǒng)醫(yī)藥，歷史悠久，具有獨(dú)特的中醫(yī)理論體系、豐富的實(shí)踐經(jīng)驗(yàn)和突出的臨床優(yōu)勢(shì)，而中醫(yī)文獻(xiàn)則是積累、傳承、發(fā)展中醫(yī)學(xué)術(shù)的主要載體，中醫(yī)古籍對(duì)中醫(yī)事業(yè)的發(fā)展有著不可估量的作用。近年來(lái)，國(guó)家越來(lái)越重視中醫(yī)事業(yè)的發(fā)展，中醫(yī)事業(yè)在未來(lái)中國(guó)乃至全世界必然會(huì)

17、呈現(xiàn)出一派欣欣向榮的發(fā)展前景。中醫(yī)古籍的數(shù)字化技術(shù)也在不斷更新和完善，對(duì)中醫(yī)古籍的整理與研究工作是一項(xiàng)極其艱巨、但又極富意義和極其具有挑戰(zhàn)性的工作。本研究試圖通過(guò)建立用戶(hù)的中醫(yī)古籍評(píng)價(jià)指標(biāo)體系，在此基礎(chǔ)上對(duì)現(xiàn)有的古籍案例進(jìn)行對(duì)比分析，取長(zhǎng)補(bǔ)短，結(jié)合現(xiàn)有最新的理論和技術(shù)，提出一種以服務(wù)用戶(hù)為中心的較為理想的中醫(yī)古籍整理方案。中醫(yī)古籍承載著中醫(yī)學(xué)數(shù)千年來(lái)積累的豐富的理論知識(shí)和臨床經(jīng)驗(yàn)，是中醫(yī)藥學(xué)理論的源泉和實(shí)踐的有力指導(dǎo)，中醫(yī)古籍的整理和利用是推動(dòng)中醫(yī)藥學(xué)發(fā)展的不竭動(dòng)力。中醫(yī)古籍文本分析系統(tǒng)關(guān)鍵技術(shù)與實(shí)現(xiàn)是適應(yīng)時(shí)代發(fā)展趨勢(shì)，傳承中醫(yī)文化、造福人民的盛舉2。1.3 論文的研究?jī)?nèi)容和組織結(jié)構(gòu)本論文的研

18、究工作重點(diǎn)是研究關(guān)聯(lián)分析算法在中醫(yī)古籍?dāng)?shù)據(jù)挖掘上的應(yīng)用。本文主要由以下幾個(gè)章節(jié)來(lái)組成的：第一章緒論，介紹了本論文的研究意義和相關(guān)背景，以及論文相關(guān)的國(guó)內(nèi)外研究發(fā)展現(xiàn)狀。最終給出了論文的整體組織結(jié)構(gòu)。第二章相關(guān)技術(shù)，主要論述了數(shù)據(jù)挖掘技術(shù)、關(guān)聯(lián)規(guī)則技術(shù)、中醫(yī)古籍?dāng)?shù)據(jù)文本挖掘技術(shù)。第三章基于相關(guān)性分析對(duì)中醫(yī)古籍文本進(jìn)行研究。首先論述了Apriori算法的具體實(shí)現(xiàn)流程，然后設(shè)計(jì)了Aprioiri算法，詳細(xì)介紹了使用Matlab2018b對(duì)預(yù)處理后的藥方數(shù)據(jù)進(jìn)行Apriori算法數(shù)據(jù)挖掘的過(guò)程，并簡(jiǎn)要分析了挖掘結(jié)果。第四章具體分析了數(shù)據(jù)挖掘的結(jié)果，對(duì)其結(jié)合中醫(yī)學(xué)進(jìn)行了解釋?zhuān)ㄟ^(guò)分析得到的關(guān)聯(lián)規(guī)則結(jié)果，

19、表明通過(guò)關(guān)聯(lián)規(guī)則能夠得到有效的中醫(yī)藥數(shù)據(jù)挖掘結(jié)果，符合中醫(yī)相關(guān)理論，具有較好的臨床參考價(jià)值，同時(shí)敘述了對(duì)中醫(yī)古籍?dāng)?shù)字化的思考與展望。第五章對(duì)論文的工作進(jìn)行了總結(jié),并對(duì)未來(lái)研究發(fā)展做了展望。第2章相關(guān)技術(shù)2.1 數(shù)據(jù)挖掘技術(shù)概述2.1.1 數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘（Data Mining）是指通過(guò)大量數(shù)據(jù)集進(jìn)行分類(lèi)的自動(dòng)化過(guò)程，以通過(guò)數(shù)據(jù)分析來(lái)識(shí)別趨勢(shì)和模式，建立關(guān)系來(lái)解決業(yè)務(wù)問(wèn)題。換句話來(lái)說(shuō)，數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取出隱藏在其中的、人們事先不知道的、但是又潛在有用的信息和知識(shí)的過(guò)程。數(shù)據(jù)挖掘分為有指導(dǎo)的數(shù)據(jù)挖掘和無(wú)指導(dǎo)的數(shù)據(jù)挖掘。有指導(dǎo)的數(shù)據(jù)挖掘是利用可

20、用的數(shù)據(jù)建立一個(gè)模型，這個(gè)模型是對(duì)一個(gè)特定屬性的描述。無(wú)指導(dǎo)的數(shù)據(jù)挖掘是在所有的屬性中尋找某種關(guān)系。具體而言，分類(lèi)、估值和預(yù)測(cè)屬于有指導(dǎo)的數(shù)據(jù)挖掘；關(guān)聯(lián)規(guī)則和聚類(lèi)屬于無(wú)指導(dǎo)的數(shù)據(jù)挖掘。數(shù)據(jù)挖掘一般與計(jì)算機(jī)科學(xué)有關(guān)系，并且通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專(zhuān)家系統(tǒng)（依靠過(guò)去的經(jīng)驗(yàn)法則）和形式識(shí)別等很多方法來(lái)完成上述的目標(biāo)。當(dāng)前，數(shù)據(jù)挖掘的算法主要包括神經(jīng)網(wǎng)絡(luò)法、決策樹(shù)法、遺傳算法、粗糙集法、模糊集法、關(guān)聯(lián)規(guī)則法等3。2.1.2 數(shù)據(jù)挖掘的技術(shù)流程從數(shù)據(jù)本身來(lái)思考，經(jīng)常數(shù)據(jù)挖掘需要有數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)挖掘?qū)嵤┻^(guò)程、形式評(píng)估和知識(shí)表示等8個(gè)步驟。（1）信息收集：根據(jù)已確定的數(shù)據(jù)分析對(duì)

21、象抽象出在數(shù)據(jù)分析中所需要的特征信息，然后選擇最合適的信息收集方法，將收集到的信息存入數(shù)據(jù)庫(kù)當(dāng)中。對(duì)于大量數(shù)據(jù)，選擇一個(gè)合適的數(shù)據(jù)存儲(chǔ)和管理的數(shù)據(jù)倉(cāng)庫(kù)是至關(guān)重要的。（2）數(shù)據(jù)集成：把不同原因、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中，從而為企業(yè)提供全面的數(shù)據(jù)共享。（3）數(shù)據(jù)規(guī)約：執(zhí)行多數(shù)的數(shù)據(jù)挖掘算法即使在少量數(shù)據(jù)上也需要很長(zhǎng)的時(shí)間，而做商業(yè)運(yùn)營(yíng)數(shù)據(jù)挖掘時(shí)往往數(shù)據(jù)量非常大。數(shù)據(jù)規(guī)約技術(shù)可以用來(lái)得到數(shù)據(jù)集的規(guī)約表示，它小得多，但是依舊接近于保持原數(shù)據(jù)的完整性，并且規(guī)約后執(zhí)行數(shù)據(jù)挖掘結(jié)果與規(guī)約前實(shí)行結(jié)果相同或幾乎相同。（4）數(shù)據(jù)清理：在數(shù)據(jù)庫(kù)當(dāng)中的數(shù)據(jù)一些是不完整的（有些感興趣的屬性缺少屬性

22、值），含噪聲的（包含錯(cuò)誤的屬性值），并且是不一致的（同樣的信息不同的表示方式），以是需要進(jìn)行數(shù)據(jù)清理，將完整、正確、一致的數(shù)據(jù)信息存入數(shù)據(jù)倉(cāng)庫(kù)當(dāng)中。（5）數(shù)據(jù)變換：通過(guò)平滑聚集，數(shù)據(jù)概化，規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。對(duì)于有些實(shí)數(shù)型數(shù)據(jù),通過(guò)概念分層和數(shù)據(jù)的離散化來(lái)轉(zhuǎn)換數(shù)據(jù)也是重要的一步。（6）數(shù)據(jù)挖掘過(guò)程：根據(jù)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)信息，選擇合適的分析工具，應(yīng)用統(tǒng)計(jì)方法、事例推理、決策樹(shù)、規(guī)則推理、模糊集、甚至神經(jīng)網(wǎng)絡(luò)、遺傳算法的方法處理信息，得出有用的分析信息。（7）模式評(píng)估：從商業(yè)角度，由行業(yè)專(zhuān)家來(lái)驗(yàn)證數(shù)據(jù)挖掘結(jié)果的正確性。（8）知識(shí)表示：將數(shù)據(jù)挖掘所得到的分析信息以可視化的方

23、式呈現(xiàn)給用戶(hù)，或作為新的知識(shí)存放在知識(shí)庫(kù)中，供其他應(yīng)用程序使用。數(shù)據(jù)挖掘過(guò)程是一個(gè)反復(fù)循環(huán)的枯燥過(guò)程，每一個(gè)步驟要是沒(méi)有達(dá)到預(yù)期目標(biāo)，都需要回到前面的步驟，重新調(diào)整并實(shí)行。不是每件數(shù)據(jù)挖掘的工作都需要這里列出的每一步，例如在某個(gè)工作中不存在多個(gè)數(shù)據(jù)源的時(shí)候，步驟（2）數(shù)據(jù)集成的步驟便可以省略。步驟（3）數(shù)據(jù)規(guī)約（4）數(shù)據(jù)清理（5）數(shù)據(jù)變換又合稱(chēng)數(shù)據(jù)預(yù)處理。在數(shù)據(jù)挖掘中，至少60%的費(fèi)用可能要花在步驟（1）信息收集階段，而至少60%以上的精力和時(shí)間是花在數(shù)據(jù)預(yù)處理4。圖2-1 數(shù)據(jù)挖掘系統(tǒng)框圖2.2 關(guān)聯(lián)規(guī)則技術(shù)概述關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘研究領(lǐng)域的一個(gè)重要部分，是挖掘大量數(shù)據(jù)中項(xiàng)集之間的相互依賴(lài)性或

24、關(guān)聯(lián)性。該問(wèn)題由R.Agrawal等人于1993年對(duì)市場(chǎng)購(gòu)物籃問(wèn)題進(jìn)行分析時(shí)首次提出，用以發(fā)現(xiàn)商品銷(xiāo)售交易中的顧客購(gòu)買(mǎi)模式。醫(yī)學(xué)研究者可以從成千上萬(wàn)份病例中找出某些疾病的共同特征，或發(fā)現(xiàn)某位著名老醫(yī)生的治病思路，從而為治療疾病提供幫助。其最經(jīng)典的算法是R.Agrawal等人提出的Apriori算法。Apriori算法應(yīng)用的一個(gè)典型例子是購(gòu)物籃分析。市場(chǎng)分析員要從大量的數(shù)據(jù)當(dāng)中發(fā)現(xiàn)顧客放入其購(gòu)物籃中的不同商品之間的關(guān)系。如果顧客買(mǎi)牛奶，他也購(gòu)買(mǎi)面包的可能性有多大？什么商品組或集合顧客多半會(huì)在一次購(gòu)物時(shí)同時(shí)購(gòu)買(mǎi)？比如，買(mǎi)牛奶的顧客有80%也同時(shí)買(mǎi)面包，或買(mǎi)鐵錘的顧客中有70%的人同時(shí)也買(mǎi)鐵釘，這

25、就是從購(gòu)物籃數(shù)據(jù)中提取的關(guān)聯(lián)規(guī)則。分析結(jié)果可以幫助經(jīng)理設(shè)計(jì)不同的商店布局。一種戰(zhàn)略是：通常一起購(gòu)買(mǎi)的商品可以放近一些，以便進(jìn)一步刺激這些商品一起銷(xiāo)售，比如，如果顧客購(gòu)買(mǎi)計(jì)算機(jī)又偏向于同時(shí)購(gòu)買(mǎi)財(cái)務(wù)軟件，那么將硬件擺放離軟件陳列近一點(diǎn)，可能有助于增加兩者的銷(xiāo)售。另一種戰(zhàn)略是：將硬件和軟件放在商店的兩端，可能誘發(fā)購(gòu)買(mǎi)這些商品的顧客一路挑選其他商品。這種關(guān)聯(lián)的發(fā)現(xiàn)可以有助于零售商制定營(yíng)銷(xiāo)策略，進(jìn)行市場(chǎng)運(yùn)作，以刺激內(nèi)需，促進(jìn)經(jīng)濟(jì)發(fā)展4。2.2.1 關(guān)聯(lián)規(guī)則的定義(1) 項(xiàng)集（Itemset）。ikk=1,2,m稱(chēng)為數(shù)據(jù)項(xiàng)，數(shù)據(jù)項(xiàng)集是由數(shù)據(jù)庫(kù)當(dāng)中的個(gè)不同項(xiàng)組成的集合I，I=i1,i2,im。包含k個(gè)數(shù)據(jù)項(xiàng)

26、的項(xiàng)集稱(chēng)為k-項(xiàng)集，k表示項(xiàng)集中項(xiàng)的數(shù)量。(2) 事務(wù)。D為事務(wù)數(shù)據(jù)庫(kù)，tk(k=1,2,n)稱(chēng)為事務(wù)，每項(xiàng)事務(wù)是由數(shù)據(jù)項(xiàng)集中的若干個(gè)項(xiàng)組成的集合，即tk=tk1,tk2,tknI，每一個(gè)事務(wù)有一個(gè)唯一的標(biāo)識(shí)符tid與之對(duì)應(yīng)。(3) 關(guān)聯(lián)規(guī)則。若X，Y為項(xiàng)集，關(guān)聯(lián)規(guī)則是形如XY的蘊(yùn)涵式，其中XI，YI，并且XY=。表示項(xiàng)集X在某一事務(wù)中出現(xiàn)時(shí)，一定程度上也會(huì)導(dǎo)致項(xiàng)集Y在同一事務(wù)中出現(xiàn)。(4) 支持度。關(guān)聯(lián)規(guī)則的支持度是表示規(guī)則模式出現(xiàn)可能性的度量，反映了規(guī)則的支持率。事務(wù)數(shù)據(jù)庫(kù)中支持項(xiàng)目集口的事務(wù)數(shù)稱(chēng)為關(guān)聯(lián)規(guī)則二的支持度，他可以等價(jià)與項(xiàng)集在數(shù)據(jù)集中出現(xiàn)的頻率。(5) 頻繁項(xiàng)集。頻繁項(xiàng)集是在數(shù)據(jù)

27、集中出現(xiàn)頻率較高的數(shù)據(jù)。設(shè)項(xiàng)目（Item）集合I=i1,i2,i_n，事務(wù)（Transaction）集合T=t1,t2,tn，其中，每個(gè)事物ti是一個(gè)項(xiàng)目集合，并滿足tiI，項(xiàng)目就是類(lèi)似2.2.1中所說(shuō)的啤酒和尿布等商品，事務(wù)就是同時(shí)出現(xiàn)的幾個(gè)項(xiàng)目的集合5。一個(gè)關(guān)聯(lián)規(guī)則是一個(gè)如下形式的蘊(yùn)涵關(guān)系：XY，其中，XI,YI且XY=公式(2- 1)X(或Y)是一個(gè)項(xiàng)目的集合，稱(chēng)為項(xiàng)集(Itemset)，X稱(chēng)為前件，Y稱(chēng)為后件。如果項(xiàng)集X是事物ti的一個(gè)子集，則稱(chēng)ti包含X，或稱(chēng)X覆蓋ti。X在T中的支持計(jì)數(shù)（表示位X.count）是T中包含X的事物的數(shù)目。對(duì)于關(guān)聯(lián)規(guī)則XY，（n為事物數(shù)目）：支持度=X

28、Y.countn公式(2- 2)置信度=XY.countn公式(2- 3)支持度用于衡量一條規(guī)則出現(xiàn)得有多頻繁，只有出現(xiàn)得足夠頻繁的規(guī)則對(duì)我們才有用，比如。置信度用于衡量從前件推出后件的可信度，類(lèi)似于概率。值得注意的是，只要一條規(guī)則的支持度達(dá)到用戶(hù)要求的最小支持度(minsup)時(shí)，我們才去考慮這條規(guī)則從前件到后件的置信度。關(guān)聯(lián)規(guī)則挖掘的目標(biāo)就是，找出事物集合T中所有滿足支持度和置信度分別高于用戶(hù)指定的最小支持度和最小置信度(minconf)的規(guī)則。2.2.2 關(guān)聯(lián)規(guī)則算法的分類(lèi)關(guān)聯(lián)規(guī)則分析是數(shù)據(jù)挖掘中最活躍的研究方法之一，目的是在一個(gè)數(shù)據(jù)集中找出各項(xiàng)之間的關(guān)聯(lián)關(guān)系，而這種關(guān)系并沒(méi)有在數(shù)據(jù)中直

29、接表示出來(lái)6。表2-1 關(guān)聯(lián)算法分類(lèi)算法名稱(chēng)算法核心思想Apriori關(guān)聯(lián)規(guī)則最常用的也是最經(jīng)典的挖掘經(jīng)常項(xiàng)集的算法，其中核心思想是通過(guò)連接產(chǎn)生候選項(xiàng)及基支持度，然后通過(guò)剪枝生成頻繁項(xiàng)集FP-Tree針對(duì)Apriori算法固有的多次掃描事務(wù)數(shù)據(jù)集的弊端，提出的不產(chǎn)生候選繁項(xiàng)集的方法。Apriori和FP-Tree都是追求頻繁項(xiàng)集的算法。Eclat算法Eclat算法是一種深度優(yōu)先算法，選取垂直數(shù)據(jù)表示形勢(shì)，在觀點(diǎn)格理論的基礎(chǔ)上利用基于前綴的等價(jià)關(guān)系將搜索空間劃分為較小的子空間?；疑P(guān)聯(lián)法闡述和確定各因素之間的影響程度或是若干個(gè)子因素(子序列)對(duì)主因素（母序列)的奉獻(xiàn)度而進(jìn)行的一種分析方法。2.2

30、.3 關(guān)聯(lián)規(guī)則挖掘過(guò)程關(guān)聯(lián)規(guī)則的挖掘過(guò)程可以看作包括兩個(gè)階段的過(guò)程，第一階段是找出所有的頻繁項(xiàng)集，即找出所有支持度大于或等于預(yù)定義的最小支持度閾值的項(xiàng)集。第二階段是由頻繁項(xiàng)集產(chǎn)生所期望的關(guān)聯(lián)規(guī)則，即找出滿足最小支持度閾值和最小置信度閾值的規(guī)則。在支持度一置信度框架之外，也可以使用附加的興趣度相關(guān)度等來(lái)發(fā)現(xiàn)相關(guān)聯(lián)的項(xiàng)之間的關(guān)聯(lián)規(guī)則。1. 在事務(wù)數(shù)據(jù)庫(kù)中高效地找出全部頻繁項(xiàng)集，它要面對(duì)巨大的數(shù)據(jù)量，直接處理事務(wù)數(shù)據(jù)庫(kù)，此步驟決定著挖掘過(guò)程的整體性能，也是關(guān)聯(lián)規(guī)則挖掘的核心。2. 第二步任務(wù)相對(duì)較為直觀容易，且開(kāi)銷(xiāo)遠(yuǎn)低于第一步?，F(xiàn)階段大量關(guān)聯(lián)規(guī)則的研究工作都集中在第一步過(guò)程上，大部分的算法及改進(jìn)算法

31、也都是針對(duì)第一步提出的7。挖掘過(guò)程見(jiàn)下圖所示：圖2-1 關(guān)聯(lián)規(guī)則的基本挖掘過(guò)程2.3 中醫(yī)古籍文本數(shù)據(jù)挖掘概述2.3.1 中醫(yī)古籍文本數(shù)據(jù)挖掘的概念中醫(yī)古籍文本數(shù)據(jù)挖掘就是利用中醫(yī)古籍文本數(shù)據(jù)庫(kù)從大量中醫(yī)醫(yī)案中抽取隱含的、未知的的中醫(yī)學(xué)知識(shí)。中醫(yī)古籍文本數(shù)據(jù)挖掘針對(duì)中醫(yī)學(xué)知識(shí)進(jìn)行挖掘，是獲取中醫(yī)學(xué)知識(shí)的現(xiàn)代技術(shù)方法，將為中醫(yī)學(xué)理論研究和中醫(yī)藥臨床診療提供重要的科學(xué)依據(jù)。2.3.2 中醫(yī)藥數(shù)據(jù)挖掘的流程（1）建立數(shù)據(jù)庫(kù)數(shù)據(jù)來(lái)源，以傷寒九十論著作為對(duì)象, 設(shè)計(jì)數(shù)據(jù)庫(kù)并進(jìn)行數(shù)據(jù)采集。（2）數(shù)據(jù)處理對(duì)癥狀、方劑名稱(chēng)，參照中華人民共和國(guó)藥典2015 年版和普通高等教育“十二五”國(guó)家級(jí)規(guī)劃教材中藥學(xué)進(jìn)行歸

32、納整理等。（3）統(tǒng)計(jì)分析將所使用的組方輸入到 Excel 表格中，得到病癥和方劑數(shù)據(jù)庫(kù)，并對(duì)全部納入數(shù)據(jù)進(jìn)行預(yù)處理，使用 Apriori 建模進(jìn)行關(guān)聯(lián)規(guī)則分析8。2.4 本章小節(jié)本章主要介紹了中醫(yī)古籍?dāng)?shù)據(jù)挖掘領(lǐng)域的相關(guān)知識(shí)，具體算法見(jiàn)第三章。分別敘述了數(shù)據(jù)挖掘技術(shù)的概念，技術(shù)流程和中醫(yī)古籍文本數(shù)據(jù)挖掘的概念流程。重點(diǎn)介紹了關(guān)聯(lián)規(guī)則的定義，算法分類(lèi)和關(guān)聯(lián)規(guī)則的挖掘過(guò)程。第3章基于相關(guān)性分析對(duì)中醫(yī)古籍文本研究3.1 Apriori算法概述Apriori算法分為兩步：第一步：生成全面頻繁項(xiàng)目集：一個(gè)頻繁項(xiàng)目集(Frequent Itemset)是一個(gè)支持度高于minsup的項(xiàng)集。第二步：從頻繁項(xiàng)目

33、集中生成所有可信關(guān)聯(lián)規(guī)則：一個(gè)可信關(guān)聯(lián)規(guī)則(Confident Association Rule)是置信度大于minconf的規(guī)則。接下來(lái)具體介紹Apriori算法的兩步。Apriori算法的第一步是簡(jiǎn)便統(tǒng)計(jì)所有含一個(gè)元素的項(xiàng)集出現(xiàn)的頻率，來(lái)決定最大的一維項(xiàng)目集。在第k步，分兩個(gè)階段，首先用函數(shù)sc_candidate(候選)，經(jīng)過(guò)第(k-1)步中生成的最大項(xiàng)目集L(k-1)來(lái)生成侯選項(xiàng)目集Ck。而后尋求數(shù)據(jù)庫(kù)計(jì)算侯選項(xiàng)目集Ck的支持度，為了更快速地計(jì)算Ck中項(xiàng)目的支持度，利用函數(shù)count_support計(jì)算支持度9。Apriori算法描述如下：(1) C1=candidate1-item

34、sets;(2) L1=cC1|c.countminsupport;(3) for(k=2,Lk-1,k+) /直到不能再生成最大項(xiàng)目集為止(4) Ck=sc_candidate(Lk-1); /生成含k個(gè)元素的侯選項(xiàng)目集(5) for all transactions tD /辦理處理(6) Ct=count_support(Ck,t); /包含在事務(wù)t中的侯選項(xiàng)目集(7) for all candidates cCt(8) c.count=c.count+1;(9) next(10) Lk=cCk|c.countminsupport;(11) next(12) resultset=resu

35、ltsetLk其中, D表示數(shù)據(jù)庫(kù)；minsupport表示給定的最小支持度；resultset表示所有最大項(xiàng)目集。Sc_candidate函數(shù)的參數(shù)為L(zhǎng)k-1，全部當(dāng)中最大k-1維項(xiàng)目集，最終返回含有k個(gè)項(xiàng)目的侯選項(xiàng)目集Ck。實(shí)際上,Ck是k維最大項(xiàng)目集的超集，經(jīng)過(guò)函數(shù)count_support計(jì)算項(xiàng)目的支持度，而后生成Lk。該函數(shù)是如何完成這些功能的，詳細(xì)說(shuō)明如下：首先，通過(guò)對(duì)Lk-1自連接操作生成Ck，稱(chēng)join(連接)步，該步可表述為：Insert into Ckselect P.item1，P.item2，P.itemk-1，Q.itemk-1 from Lk-1P，Lk-1Qw

36、here P.item1=Q.item1，P.itemk-2=Q.itemk-2，P.itemk-1Q.itemk-1若用集合表示：Ck=XX|X,XLk-1|XX|=k-2公式(3- 1)然后prune(修剪)步，即對(duì)任意的cCk，刪除Ck中全部那些(k-1)維子集不在Lk-1中的項(xiàng)目集，得到侯選項(xiàng)目集Ck。詳細(xì)說(shuō)明如下：for all itemsetcCkfor all (k-1)維子集s of cif(s不屬于Lk-1) then delete c from Ck；用集合表示10： Ck=XCk|XLk-1公式(3- 2)示例說(shuō)明Apriori算法運(yùn)作經(jīng)過(guò)，有一數(shù)據(jù)庫(kù)D, 其中有四個(gè)事

37、件記錄, 分別表示為表3-1 數(shù)據(jù)庫(kù)DTIDITEMST1I1，I3，I4T2I2，I3，I5T3I1，I2，I3，I5T4I2，I5如圖3-1，在Apriori算法中，首先統(tǒng)計(jì)出一維項(xiàng)目集C1。預(yù)定義最小支持度minsupport=2，侯選項(xiàng)目集中滿足最小支持度條件的項(xiàng)目集組合成最大的1-itemsets（繁1項(xiàng)），為生成最大的2-itemsets（繁2項(xiàng)），利用了sc_candidate函數(shù)中join步，即：L1joinL1，并經(jīng)過(guò)prune步刪除那些C2中子集不在L1中的項(xiàng)目集，生成了侯選項(xiàng)目集C2。查找D中4個(gè)事件，統(tǒng)計(jì)C2中每個(gè)侯選項(xiàng)目集的支持度。而后和最小支持度比較，生成L2。侯選

38、項(xiàng)目集C3是由L2生成。尋求自連接的兩個(gè)最大2-itemsets中，第一個(gè)項(xiàng)目相同，在L2中滿足該該的有I2，I3，I2，I5。這兩個(gè)集合經(jīng)過(guò)join步后，產(chǎn)生集合I2，I3，I5。在prune步中，測(cè)試I2，I3，I5的子集I3，I5，I2，I3，I2，I5是否在L2中，由L2可以知道I3，I5，I2，I3，I2，I5本身就是最大2-itemsets。即I2，I3，I5的子集都是最大項(xiàng)目集那么I2，I3，I5為侯選3-itemset。而后尋找數(shù)據(jù)庫(kù)中所有事務(wù)記錄，生成最大的3-tiemsets L3。此時(shí)，從L3中不能再生成侯選4-itemset ，Apriori算法結(jié)束。項(xiàng)集支持度計(jì)數(shù)

39、112123133141153 D:SUPPORT 2 TIDItems T111,13,14T212,13,15T311,12,13,15T412,15掃描D，對(duì)每一個(gè)候選計(jì)數(shù)項(xiàng)集支持度計(jì)數(shù)112123133 153項(xiàng)集11,1211,1311,1512,1312,1513,15C2 比較候選支持度計(jì)數(shù)與最小支持度計(jì)數(shù) 由L1產(chǎn)生候選C2 L1 掃描D，對(duì)每一個(gè)候選計(jì)數(shù)項(xiàng)集支持度計(jì)數(shù)11,12111,13211,15112,13212,153 13,152C2 項(xiàng)集支持度計(jì)數(shù)11,13412,134 12,15213,152 比較候選支持度計(jì)數(shù)與 L2最小支持度計(jì)數(shù) 由L2產(chǎn)生候選C3L3

40、項(xiàng)集支持度計(jì)數(shù)12,13,152比較候選支持度技術(shù)與最小支持度計(jì)數(shù)C3項(xiàng)集12,13,15圖3-1 Apriori算法具體流程3.2 中醫(yī)古籍文本數(shù)據(jù)的預(yù)處理使用關(guān)聯(lián)規(guī)則的挖掘方法，對(duì)大量中醫(yī)古籍?dāng)?shù)據(jù)進(jìn)行挖掘研究，能夠證實(shí)一些己知的規(guī)律，也能夠挖掘出未知的隱含在中醫(yī)數(shù)據(jù)內(nèi)部的聯(lián)系。通過(guò)挖掘數(shù)據(jù)中的頻繁項(xiàng)集或頻繁閉項(xiàng)集，找到潛在有價(jià)值的規(guī)則，對(duì)于解釋中醫(yī)思想、揭示中醫(yī)內(nèi)涵、提高中醫(yī)理論、拓展臨床思路具有重要意義。3.2.1 基本數(shù)據(jù)預(yù)處理方法中醫(yī)古籍文本的數(shù)據(jù)挖掘是對(duì)中醫(yī)幾千年沉沒(méi)的寶貴的歷史數(shù)據(jù)進(jìn)行去粗取精、去偽存真的經(jīng)過(guò)。經(jīng)常原始收集到的數(shù)據(jù)含有噪聲或存在缺失，不能直接應(yīng)用于數(shù)據(jù)挖掘中。本文

41、采用的中醫(yī)古籍病案數(shù)據(jù)，包含大量的古代語(yǔ)言的文字性描述，使得數(shù)據(jù)的預(yù)處理更加重要，需要將數(shù)據(jù)規(guī)范預(yù)處理后才能應(yīng)用于數(shù)據(jù)挖掘中。數(shù)據(jù)的預(yù)處理是數(shù)據(jù)挖掘技術(shù)中最重要的基礎(chǔ)步驟，是跟著數(shù)據(jù)挖掘的發(fā)展而發(fā)展的。迄今為止，己經(jīng)研究了大量的數(shù)據(jù)預(yù)處理技術(shù)。其中比較典型和有用的是以下幾種（1）數(shù)據(jù)清理。數(shù)據(jù)清理經(jīng)過(guò)填寫(xiě)空缺的值、識(shí)別、刪除孤立點(diǎn)、平滑噪聲數(shù)據(jù)、并且解決不一致等來(lái)“清理”數(shù)據(jù)。（2）數(shù)據(jù)集成。數(shù)據(jù)集成是將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合在一起，存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中。（3）數(shù)據(jù)變換。數(shù)據(jù)變換是指將數(shù)據(jù)轉(zhuǎn)換成最適合于挖掘的形式，如聚集、平滑、規(guī)范化、數(shù)據(jù)概化和屬性構(gòu)造等。（4）數(shù)據(jù)規(guī)約。數(shù)據(jù)規(guī)約可以通

42、過(guò)聚集，刪除冗余特性或聚類(lèi)等方面來(lái)壓縮數(shù)據(jù)。這些數(shù)據(jù)處理技術(shù)在數(shù)據(jù)挖掘之前使用，能大大提高數(shù)據(jù)挖掘的質(zhì)量，使數(shù)據(jù)挖掘產(chǎn)生的知識(shí)更加可靠，并且可以降低現(xiàn)實(shí)挖掘所需要的時(shí)間。3.2.2 實(shí)驗(yàn)數(shù)據(jù)采集及預(yù)處理論文中所選用的數(shù)據(jù)來(lái)自成書(shū)于公元960-1279年宋朝時(shí)期的古籍傷寒90論。選取其中明確記載且癥狀與用藥齊全的90例典型數(shù)據(jù)，如圖3-2，圖3-3所示，以其為基礎(chǔ)進(jìn)行數(shù)據(jù)挖掘。圖3-2 傷寒90論部分目錄圖3-3 傷寒90論部分內(nèi)容通過(guò)查閱相關(guān)資料，在疫病數(shù)據(jù)中選擇了中醫(yī)藥材這個(gè)主要屬性來(lái)挖掘每個(gè)病例的信息，即病例和處方藥物屬性。經(jīng)過(guò)對(duì)癥狀術(shù)語(yǔ)的規(guī)范統(tǒng)一，藥物命名的查詢(xún)統(tǒng)一，以及合并相同藥名的

43、等第一輪處理后，得到藥名病例的Excel表如表3-2所示表3-2 部分第一輪處理后的數(shù)據(jù)方劑序號(hào)方劑藥名1桂枝加芍藥湯證桂枝湯、赤芍藥2桂枝加附子湯證桂枝湯、附子3桂枝加厚樸杏子湯證桂枝湯、厚樸、杏仁4麻黃湯證麻黃湯5 大靑龍湯大靑龍湯6陽(yáng)明可下證大承氣湯7陽(yáng)明蜜兌證陽(yáng)明蜜兌8腎虛塢脫證女子二七天癸至，七七止，男子二八精氣溢,八八止，婦人月事，以時(shí)下,故七欲損也，男子精，欲滿不欲竭，故八欲益也,如此則男婦身常無(wú)病，精氣常固，雖有寒邪，易于調(diào)治,故曰二者可調(diào)，是知傷寒真氣壯者易治也9蹐中出血證姜附湯10陰中伏陽(yáng)證破陰丹：黃水銀各一兩，結(jié)沙子靑皮半兩，末，？糊，丸桐子大，毎職三十丸，冷鹽港送下

44、11傷寒暴死證不可治12夜間不眠證先與豬苓湯，次投之以當(dāng)歸，地黃，門(mén)冬，芍藥烏梅之類(lèi)為湯13大柴胡湯證大柴胡湯14陽(yáng)明急下證大柴胡15傷寒自解證抑陰助陽(yáng)溫翔16熱入血室證急以一呷散投之，自次曰以小柴胡湯加生地黃17筋惕肉喁證眞武湯主之，次以淸心九竹葉湯解余毒數(shù)曰差18陽(yáng)明當(dāng)下證大柴胡19桂枝加葛根湯證桂枝加葛根湯,麻黃20葛根湯證葛根湯21剛挃證先以承氣湯下之，次以續(xù)命湯調(diào)之22厥陰證茯苓甘草白朮桂枝湯，后投以烏梅丸23太陰證理中丸，繼以五稽散24太陽(yáng)中暍證瓜蒂散25指甲黑青證指甲黑青病，指甲黑青病，至此則為不治26瞪目直視證不治27 舌卷囊縮證卷舌而死28循衣摸床證不可治29邪入大經(jīng)證不可治

45、30太陽(yáng)桂枝證掛枝麻黃各半湯代之31桂枝證桂枝湯32少陰證先以吳萊萸湯救之，次調(diào)之以諸藥33少陽(yáng)證以牡蠣四逆湯調(diào)于前，繼之以桂枝柴胡各半湯為了在后續(xù)挖掘?qū)嶒?yàn)中減少漢字字符串的讀寫(xiě)，提高算法速度，對(duì)病例中出現(xiàn)的所有項(xiàng)目進(jìn)行數(shù)字編號(hào)，用數(shù)字表示代替漢字字符串。我們把每項(xiàng)癥狀定義為以開(kāi)始的兩位數(shù)字，把每項(xiàng)藥物定義為以10開(kāi)頭的四位數(shù)字，去除一些針灸、中醫(yī)診斷、不可治等病例，一共統(tǒng)計(jì)種51味常見(jiàn)中醫(yī)藥物，如表3-3所示。表3-3 編號(hào)預(yù)處理后數(shù)據(jù)1001桂枝1002附子1003厚樸1004杏仁1005大靑龍湯1006姜湯1007豬苓湯1008門(mén)冬1009烏梅1010芍藥1011竹葉1012葛根1013

46、茯苓1014白朮1015瓜蒂1016萊萸1017牡蠣1018柴胡1019人參1020白虎湯1021青皮1022橘皮1023地黃1024黃連1025雄黃1026赤小豆1027瓜蒂1028柴胡1029梔子1030樸硝然后將每種方劑對(duì)應(yīng)每種藥品在Excel表格中用數(shù)字替換并對(duì)應(yīng)起來(lái)，并轉(zhuǎn)換為Matlab中讀取的.csv格式，如圖3-4:圖3-4 部分替換編號(hào)后的數(shù)據(jù)3.3 數(shù)據(jù)分析采用的平臺(tái)及算法實(shí)現(xiàn)本論文數(shù)據(jù)分析采用的Matlab2018b，是mathworks官方開(kāi)發(fā)的新版本的商業(yè)數(shù)學(xué)軟件，適合對(duì)大型數(shù)據(jù)集運(yùn)行分析， matlab代碼可以與其他語(yǔ)言集成，擁有更多數(shù)據(jù)分析、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)選項(xiàng)，

47、并且速度比以往更快。適合用于工程計(jì)算、控制設(shè)計(jì)、信號(hào)處理與通訊、圖像處理、信號(hào)檢測(cè)、金融建模設(shè)計(jì)與分析等多個(gè)領(lǐng)域11。編寫(xiě)的主函數(shù)代碼及數(shù)據(jù).csv文件，首先使用uigetfile函數(shù)打開(kāi)需要處理的數(shù)據(jù)文件，如箭頭所指Serial_drug文件，main為主函數(shù)，apriori_data是通過(guò)length函數(shù)和for循環(huán)重構(gòu)后的矩陣，apriori_drug為生產(chǎn)的頻繁項(xiàng)集和置信度、支持度，如圖3-6所示：圖3-5 主函數(shù)及csv文件部分代碼文件如下，完整代碼在附錄%表格讀取數(shù)據(jù)處理clearfilename1,pathname=uigetfile(*.csv,打開(kāi)文件); %選擇文件if

48、pathname=0 filename=strcat(pathname,filename1); data header=xlsread(filename);endAB=data;ddno=1;while isempty(AB)usitemhb,lb=find(AB(:,1)=AB(1,1);usitno=length(usitemhb);for i=1:usitno ii=usitemhb(i); B(ddno,1)=AB(1,1); B(ddno,i+1)=AB(ii,2);endAB(1:usitno,:)=;ddno=ddno+1;endIT=unique(data(:,2);save(

49、apriori_data.mat,IT,B);clearload apriori_dataZZ=NaN;ZZ=ZZ;B(:,1);userno=length(B(:,1);IT=IT;itemno=length(IT);ZZ(1,2:1+itemno)=IT;for a=1:userno for b=2:length(B(1,:) if B(a,b) aa,bb=find(ZZ(1,:)=B(a,b); ZZ(a,bb)=1; end endendsave(apriori_data2.mat,ZZ);3.4 頻繁項(xiàng)集的挖掘結(jié)果當(dāng)tth=1(最小支持度計(jì)數(shù))，置信度0.2時(shí)，最終運(yùn)行結(jié)果：100

50、9,1014,1043,1026,1027,1046如圖3-6所示圖3-6 支持度為1結(jié)果當(dāng)tth=2(最小支持度計(jì)數(shù))時(shí)，置信度為0.2時(shí)，最終運(yùn)行結(jié)果頻繁集項(xiàng)為1026，1027，1046。如圖3-7所示圖3-7 支持度為2結(jié)果Apriori算法在每次迭代經(jīng)過(guò)后，大于支持度的項(xiàng)集被保留為頻繁項(xiàng)集，最終生成的規(guī)則由最終的頻繁項(xiàng)集組成，因此跟著提高最小支持度計(jì)數(shù)，最終得到的頻繁集也會(huì)相應(yīng)減少。3.5 本章小節(jié)本章首先介紹了Apriori算法的具體實(shí)現(xiàn)流程，然后設(shè)計(jì)了Aprioiri算法，詳細(xì)介紹了使用Matlab2018b對(duì)預(yù)處理后的藥方數(shù)據(jù)進(jìn)行Apriori算法數(shù)據(jù)挖掘的過(guò)程，并簡(jiǎn)要分析了挖

51、掘結(jié)果。第4章研究結(jié)果分析4.1 關(guān)聯(lián)規(guī)則挖掘結(jié)果4.1.1 藥對(duì)之間的關(guān)聯(lián)規(guī)則挖掘藥對(duì)之間的關(guān)聯(lián)規(guī)則，研究藥物與藥物之間的配對(duì)關(guān)系。設(shè)定最小支持度計(jì)數(shù)為2，最小置信度閉值為0.2，得到藥對(duì)之間的一維關(guān)聯(lián)結(jié)果如圖4-1圖4-1 一維關(guān)聯(lián)結(jié)果經(jīng)過(guò)對(duì)照藥物表?yè)Q算后，1009：烏梅，1012：葛根；1014：白術(shù)， 1020：白虎湯，1023，地黃；1027：瓜蒂，1031，三黃；1035，麻黃；1037，小柴胡湯；1040，小承氣湯，1046：秫米。表4-1 關(guān)聯(lián)規(guī)則列表1關(guān)聯(lián)規(guī)則支持度置信度烏梅白術(shù)0.0149250.33333烏梅白術(shù)0.0149250.33333烏梅地黃0.0298510

52、.33333葛根麻黃0.0149250.5小承氣湯白虎湯0.0149250.5瓜蒂秫米0.0298510.66667秫米瓜蒂0.0298510.66667三黃麻黃0.0298510.33333秫米麻黃0.0298510.33333保持最小支持度計(jì)數(shù)為2不變，最小置信度閉值為0.002時(shí)，如圖4-2圖4-2 修改最小置信度的關(guān)聯(lián)結(jié)果對(duì)比表3-1，因?yàn)闇p低了置信度閉值，增加了以下的關(guān)聯(lián)規(guī)則：表4-2 關(guān)聯(lián)規(guī)則列表2關(guān)聯(lián)規(guī)則支持度置信度白虎湯烏梅0.0149250.16667麻黃葛根0.0149250.11111地黃烏梅0.0149250.16667白虎湯牡蠣0.0149250.16667白虎湯小承氣湯0.0149250.16667地黃麻黃0.0298510.16667保持置信度為0.2不變，修改最小支持度計(jì)數(shù)為3：圖4

人人文庫(kù)> 全部分類(lèi)> 畢業(yè)設(shè)計(jì) > 畢業(yè)論文

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

中醫(yī)古籍文本本分析系統(tǒng)關(guān)鍵技術(shù)研究與實(shí)現(xiàn)論文設(shè)計(jì)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

中醫(yī)古籍文本本分析系統(tǒng)關(guān)鍵技術(shù)研究與實(shí)現(xiàn)論文設(shè)計(jì)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔