版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
18十月2022醫(yī)學(xué)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘1
—
第10章—
數(shù)據(jù)挖掘
數(shù)據(jù)挖掘在醫(yī)學(xué)中的應(yīng)用15十月2022醫(yī)學(xué)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘1
—第10第十章醫(yī)學(xué)數(shù)據(jù)挖掘醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘概述醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘的應(yīng)用研究醫(yī)學(xué)文本數(shù)據(jù)挖掘文本數(shù)據(jù)挖掘概述醫(yī)學(xué)文本數(shù)據(jù)挖掘的應(yīng)用研究2第十章醫(yī)學(xué)數(shù)據(jù)挖掘醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘2醫(yī)學(xué)數(shù)據(jù)挖掘醫(yī)學(xué)數(shù)據(jù)挖掘面向整個醫(yī)學(xué)數(shù)據(jù)庫或醫(yī)學(xué)信息集合提供知識和決策,是醫(yī)療決策支持系統(tǒng)的重要組成部分。醫(yī)學(xué)數(shù)據(jù)結(jié)構(gòu)化醫(yī)學(xué)數(shù)據(jù):數(shù)據(jù)結(jié)構(gòu)明確、內(nèi)容經(jīng)整理可有效存儲和處理。如醫(yī)學(xué)病歷。非結(jié)構(gòu)化醫(yī)學(xué)數(shù)據(jù):本身無規(guī)范結(jié)構(gòu)、內(nèi)容較復(fù)雜。如醫(yī)學(xué)多媒體數(shù)據(jù)、文本數(shù)據(jù)等。3醫(yī)學(xué)數(shù)據(jù)挖掘醫(yī)學(xué)數(shù)據(jù)挖掘面向整個醫(yī)學(xué)數(shù)據(jù)庫或醫(yī)學(xué)醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘概述醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)產(chǎn)生醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)來源
日常醫(yī)療實踐,如醫(yī)學(xué)影像處理的PACS系統(tǒng)、臨床檢驗的LIS系統(tǒng)等信息化管理系統(tǒng)。
患者角度:登記掛號、就診、開單檢查…
4醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘概述4醫(yī)院角度:各科室信息的統(tǒng)計和匯總。
非結(jié)構(gòu)化數(shù)據(jù)(如手寫病歷、檢驗報告單)經(jīng)錄入可以轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘醫(yī)院角度:各科室信息的統(tǒng)計和匯總。醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘中醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)存在形式:文獻數(shù)據(jù)庫、臨床數(shù)據(jù)庫。下面從三方面介紹醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘:中醫(yī)藥文獻數(shù)據(jù)庫
挖掘?qū)ο螅喊谥嗅t(yī)藥古籍文獻以及當(dāng)前的研究文獻中的海量中醫(yī)藥數(shù)據(jù)。提取知識。6醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘中醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)存在形式:文獻數(shù)據(jù)庫、臨床辛亥革命以前:中醫(yī)藥學(xué)古籍文獻13000多種辛亥革命以后:中醫(yī)藥圖書12000多種,中醫(yī)期刊230多種1987~2003年發(fā)表:中醫(yī)藥文獻530700篇醫(yī)院信息管理系統(tǒng)醫(yī)生診病問題:個人臨床經(jīng)驗有限,難以從復(fù)雜醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘辛亥革命以前:中醫(yī)藥學(xué)古籍文獻13000多種醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘混亂數(shù)據(jù)中提取知識。
挖掘?qū)ο螅捍鎯τ贖IS的大量病案數(shù)據(jù)為醫(yī)生提供極具價值的知識,優(yōu)化傳統(tǒng)醫(yī)療方案。
HIS=MIS+CISHIS:醫(yī)院信息管理系統(tǒng);
8醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘混亂數(shù)據(jù)中提取知識。8MIS:管理信息系統(tǒng)處理醫(yī)院內(nèi)部管理方面CIS:臨床信息系統(tǒng)處理以患者為中心的一系列相關(guān)信息
醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘MIS:管理信息系統(tǒng)處理醫(yī)院內(nèi)部管理方面醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘
挖掘示例:從CIS數(shù)據(jù)庫分析某種疾病治療過程中誘發(fā)其他疾病的概率與時間的關(guān)系等。方劑數(shù)據(jù)庫
挖掘?qū)ο螅横t(yī)藥復(fù)方。挖掘隱含于復(fù)方的對疾病認識和治療的科學(xué)規(guī)律,補充10醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘10中醫(yī)藥專家系統(tǒng)知識庫。
復(fù)方新藥的經(jīng)驗開發(fā)模式:根據(jù)自身知識與經(jīng)驗組方臨床驗證療效好藥理學(xué)、中藥化學(xué)研究。復(fù)方新藥的新開發(fā)模式:利用數(shù)據(jù)挖掘和KDD技術(shù)開發(fā)研制中藥復(fù)方。醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘中醫(yī)藥專家系統(tǒng)知識庫。醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘的應(yīng)用研究文獻數(shù)據(jù)庫的數(shù)據(jù)挖掘
大量的中醫(yī)藥信息的流失影響中醫(yī)藥學(xué)的發(fā)展建設(shè)中醫(yī)藥科技信息數(shù)據(jù)庫、實現(xiàn)“數(shù)字中醫(yī)學(xué)”。
目前,國內(nèi)外已建成的中醫(yī)藥相關(guān)數(shù)據(jù)庫有近百個,以文字描述性數(shù)據(jù)庫為主。12醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘的應(yīng)用研究12方便了研究。
周連菊等建立的“《黃帝內(nèi)經(jīng)》計算機檢索數(shù)據(jù)庫系統(tǒng)”;
南京中醫(yī)藥大學(xué)研制出的“針灸腧穴文獻資料檢索系統(tǒng)”;
上海中醫(yī)藥大學(xué)研制的“《針灸大全》檢索系統(tǒng)”;
醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘方便了研究。醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘陜西中醫(yī)學(xué)院研制的“針灸甲乙經(jīng)通檢系統(tǒng)”;
中國中醫(yī)研究院研制的“ACULARS針灸文獻檢索系統(tǒng)”。為研究中醫(yī)古籍提供了快捷的瀏覽和檢索手段,方便了我們對中醫(yī)古籍的研究。14醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘陜西中醫(yī)學(xué)院研制的“針灸甲乙經(jīng)醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘醫(yī)院信息管理系統(tǒng)中的數(shù)據(jù)挖掘
從完整的病案信息取得統(tǒng)計原始數(shù)據(jù),為醫(yī)療管理及主管部門的決策提供前瞻性資料。
案例:
劉丹紅等人用上呼吸道感染病例的病案首頁數(shù)據(jù)和決策樹分析法建立病情危重度分類評價模型;
15醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘醫(yī)院信息管理系統(tǒng)中的數(shù)據(jù)挖掘15利用貝葉斯神經(jīng)網(wǎng)絡(luò)找出抗精神病藥物與心肌炎和心臟病發(fā)作的關(guān)系;粗集理論用于肺癌的診斷、宮頸癌病變的檢測等。常用數(shù)據(jù)挖掘方法有很多種,它們分別從不同側(cè)面、不同角度反映事物的本質(zhì):醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘利用貝葉斯神經(jīng)網(wǎng)絡(luò)找出抗精神病藥物與心肌炎和心臟病發(fā)作的關(guān)系醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘統(tǒng)計分析和可視化技術(shù):挖掘不同疾病在不同年齡段的至于時間、治愈率、平均費用等;不同疾病的地區(qū)分布情況等。決策樹、神經(jīng)網(wǎng)絡(luò)、粗糙集等:對病歷記錄挖掘,構(gòu)造相應(yīng)疾病的分類模型,并對每種疾病找出效果較好的治療方案。關(guān)聯(lián)規(guī)則:挖掘哪些疾病并發(fā)的可能性較高,某些疾病與年齡、性別、居住地、17醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘統(tǒng)計分析和可視化技術(shù):挖掘不同疾病在不同年職業(yè)、生活習(xí)慣等的關(guān)系。序列模型挖掘:病人的病情發(fā)展情況預(yù)測。中醫(yī)藥領(lǐng)域的數(shù)據(jù)挖掘(1)尋找新藥先導(dǎo)化合物醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘職業(yè)、生活習(xí)慣等的關(guān)系。醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘隨機篩選與意外發(fā)現(xiàn)定向挖掘
用數(shù)據(jù)挖掘去尋找先導(dǎo)化合物,指導(dǎo)中藥新藥的研究和開發(fā),縮短中藥研究開發(fā)的周期。(2)開發(fā)中藥復(fù)方
經(jīng)驗開發(fā)模式數(shù)據(jù)挖掘和KDD技術(shù)開(3)研究中藥指紋圖譜
用數(shù)據(jù)挖掘技術(shù)去發(fā)現(xiàn)和解析中藥指紋圖譜潛在信息,評價和控制中藥質(zhì)量及研究中藥定量組效之間的關(guān)系。19醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘隨機篩選與意外發(fā)現(xiàn)定向挖掘19醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘(4)中醫(yī)藥信息化研究
對古語言和純文本為主的中醫(yī)藥理論和實踐進行結(jié)構(gòu)化解釋,促進中醫(yī)藥信息結(jié)構(gòu)化、中藥臨床功效的規(guī)范化和標(biāo)準(zhǔn)化。方劑數(shù)據(jù)庫中的數(shù)據(jù)挖掘(1)探討復(fù)方配伍規(guī)律
如姚美村等人用關(guān)聯(lián)規(guī)則分析技術(shù)對治療消渴病的中藥復(fù)方配伍的科學(xué)內(nèi)涵進行探索性分析研究,建立復(fù)方特征數(shù)據(jù)庫。20醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘(4)中醫(yī)藥信息化研究20醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘(2)藥對研究方劑配伍規(guī)律的研究需在藥對研究的基礎(chǔ)上從簡到繁進一步深化;高頻用藥組合分析是對藥對分析的擴展。
如浙江大學(xué)用Apriori算法對三個數(shù)據(jù)庫中的方劑進行高頻用藥的知識發(fā)現(xiàn)和比較,與中國中醫(yī)藥對數(shù)據(jù)庫中收錄的藥對進行對比分析,得到一系列實驗結(jié)果。(21醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘(2)藥對研究213)開發(fā)面向中醫(yī)藥方劑的數(shù)據(jù)挖掘平臺
如浙大設(shè)計和開發(fā)的面向中醫(yī)藥方劑的數(shù)據(jù)挖掘平臺。醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘3)開發(fā)面向中醫(yī)藥方劑的數(shù)據(jù)挖掘平臺醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘23面向中醫(yī)藥方劑的數(shù)據(jù)挖掘平臺方劑選擇系統(tǒng)數(shù)據(jù)規(guī)范加工以及預(yù)處理系統(tǒng)挖掘算法系統(tǒng)高頻分析系統(tǒng)關(guān)聯(lián)規(guī)則分析系統(tǒng)聚類/分類分析系統(tǒng)挖掘算法性能評價系統(tǒng)醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘23面向中醫(yī)藥方劑的數(shù)據(jù)挖掘平臺方劑選擇系醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘中醫(yī)證候分析(1)辨證論治思維模式多元化遣方用藥模式
利用數(shù)據(jù)挖掘技術(shù)分析病、證、方、藥之間的關(guān)系和規(guī)律,從藥方證病的關(guān)系分析其制方的思維模式。(2)對中醫(yī)證候進行聚類挖掘,尋找與某些癥狀相似的證候。(3)建立和使用針對特殊問題的概化模型
基于數(shù)據(jù)建模建立智能決策支持系統(tǒng),加速中醫(yī)藥現(xiàn)代化、規(guī)范化和知識化進程。24醫(yī)學(xué)結(jié)構(gòu)化數(shù)據(jù)挖掘中醫(yī)證候分析24醫(yī)學(xué)文本數(shù)據(jù)挖掘文本數(shù)據(jù)挖掘概述文本數(shù)據(jù)挖掘的定義文本數(shù)據(jù)挖掘定義
從大量文本數(shù)據(jù)中抽取有效、新穎、可理解、最終可用的、散布在文本文件中的有價值的知識,并且運用這些知識更好地組織信息的過程。25醫(yī)學(xué)文本數(shù)據(jù)挖掘文本數(shù)據(jù)挖掘概述25文本挖掘的獨特之處(1)文本結(jié)構(gòu)本身是半結(jié)構(gòu)化或非結(jié)構(gòu)化的,無確定形式且缺乏及其可理解的語義;(2)涉及到多個學(xué)科領(lǐng)域。多數(shù)文本數(shù)據(jù)庫存放的是半結(jié)構(gòu)化數(shù)據(jù)。醫(yī)學(xué)文本數(shù)據(jù)挖掘文本挖掘的獨特之處醫(yī)學(xué)文本數(shù)據(jù)挖掘醫(yī)學(xué)文本數(shù)據(jù)挖掘當(dāng)數(shù)據(jù)挖掘的對象完全由文本這種數(shù)據(jù)類型組成時,這個過程就稱文本挖掘。文本數(shù)據(jù)挖掘的分類文本總結(jié)
抽取關(guān)鍵信息、對文本內(nèi)容進行摘要或解釋。27醫(yī)學(xué)文本數(shù)據(jù)挖掘當(dāng)數(shù)據(jù)挖掘的對象完全由文本這種數(shù)據(jù)文本分類
按照預(yù)先定義的主題類別,為文本集合中每個文本確定一個類別。文本聚類
無預(yù)先定義好的主題類別,其目標(biāo)是將文本集合分成若干個簇,要求同一簇內(nèi)相似度盡可能大,不同簇間相似度盡可能小。//層次凝聚法,平面劃分法醫(yī)學(xué)文本數(shù)據(jù)挖掘文本分類醫(yī)學(xué)文本數(shù)據(jù)挖掘醫(yī)學(xué)文本數(shù)據(jù)挖掘文本關(guān)聯(lián)分析
從文本集合中找出不同詞語之間的關(guān)系。文本分布分析與趨勢預(yù)測
通過對Web文本的分析,得到特定數(shù)據(jù)在某個歷史時刻的情況或?qū)淼娜≈第厔荨?9醫(yī)學(xué)文本數(shù)據(jù)挖掘文本關(guān)聯(lián)分析29文本挖掘過程(1)特征集的建立描述性特征:文本名稱、日期、大小、類型等;
語義性特征:文本作者、機構(gòu)、標(biāo)題、內(nèi)容等。(2)特征集的縮減
對文本特征向量降維,縮減特征集,包括橫向選擇和縱向投影。醫(yī)學(xué)文本數(shù)據(jù)挖掘文本挖掘過程醫(yī)學(xué)文本數(shù)據(jù)挖掘醫(yī)學(xué)文本數(shù)據(jù)挖掘橫向選擇:剔除有噪聲文檔或文檔過多時僅選部分文檔來挖掘;
縱向投影:根據(jù)挖掘目標(biāo)選取有用特征,獲得代表文檔集合的有效、精簡的特征子集。(3)學(xué)習(xí)和知識模式的提取
通過分類和聚類,提取面向特定應(yīng)用目的的知識模式。(4)模式質(zhì)量評價
31醫(yī)學(xué)文本數(shù)據(jù)挖掘橫向選擇:剔除有噪聲文檔或文檔過多時僅對知識模式進行質(zhì)量評價,若滿足要求則保存;否則返回分析改進進行新一輪挖掘。下面以文本分類來簡單介紹結(jié)果模式評價醫(yī)學(xué)文本數(shù)據(jù)挖掘?qū)χR模式進行質(zhì)量評價,若滿足要求則保存;否則返回分析改進進醫(yī)學(xué)文本數(shù)據(jù)挖掘文本分類的評價指標(biāo):查準(zhǔn)率和查全率。查準(zhǔn)率和查全率反映了分類質(zhì)量的兩個不同方面,故為了公平起見,形成一種新的評估指標(biāo),即F1測試值:33醫(yī)學(xué)文本數(shù)據(jù)挖掘文本分類的評價指標(biāo):查準(zhǔn)率和查全率。33醫(yī)學(xué)文本數(shù)據(jù)挖掘文本數(shù)據(jù)挖掘的關(guān)鍵技術(shù)文本預(yù)處理
目的:去掉那些文本中出現(xiàn)頻率高而對識別文本類別作用不大的詞,如“的、地、了”等。
一般方法:用高度概括的向量表示文本,將文本集向量集(即特征集),對向量集分析達到文本集自動分類、聚類、產(chǎn)生摘要等目的。(1)文本的向量空間表示
34醫(yī)學(xué)文本數(shù)據(jù)挖掘文本數(shù)據(jù)挖掘的關(guān)鍵技術(shù)34用文本特征集表示原來文本,實現(xiàn)從非結(jié)構(gòu)化結(jié)構(gòu)化的處理。
特征表示模型有:布爾邏輯型、概率型、向量空間型。醫(yī)學(xué)文本數(shù)據(jù)挖掘用文本特征集表示原來文本,實現(xiàn)從非結(jié)構(gòu)化結(jié)構(gòu)化的處理。醫(yī)學(xué)醫(yī)學(xué)文本數(shù)據(jù)挖掘(2)文本特征的提取一般特征:名詞和名詞短語;數(shù)字特征:日期、貨幣、時間和單純的數(shù)字信息等。對文本進行特征標(biāo)引可以利用自動標(biāo)引技術(shù)。
標(biāo)引:給出信息內(nèi)容特征的過程;
36醫(yī)學(xué)文本數(shù)據(jù)挖掘(2)文本特征的提取36自動標(biāo)引:利用計算機技術(shù)自動分析出能夠代表一段文本或一篇文章主題意義的詞匯(即關(guān)鍵詞或主題詞)。
關(guān)鍵詞標(biāo)引同義標(biāo)引詞泛濫,效果不好
主題詞標(biāo)引提高標(biāo)引質(zhì)量,效果好(3)文本的相似度
作用:提取重要段落或語句;文本分類和聚類。醫(yī)學(xué)文本數(shù)據(jù)挖掘自動標(biāo)引:利用計算機技術(shù)自動分析出能夠代表一段文本或一篇文章醫(yī)學(xué)文本數(shù)據(jù)挖掘文本特征向量可由文本與詞的相關(guān)矩陣來描述,即其中,表示第i篇文本與第j個詞的相關(guān)程度,m是文本總數(shù),n是詞的總數(shù)。利用相關(guān)系數(shù)S來表示相關(guān)性的大小,如Sij表示第i篇文本與第j篇文本的相關(guān)系數(shù),則38醫(yī)學(xué)文本數(shù)據(jù)挖掘文本特征向量可由文本與詞的相關(guān)矩陣來描述,即醫(yī)學(xué)文本數(shù)據(jù)挖掘文本分類
文本分類:根據(jù)文本的特征將其自動分配到預(yù)定義的類別。
(1)基于訓(xùn)練集的文本分類方法
如基于神經(jīng)網(wǎng)絡(luò)的方法、基于遺傳算法的方法、基于EM算法的方法、基于文本特征向量相關(guān)性的方法等?;谖谋咎卣飨蛄肯嚓P(guān)性的方法:39醫(yī)學(xué)文本數(shù)據(jù)挖掘文本分類39用規(guī)范化特征向量來構(gòu)造每一個需要分類的文本用規(guī)范化特征向量來構(gòu)造每一個預(yù)定義類別計算文本特征向量與類別特征向量的相似度來評價分類文本與每一個預(yù)定義類別特征之間的相關(guān)性。醫(yī)學(xué)文本數(shù)據(jù)挖掘用規(guī)范化特征向量來構(gòu)造每一個需要分類的文本醫(yī)學(xué)文本數(shù)據(jù)挖掘醫(yī)學(xué)文本數(shù)據(jù)挖掘(2)基于分類詞表的文本分類方法
實際問題:一詞多類、多詞一類、每類中存在帶共性的小類。
對文本的分類處理借助分類詞表來完成的分類方法。
文本分類過程:①從信息庫提取一條待分類記錄;
41醫(yī)學(xué)文本數(shù)據(jù)挖掘(2)基于分類詞表的文本分類方法41②把關(guān)鍵詞作為檢索鍵搜索關(guān)鍵詞與類主題詞聯(lián)結(jié)庫,獲取類主題詞;③通過類主題詞查找類主題權(quán)重詞庫表,獲取權(quán)值和分類號,當(dāng)取完所有分類號和權(quán)值后。進行類號合并與權(quán)重求和;
醫(yī)學(xué)文本數(shù)據(jù)挖掘②把關(guān)鍵詞作為檢索鍵搜索關(guān)鍵詞與類主題詞聯(lián)結(jié)庫,獲取類主題詞醫(yī)學(xué)文本數(shù)據(jù)挖掘④將所有取出的類號進行比較,根據(jù)分析結(jié)果定類。分析歸類一般如下考慮:a)只有唯一的類號,直接歸類;b)有多個類號,權(quán)值最大的類號只有一個,將文本歸入其類;c)有多個類號的最大權(quán)值相等,刪除權(quán)值最小的類號,在最大權(quán)值的類號中選出單一權(quán)值43醫(yī)學(xué)文本數(shù)據(jù)挖掘④將所有取出的類號進行比較,根據(jù)分析結(jié)果定類最大值為首選類號,其他相同權(quán)值的類號作為輔選類號。文本聚類
文本聚類是指將文本根據(jù)其特征分為多個類或簇。
硬聚類、軟聚類。醫(yī)學(xué)文本數(shù)據(jù)挖掘最大值為首選類號,其他相同權(quán)值的類號作為輔選類號。醫(yī)學(xué)文本數(shù)醫(yī)學(xué)文本數(shù)據(jù)挖掘(1)劃分聚類法的原理
對于k值,先給定初始分組方案,然后通過反復(fù)迭代來改變分組,使得每次改進后的分組都比前一次好。
分組時要求滿足:每個分組至少包含一個文本對象;每個文本對象屬于且僅屬于一個分組(模糊聚類除外)。(2)劃分聚類法的步驟
典型方法:k-中心點45醫(yī)學(xué)文本數(shù)據(jù)挖掘(1)劃分聚類法的原理45醫(yī)學(xué)文本數(shù)據(jù)挖掘具體步驟:①確定要生成的簇的數(shù)目k;②生成k個聚類中心作為初始中心點;③依次計算每個文本與各中心點的相似度;④把當(dāng)前文本歸入與其具有最大相似度的中心點代表的簇;⑤重新確定每個簇的中心點;⑥重復(fù)執(zhí)行步驟3~5,直到中心點不再改變,文本不再重新被分配為止。46醫(yī)學(xué)文本數(shù)據(jù)挖掘具體步驟:46醫(yī)學(xué)文本數(shù)據(jù)挖掘文本自動摘要(1)基于統(tǒng)計的自動摘要基本思想
通過記錄關(guān)鍵詞出現(xiàn)次數(shù)來選擇摘要句,然后將選擇出的摘要句按其在文本信息中出現(xiàn)的次序形成摘要。一般過程①待摘要文本信息錄入47醫(yī)學(xué)文本數(shù)據(jù)挖掘文本自動摘要47②詞頻信息統(tǒng)計③計算句子的權(quán)重④選擇候選句子⑤加工生成摘要醫(yī)學(xué)文本數(shù)據(jù)挖掘②詞頻信息統(tǒng)計醫(yī)學(xué)文本數(shù)據(jù)挖掘醫(yī)學(xué)文本數(shù)據(jù)挖掘(2)基于理解的自動摘要基本原理
根據(jù)讀者感興趣的內(nèi)容,利用語言學(xué)的手段將文章中代表這些信息焦點的文字識
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二四年生態(tài)住宅區(qū)綠植養(yǎng)護與生態(tài)平衡合同3篇
- 二零二五年度體育賽事組織與直播平臺建設(shè)合同3篇
- 2025年度廠房租賃電梯品牌升級改造合同范本4篇
- 二零二四年度智能家居系統(tǒng)集成裝修合同清單下載2篇
- 2025至2030年中國六色羅紋移圈大提花圓筒針織機數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國丙烯酸罐數(shù)據(jù)監(jiān)測研究報告
- 二零二五年度滕筠離婚協(xié)議書(財產(chǎn)分割與子女撫養(yǎng)權(quán)變更協(xié)議)
- 2025年中國能量妊娠紋霜市場調(diào)查研究報告
- 2025年中國拉引機市場調(diào)查研究報告
- 2025年度校園安全責(zé)任制實施與教育管理合同3篇
- 三年級數(shù)學(xué)(上)計算題專項練習(xí)附答案
- 中醫(yī)診療方案腎病科
- 2025年安慶港華燃氣限公司招聘工作人員14人高頻重點提升(共500題)附帶答案詳解
- 人教版(2025新版)七年級下冊數(shù)學(xué)第七章 相交線與平行線 單元測試卷(含答案)
- 玩具有害物質(zhì)風(fēng)險評估-洞察分析
- 2024年河南省公務(wù)員錄用考試《行測》真題及答案解析
- 企業(yè)合規(guī)管理實務(wù)
- T-CHSA 020-2023 上頜骨缺損手術(shù)功能修復(fù)重建的專家共識
- Hypermesh lsdyna轉(zhuǎn)動副連接課件完整版
- 小學(xué)六年級數(shù)學(xué)計算題100道(含答案)
評論
0/150
提交評論