生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件_第1頁
生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件_第2頁
生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件_第3頁
生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件_第4頁
生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件_第5頁
已閱讀5頁,還剩110頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、生物醫(yī)學(xué)文本挖掘及其應(yīng)用生物醫(yī)學(xué)文本挖掘及其應(yīng)用生物醫(yī)學(xué)文本挖掘及其應(yīng)用目的介紹生物信息學(xué)文本挖掘工具文本挖掘不再是信息專業(yè)的領(lǐng)域生物醫(yī)學(xué)文本挖掘及其應(yīng)用生物醫(yī)學(xué)文本挖掘及其應(yīng)用生物醫(yī)學(xué)文本目的介紹生物信息學(xué)文本挖掘工具文本挖掘不再是信息專業(yè)的領(lǐng)域目的介紹生物信息學(xué)文本挖掘工具例子:二者關(guān)系進行性多灶性白質(zhì)腦病(progressive multifocal leukoencephalopathy,PML) 抗體antibodiesMonoclonal antibodies,efalizumab(依法珠單克隆抗體) 例子:二者關(guān)系自然語言處理讓計算機替我們看文獻吧!比較難:計算機需要專門的知識才

2、能讀懂文本。自然語言處理(Natural Language Processing ,NLP):專門訓(xùn)練計算機掌握這種知識的學(xué)科。生物醫(yī)學(xué)文本挖掘(Biomedical text mining )是一個專門處理生物學(xué)、醫(yī)學(xué)和化學(xué)文本的分支學(xué)科。也叫BioNLP有些人把NLP當(dāng)做text mining的同義詞。自然語言處理讓計算機替我們看文獻吧!Biomedical text 生物醫(yī)學(xué)文本的格式多種多樣:病歷科研論文序列注釋公共健康指南文本的內(nèi)容多樣化,如習(xí)慣用語臨床有臨床上的行話實驗室有自己對蛋白的命名方式這種差異造成了文本挖掘應(yīng)用往往面向特定類型的文本。尤其是對Medline文摘記錄的分析。易

3、獲取免費5Biomedical text 生物醫(yī)學(xué)文本的格式多種多樣:基本概念(1)術(shù)語(Term):專門領(lǐng)域里的名稱。術(shù)語集(terminology):術(shù)語的集合。生物醫(yī)學(xué)文本中到處是術(shù)語,是醫(yī)學(xué)知識的基本構(gòu)件。如各種細(xì)胞的名稱,蛋白質(zhì)、醫(yī)學(xué)設(shè)備、疾病、基因突變、化學(xué)物質(zhì)名、蛋白質(zhì)域的名稱。名稱如此重要, 需要在文本中識別之,這個工作稱為生物醫(yī)學(xué)文獻中的命名體識別(NER,Named Entity Recognition )。基本概念(1)術(shù)語(Term):專門領(lǐng)域里的名稱。基本概念(2)盡管術(shù)語的定義似乎很明確,但是很難精確定義。early progressive multifocal l

4、eukoencephalopathyRefer toearly progressive multifocal leukoencephalopathy progressive multifocal leukoencephalopathymultifocal leukoencephalopathyLeukoencephalopathy基本概念(2)盡管術(shù)語的定義似乎很明確,但是很難精確定義?;靖拍睿?)Terminology:手工構(gòu)建的,因此是受控的。HUGO:基因術(shù)語集ICD:國際疾病分類法。Gene Ontology:基因本體。不僅僅是術(shù)語列表,還包括:術(shù)語表+同義詞=thesaurus 術(shù)

5、語表+術(shù)語之間的關(guān)系=taxonomies, ontology一旦一段文本與其中一個詞表對應(yīng)上,就和其他資源建立起聯(lián)系了?;靖拍睿?)Terminology:手工構(gòu)建的,因此是受控人工標(biāo)引手工匹配Medline abstractsMedical Subject Headings (MeSH)Leukoencephalopathy,progressive multifocal 9人工標(biāo)引手工匹配Medline abstractsMedic1010gene normalization自動匹配:recognizing names of genesMedline abstractsmapping t

6、hem to their corresponding gene identifiers (e.g., Entrez Gene ID)11gene normalization自動匹配:recogniHGNC database of human gene names HUGO Gene Nomenclature CommitteeHGNC database of human gene na網(wǎng)上在線檢索的基因名稱信息網(wǎng)上在線檢索的基因名稱信息1414下載的基因名稱信息下載的基因名稱信息NER的原理文本(PubMed Abstracts)軟件名稱(基因名,蛋白質(zhì)名)詞表NER的原理文本(PubMed

7、Abstracts)軟件名稱詞表之間的聯(lián)系詞表太多,又創(chuàng)建了詞表,把術(shù)語集匹配起來,詞表之詞表,超級詞表。metaBioThesaurus:多個詞表中蛋白質(zhì)的同義詞 Unified Medical Language System(UMLS):一體化醫(yī)學(xué)語言系統(tǒng),120多個詞表,4百萬個術(shù)語。詞表之間的聯(lián)系詞表太多,又創(chuàng)建了詞表,把術(shù)語集匹配起來,詞表1818生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件術(shù)語識別工具Whatizit:識別多種術(shù)語,通過網(wǎng)頁。Abner:單機版,識別5種術(shù)語:蛋白、DNA、RNA、細(xì)胞株、細(xì)胞類型。

8、更專指的術(shù)語識別工具:PepBank :用于肽類LSAT:用于alternative transcripts 提高 PubMed檢索效果:semedico , novo|seekGoPubMed/GoGene術(shù)語識別工具Whatizit:識別多種術(shù)語,通過網(wǎng)頁。24242525A(Whatizit):蛋白-藍(lán)色,疾病-深紅,基因本體-淺紅,化學(xué)物質(zhì)-深紅,物種-紅色B(ABNER):蛋白和細(xì)胞株C(BIOCreAtIvE metaserver )A(Whatizit):蛋白-藍(lán)色,疾病-深紅,基因本體-淺發(fā)現(xiàn)關(guān)系識別術(shù)語之后,下一步自然是尋找術(shù)語之間的關(guān)系。發(fā)現(xiàn)關(guān)系的最簡單途徑就是共現(xiàn):在同一

9、段文字中同時出現(xiàn)的兩個術(shù)語可能有關(guān)聯(lián)。例如,某種蛋白質(zhì)與一種疾病總是在同一文摘中出現(xiàn),有理由假設(shè)該蛋白與疾病的某個方面有關(guān)。共現(xiàn)的次數(shù)越多,越有意義。可以定量排序,通過統(tǒng)計處理排除偶然的關(guān)聯(lián)。27發(fā)現(xiàn)關(guān)系識別術(shù)語之后,下一步自然是尋找術(shù)語之間的關(guān)系。27關(guān)聯(lián)度假設(shè)有t1和t2兩個詞共現(xiàn),最簡單的信度指標(biāo)就是含有這兩個詞的文章數(shù)c(t1t2),但是要標(biāo)準(zhǔn)化,去掉兩個詞各自出現(xiàn)頻次對共現(xiàn)次數(shù)的影響。點間互信息p為文章數(shù)除以文章總數(shù)。關(guān)聯(lián)度假設(shè)有t1和t2兩個詞共現(xiàn),最簡單的信度指標(biāo)就是含有這關(guān)系抽?。汗铂F(xiàn)GoDisease:輸入leukoencephalopathy, progressive mu

10、ltifocalmh關(guān)系抽取:共現(xiàn)GoDisease:返回結(jié)果:所有提及PML的文摘中的基因。 出現(xiàn)次數(shù)越多的基因,越可能與PML有關(guān)聯(lián)。如果某基因在PML中不成比例地高于其他疾病,則該基因可能與PML有特殊關(guān)系。返回結(jié)果:關(guān)系抽?。捍_切關(guān)系明確描述的關(guān)系:比共現(xiàn)更好的證據(jù)。例如: We describe a PML in a 67-year-old woman with a destructive polyarthritis(多關(guān)節(jié)炎) associated with anti-JO1 antibodies treated with corticosteroids PML與抗-JO1抗體有明

11、確關(guān)系。 將這種關(guān)系簡化為三元體:兩個名詞+一個動詞。PML is associated with anti-JO1 antibodies識別動詞:詞性標(biāo)注:part-of-speech (POS) tagger三元體表述因其簡單而功能強大,但是忽略了文章中的重要的細(xì)節(jié)。比如有些證據(jù)是來自于臨床病例報告。關(guān)系抽取:確切關(guān)系明確描述的關(guān)系:比共現(xiàn)更好的證據(jù)。Semantic Knowledge RepresentationSKR:是基于UMLS進行自然語言處理、提取文獻中概念的系列在線工具。Semantic Knowledge Representat其中MetaMap是SKR系統(tǒng)的核心組件。MM

12、Tx是完成MetaMap功能的Java工具包,它進行的分析是語義層次上的分析。其中MetaMap是SKR系統(tǒng)的核心組件。MMTx是完成MeMetaMap工作原理MetaMap工作原理MetaMap工作原理:切分“ocular complication of myasthenia gravis” (重癥肌無力的眼部并發(fā)癥)“ocular complication”和“of myasthenia gravis”“ocular complication”分為“mod(ocular),head(complication)MetaMap工作原理:切分“ocular complicaMetaMap工作原理

13、:產(chǎn)生變形體Ocularadj,0=”Eyenoun,2=”s”同義詞Eyesnoun,3=”si”同義詞的復(fù)數(shù)Opticadj,4=”ss”同義詞的同義詞Ophthalmicadj,4=”ss”同義詞的同義詞Ophthalmianoun,7=”ssd”同義詞的同義詞的變形Oculusnoun,3=”d”變形Oculinoun,4=”di”同義詞的復(fù)數(shù)MetaMap工作原理:產(chǎn)生變形體Ocularadj,生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件檢索候選詞及候選詞的評價檢索超級詞表,檢索到包含有至少一個變形體的候選字串集合。計算出與輸入的短語詞相匹配的候選詞,然后用4種指標(biāo)的加權(quán)平均組成的語言學(xué)評價函數(shù),計

14、算輸入短語與候選詞之間的匹配程度:中心度:即包含中心詞;變形情況:距離倒數(shù)的平均值;覆蓋面和內(nèi)斂度:測量候選詞與文本的匹配程度和有多少個片段按照匹配程度排列這些候選詞。檢索候選詞及候選詞的評價檢索超級詞表,檢索到包含有至少一個變生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件關(guān)系抽?。篜PIprotein-protein interactions (PPI):文本挖掘的重頭戲利用三元體表達,構(gòu)建PPI網(wǎng)絡(luò),節(jié)點是蛋白質(zhì),動詞為邊。分析文本挖掘出來的PPI網(wǎng)絡(luò)時,應(yīng)當(dāng)注意閱讀和理解支撐信息。例如,蛋白質(zhì)間相互作用可以是直接的,也可以是間接的,取決于動詞直接動詞有to bind, to stabilize, to p

15、hosphorylate間接的動詞有to induce, to trigger, to block。 文獻中描述的蛋白質(zhì)相互作用的不同性質(zhì)部分地反映了所采用的實驗方法和相互作用本身的性質(zhì)。常用的捕獲文本變異的方法就是把各種表達方式辨認(rèn)出來,并寫下捕獲這些變異的規(guī)則。捕獲磷酸化的模式,應(yīng)當(dāng)依次含有:一種酶的名字磷酸化的動詞一種基質(zhì)的名字關(guān)系抽?。篜PIprotein-protein intera發(fā)現(xiàn)關(guān)系的工具FACTA:Medline文本中概念共現(xiàn)情況。MedGene 和BioGene:利用共現(xiàn)發(fā)現(xiàn)基因優(yōu)先級別。Endeavour 和G2D 利用文本和其他數(shù)據(jù)源分析基因優(yōu)先級別。 PolySea

16、rch利用啟發(fā)式加權(quán)技術(shù),給不同的共現(xiàn)不同的權(quán)重。Anni使用文本輪廓測量術(shù)語之間的關(guān)系。 iHOP:挖掘PPI最流行的工具。 RLIMS-P 利用語言模式發(fā)現(xiàn)磷酸化過程中的激酶、基質(zhì)和磷酸。 E3Miner發(fā)現(xiàn)泛素化,包括上下文信息。發(fā)現(xiàn)關(guān)系的工具FACTA:Medline文本中概念共現(xiàn)情況。生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件GoDisease+iHOP+CytoscapeGoDisease+iHOP+Cytoscape發(fā)現(xiàn):DiscoveryBesides finding relationships, text miners are also interested in discovering

17、relationships Swanson:undiscovered public knowledge【見例子1】發(fā)現(xiàn):Discovery文本挖掘的應(yīng)用實例Swanson關(guān)聯(lián)研究及其工具Arrowsmith 的使用Bitola的使用用文獻輪廓挖掘微陣列表達數(shù)據(jù)Damien ChaussabelMedlineR文本挖掘的應(yīng)用實例Swanson關(guān)聯(lián)研究及其工具背景與意義發(fā)表文獻研究深入知識分裂fragmentation of scientific knowledge文獻量窮經(jīng)皓首并老死不相往來背景與意義發(fā)表文獻研究深入知識分裂文獻量窮經(jīng)皓首并老死不相往Don R. Swanson的研究跨學(xué)科間一定

18、存在著潛在的未被發(fā)現(xiàn)的關(guān)聯(lián)文獻間隱性的關(guān)聯(lián)如何發(fā)現(xiàn)隱性關(guān)聯(lián)?尋找非相關(guān)互補性文獻text-based informaticsliterature-based discoveryDon R. Swanson的研究跨學(xué)科間一定存在著潛在的未Don R. Swanson的研究兩種互補的文獻:一類文獻(AB):攝入A可能導(dǎo)致某種生理改變B另一類文獻(BC):B作用于某種疾病C即A作用于C。兩種非相關(guān)的文獻:兩種文獻從沒有或很少被共同引用并且也不相互引用?;パa性和非相關(guān)性描述了在公開信息中存在著未被發(fā)現(xiàn)的有價值信息的模型結(jié)構(gòu)。Don R. Swanson的研究兩種互補的文獻:Medline文獻集合Don

19、 R. Swanson的研究潛在的聯(lián)系 雷諾氏病文獻食用魚油文獻血液粘稠度紅細(xì)胞脆性 血液粘稠度紅細(xì)胞脆性 Don R. Swanson的研究潛在的聯(lián)系 雷諾氏病食用魚閉合式的知識發(fā)現(xiàn)閉合式的知識發(fā)現(xiàn)生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件ARROWSMITH 3.0 ARROWSMITH 3.0 48224822生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件Asthma famous?Asthma famous?哮喘名人哮喘名人SYK:脾酪氨酸激酶SYK:脾酪氨酸激酶SYK:脾酪氨酸激酶過敏性鼻炎Syk inhibitors as treatment for all

20、ergic rhinitis.2008【SYK抑制劑治療過敏性鼻炎】An intranasal Syk-kinase inhibitor (R112) improves the symptoms of seasonal allergic rhinitis in a park environment.2005【鼻內(nèi)SYK抑制劑(R112)改善公園里過敏性鼻炎癥狀】痛風(fēng)Crystal-induced neutrophil activation. IX. Syk-dependent activation of class Ia phosphatidylinositol 3-kinase.2007【晶

21、體誘發(fā)的中性粒細(xì)胞活化:Ia類磷脂酰肌醇3激酶的SYK依賴性活化】Crystal-induced neutrophil activation. VII. Involvement of Syk in the responses to monosodium urate crystals.2001【晶體誘發(fā)的中性粒細(xì)胞活化:SYK參與對尿酸鈉晶體反應(yīng)的程度】SYK:脾酪氨酸激酶過敏性鼻炎Syk inhibitors 過敏性鼻炎SYK痛風(fēng)過敏性鼻炎痛風(fēng)抑制劑治療中性粒細(xì)胞活化晶體誘發(fā)PI3KSYK過敏性鼻炎SYK痛風(fēng)過敏性鼻炎痛風(fēng)抑制劑治療中性粒細(xì)胞活生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件B:基因和分子序列等語

22、義類型B:基因和分子序列等語義類型TOLL receptorTOLL receptor可作為生物武器的潛在病毒能夠成為生物武器:致病性,傳播性。同時涉及到病毒這兩個特性的文章卻特別少。A:病毒毒力遺傳方面(virulence- genetic)C:病毒疾病傳播力病毒的昆蟲媒介傳播(insect vectors)空氣傳播(air)在空氣中的穩(wěn)定性(stability of viruses in air)通過與A和C有共同聯(lián)系B找出更多符合條件的病毒。將得到的文獻經(jīng)過一些系列的處理,Arrowsmith列出了三個有意義的B-LIST(病毒的集合),通過進一步的統(tǒng)計學(xué)分析和查閱文獻,最終找出相對有意

23、義的病毒(B) 可作為生物武器的潛在病毒能夠成為生物武器:致病性,傳播性。同發(fā)現(xiàn)科研機構(gòu)間潛在的合作方向 潛在合作方向美國斯坦福大學(xué)哥倫比亞大學(xué)醫(yī)學(xué)信息學(xué)研究領(lǐng)域發(fā)現(xiàn)科研機構(gòu)合作與交流的題目結(jié)果:更好地體現(xiàn):相似點(可以合作之處)和不同點(可以相互交流、學(xué)習(xí)之處)內(nèi)容詳細(xì)、明確:能體現(xiàn)出研究所使用的具體方法和側(cè)重點 發(fā)現(xiàn)科研機構(gòu)間潛在的合作方向 潛在合作方向開放式的知識發(fā)現(xiàn)開放式的知識發(fā)現(xiàn)BITOLA 輸入單個的概念(疾病A),找到該概念的第一層相關(guān)概念并加以歸類(藥物B)。從第一層相關(guān)概念(藥物B)出發(fā),找到它們的相關(guān)概念,并加以歸類(基因C)。檢驗基因和疾病是否有關(guān)聯(lián)。如果沒有,該基因與疾

24、病有潛在的聯(lián)系而且并沒有文獻報道。提示:與疾病、生理學(xué)反應(yīng)或者其他表型相關(guān)的新基因、藥物或者神經(jīng)科學(xué)。BITOLA 輸入單個的概念(疾病A),找到該概念的第一層BITOLABITOLA生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件syksyk生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件內(nèi)容Swanson關(guān)聯(lián)研究及其工具Arrowsmith 的使用Bitola的使用用文獻輪廓挖掘微陣列表達數(shù)據(jù)Damien ChaussabelMedlineR內(nèi)容Swanson關(guān)聯(lián)研究及其工具運用文獻輪廓挖掘微陣列表達數(shù)據(jù)Mining

25、microarray expression data by literature profilingDamien ChaussabelMedlineR運用文獻輪廓挖掘微陣列表達數(shù)據(jù)Mining microarDamien ChaussabelAlan SherImmunobiology Section, Laboratory of Parasitic Diseases, National Institute of Allergy and Infectious Diseases, National Institutes of Health, Bethesda, MD 20892, USAGeno

26、me Biology 2002, 3(10):RESEARCH0055. Damien ChaussabelAlan SherImm目標(biāo)建立一種挖掘技術(shù)該技術(shù)以對文獻輪廓literature profiling的分析為基礎(chǔ)文獻輪廓:對于某一個主題(如某基因)而言,有相關(guān)文獻集合對于該基因的文獻集合,分析某些單詞在文摘中出現(xiàn)的頻次。目標(biāo)建立一種挖掘技術(shù)文獻輪廓基因B基因C基因A相關(guān)文獻主題詞1 頻次主題詞2 頻次主題詞3 頻次 主題詞n 頻次文獻輪廓基因B基因C基因A相關(guān)文獻主題詞1 頻次研究步驟檢索文獻分析文本過濾數(shù)據(jù)聚類分析研究步驟檢索文獻1.檢索文獻從基因開始,分別找到與各種基因相關(guān)的論文

27、標(biāo)題中含有基因名字的論文。人類基因命名委員會(Human Gene Nomenclature Committee, HGNC):官方名稱、縮寫、別名1.檢索文獻從基因開始,分別找到與各種基因相關(guān)的論文生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件1.檢索文獻建立數(shù)據(jù)庫包括HGNC定義的10,500多種已知的人類基因 用PubMed查詢格式的URL,例如: protein kinase C etaPRKCH ti OR PKC-L ti OR PRKCL ti OR protein kinase C eta ti)上述紀(jì)錄按照GenBank和Locus Link的ID排列該數(shù)據(jù)庫可以作為Excel表格下載1.檢索

28、文獻建立數(shù)據(jù)庫1.檢索文獻選70種基因,每一種基因的相關(guān)文獻以XML格式下載用Excel的宏命令抽取文摘,另存作為文本分析樣本Papers on Gene 70Papers on Gene 3Papers on Gene 2Papers on Gene 11.檢索文獻選70種基因,每一種基因的相關(guān)文獻以XML格式下2.分析文本對于每一個基因的相關(guān)紀(jì)錄的內(nèi)容,分析文摘中單詞出現(xiàn)的情況?!綯F】統(tǒng)計文摘中含有特定單詞的文獻數(shù)。【DF】例如:對于GADD45B基因的相關(guān)文獻,有18.7%的文摘中含有單詞“Proliferation”。Abstracts on Gene 12.分析文本對于每一個基因的

29、相關(guān)紀(jì)錄的內(nèi)容,分析文摘中單詞出3.過濾數(shù)據(jù)每一種基因有幾萬條記錄。對文獻中發(fā)現(xiàn)的每一個單詞,標(biāo)上其出現(xiàn)的頻次數(shù)。這些單詞大多數(shù)對發(fā)現(xiàn)基因信息沒有用途:沒有特異性:if, because, cell, identified 很少使用:在很少的文獻中出現(xiàn)。第三類單詞:在某一種基因的文摘中出現(xiàn)頻率高【TF】。在所有文獻中出現(xiàn)頻率(基準(zhǔn)率)低【DF】。可以提供基因的相關(guān)信息。3.過濾數(shù)據(jù)每一種基因有幾萬條記錄。對文獻中發(fā)現(xiàn)的每一個單詞RANTESY軸上的點為與RANTES基因相關(guān)的單詞,在25%以上的論文中出現(xiàn)過。隨機選取基因,計算這些詞的出現(xiàn)率,計算這些詞在不同基因文獻中出現(xiàn)的平均值。如果基因足夠

30、的話,單詞的平均出現(xiàn)率趨于穩(wěn)定。出現(xiàn)率低于5%的單詞傳遞有關(guān)該基因的重要信息。如infection, secreted, chemokine 等。RANTESY軸上的點為與RANTES基因相關(guān)的單詞,在253.過濾數(shù)據(jù)基準(zhǔn)率:在所有已知的人類基因中隨機抽取基因(250種)統(tǒng)計單詞出現(xiàn)頻率的平均值3.過濾數(shù)據(jù)基準(zhǔn)率:3.數(shù)據(jù)過濾單詞過濾的標(biāo)準(zhǔn):通過設(shè)定基準(zhǔn)率(5%),去掉在全部科技文獻中經(jīng)常出現(xiàn)的單詞每一個單詞在每一種基因上的出現(xiàn)率與基準(zhǔn)率的差值25%通過兩個基因過濾的單詞:一個單詞只有在至少2個以上的基因中共現(xiàn)才在確定基因關(guān)系方面有用。70個基因,25,000種單詞,只保留下來101種??梢哉{(diào)

31、整單詞過濾的閾值:下調(diào)閾值,增加了噪音,檢索到更多的單詞。3.數(shù)據(jù)過濾單詞過濾的標(biāo)準(zhǔn):3.數(shù)據(jù)過濾3.數(shù)據(jù)過濾4.聚類分析通過單詞出現(xiàn)情況,給具有同樣的文獻分布特征的基因進行分組。經(jīng)過幾輪過濾之后,確定了單詞表,將該表用于建立一個單詞-基因矩陣。矩陣中對應(yīng)的是每一種基因和單詞出現(xiàn)值。采用基因聚類分析的軟件:Cluster/TreeView 4.聚類分析通過單詞出現(xiàn)情況,給具有同樣的文獻分布特征的基因聚類分析聚類分析4.聚類分析藍(lán)色:nuclear factors橙色:receptor-ligand pair綠色:interferon-related紅色:chemokines紫色:MHC cla

32、ss I antigen-presentation pathway黃色陰影:單詞在文摘中出現(xiàn)的水平4.聚類分析藍(lán)色:nuclear factors紅色:che4.聚類分析基因的功能分組明顯與免疫反應(yīng)有關(guān)。藍(lán)色:控制炎癥反應(yīng)和細(xì)胞凋亡的轉(zhuǎn)錄因子,這些基因和TNF (the inflammatory mediator tumor necrosis factor), death 或者 apoptosis同時出現(xiàn)較多。 綠色:最大的一組基因,與interferon 有關(guān)(也叫 IFN和IFN-alpha,)。STATs基因是干擾素信號傳導(dǎo)專門需要的因子。 紅色:專門面向趨化因子(chemokines)

33、。紫色:基因全部是I類MHC抗體表達通路基因。這些基因?qū)iT編碼把蛋白降解為肽的蛋白。根據(jù)抽取詞所表示的概念可以發(fā)現(xiàn)有價值的信息,用于快速探索和評估復(fù)雜數(shù)據(jù)集中的生物學(xué)意義。4.聚類分析基因的功能分組明顯與免疫反應(yīng)有關(guān)。4.聚類分析4.聚類分析聚類分析聚類分析單詞出現(xiàn)模式的分析單詞出現(xiàn)模式的分析不同關(guān)聯(lián)程度的基因組通過文獻分布特征發(fā)現(xiàn)的關(guān)聯(lián)一組基因在功能上的關(guān)聯(lián)程度不同關(guān)聯(lián)程度的基因組通過文獻分布特征發(fā)現(xiàn)的關(guān)聯(lián)用文獻輪廓挖掘鼻咽癌微陣列表達數(shù)據(jù)黃仲曦,姚開泰(第一軍醫(yī)大學(xué)病理教研室腫瘤研究所)目的:探索鼻咽癌異常信號通路。方法:根據(jù)鼻咽癌微陣列表達譜,采用基于文獻輪廓的數(shù)據(jù)挖掘方法。從Medli

34、ne文獻數(shù)據(jù)庫中提取與基因相關(guān)的文獻并分析詞的頻率,再根據(jù)重復(fù)發(fā)生和共發(fā)生的過濾標(biāo)準(zhǔn)提取功能相關(guān)的詞。最后根據(jù)詞的發(fā)生頻率對基因進行功能聚類。結(jié)果:基因表達譜的112個差異表達基因聚成16組功能類別:4組暗示EBV感染、6組顯示鼻咽癌變過程、2組參與能量代謝、1組提示蛋白的異常磷酸化、2組與其它疾病相關(guān)、1組與肌肉組織活性相關(guān)。腫瘤發(fā)生發(fā)展過程中常見的P53和Rb信號通路的異常在本研究中則未發(fā)現(xiàn)。結(jié)論:鼻咽癌的發(fā)生發(fā)展可能由特殊的信號通路引起。用文獻輪廓挖掘鼻咽癌微陣列表達數(shù)據(jù)黃仲曦,姚開泰(第一軍醫(yī)大用文獻輪廓挖掘大腸癌轉(zhuǎn)移芯片表達譜黃仲曦,孫青,丁彥青,姚開泰(第一軍醫(yī)大學(xué)病理教研室腫瘤研究所)目的:尋找新的大腸癌轉(zhuǎn)移相關(guān)基因。方法:根據(jù)大腸癌轉(zhuǎn)移芯片的表達譜,采用基于文獻輪廓的數(shù)據(jù)挖掘方法,從Medline文獻數(shù)據(jù)庫中提取基因的相關(guān)文獻并分析詞的頻率,再基于重復(fù)發(fā)生和共發(fā)生的過濾標(biāo)準(zhǔn)提取功能相關(guān)的詞,最后基于詞的發(fā)生頻率對基因進行功能聚類,進一步結(jié)合文獻及已有的分子生物學(xué)檢測結(jié)果進行分析。結(jié)果:發(fā)現(xiàn)兩個新的可能與大腸癌轉(zhuǎn)移相關(guān)的基因TlAM1和NM23H1。用文獻輪廓挖掘大腸癌轉(zhuǎn)移芯片表達譜黃仲曦,孫青,丁彥青,姚開GenCLIPGenCLIP生物醫(yī)學(xué)文本挖掘及其應(yīng)用課件文本挖掘的過程命名體

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論