蛋白質(zhì)關(guān)系抽取中平面特征和結(jié)構(gòu)化信息的研究的開(kāi)題報(bào)告_第1頁(yè)
蛋白質(zhì)關(guān)系抽取中平面特征和結(jié)構(gòu)化信息的研究的開(kāi)題報(bào)告_第2頁(yè)
蛋白質(zhì)關(guān)系抽取中平面特征和結(jié)構(gòu)化信息的研究的開(kāi)題報(bào)告_第3頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

蛋白質(zhì)關(guān)系抽取中平面特征和結(jié)構(gòu)化信息的研究的開(kāi)題報(bào)告【摘要】蛋白質(zhì)關(guān)系抽取是生物信息學(xué)領(lǐng)域的一個(gè)重要問(wèn)題,其任務(wù)是從生物文本中提取蛋白質(zhì)之間的關(guān)系,并構(gòu)建出蛋白質(zhì)相互作用網(wǎng)絡(luò)。針對(duì)這一任務(wù),該研究提出了一種基于平面特征和結(jié)構(gòu)化信息的蛋白質(zhì)關(guān)系抽取方法。該方法利用卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)提取蛋白質(zhì)名稱和實(shí)體位置的平面特征,同時(shí)利用結(jié)構(gòu)化信息對(duì)蛋白質(zhì)關(guān)系進(jìn)行分類。該方法具有良好的魯棒性和高準(zhǔn)確率。【關(guān)鍵詞】蛋白質(zhì)關(guān)系抽??;平面特征;結(jié)構(gòu)化信息;卷積神經(jīng)網(wǎng)絡(luò)【引言】蛋白質(zhì)是生物體內(nèi)的重要組成部分,其互相作用關(guān)系對(duì)生物體的功能和調(diào)節(jié)起著至關(guān)重要的作用。在生物信息學(xué)領(lǐng)域,蛋白質(zhì)相互作用網(wǎng)絡(luò)的構(gòu)建和分析是一個(gè)重要的問(wèn)題。而蛋白質(zhì)關(guān)系抽取,則是解決該問(wèn)題的關(guān)鍵步驟之一。蛋白質(zhì)關(guān)系抽取的任務(wù)是從生物文本中提取蛋白質(zhì)之間的關(guān)系,例如蛋白質(zhì)相互作用、蛋白質(zhì)復(fù)合物組成等。但是,由于文本表述的復(fù)雜性和多樣性,該任務(wù)存在一定的挑戰(zhàn)性。為了解決這一問(wèn)題,一些學(xué)者提出了基于機(jī)器學(xué)習(xí)算法的蛋白質(zhì)關(guān)系抽取方法,例如基于支持向量機(jī)(SupportVectorMachine,SVM)等。然而,這些方法往往需要手工提取文本特征,且缺乏對(duì)生物文本中結(jié)構(gòu)化信息的充分利用。為了克服這些問(wèn)題,本研究提出了一種新的方法,利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取蛋白質(zhì)名稱和實(shí)體位置的平面特征,同時(shí)利用結(jié)構(gòu)化信息對(duì)蛋白質(zhì)關(guān)系進(jìn)行分類。具體來(lái)說(shuō),本研究將蛋白質(zhì)名稱和實(shí)體位置的信息作為輸入,利用CNN提取平面特征。在此基礎(chǔ)上,本研究將結(jié)構(gòu)化信息利用一定的規(guī)則進(jìn)行編碼,將其作為卷積核進(jìn)行卷積操作,從而對(duì)蛋白質(zhì)關(guān)系進(jìn)行分類。該方法具有以下優(yōu)點(diǎn):1)充分利用了生物文本中的平面特征和結(jié)構(gòu)化信息;2)采用CNN提取特征,克服了手動(dòng)構(gòu)建模型特征的問(wèn)題;3)采用結(jié)構(gòu)化信息對(duì)蛋白質(zhì)關(guān)系進(jìn)行分類,增強(qiáng)了模型的分類性能和魯棒性?!狙芯磕繕?biāo)和內(nèi)容】本研究將面向蛋白質(zhì)關(guān)系抽取任務(wù),研究基于平面特征和結(jié)構(gòu)化信息的蛋白質(zhì)關(guān)系抽取方法。具體來(lái)說(shuō),本研究的研究目標(biāo)是:(1)設(shè)計(jì)一種卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型,用于提取蛋白質(zhì)名稱和實(shí)體位置的平面特征;(2)設(shè)計(jì)一種結(jié)構(gòu)化信息編碼方法,增強(qiáng)模型對(duì)生物文本中結(jié)構(gòu)化信息的理解和利用;(3)將平面特征和結(jié)構(gòu)化信息結(jié)合,構(gòu)建蛋白質(zhì)關(guān)系分類模型。本研究的主要內(nèi)容包括以下幾個(gè)方面:(1)生物文本數(shù)據(jù)集的構(gòu)建:構(gòu)建一個(gè)包含蛋白質(zhì)關(guān)系標(biāo)注的生物文本數(shù)據(jù)集。(2)平面特征和結(jié)構(gòu)化信息提取模塊:設(shè)計(jì)一個(gè)模塊用于從生物文本中提取蛋白質(zhì)名稱和實(shí)體位置信息的平面特征,并對(duì)結(jié)構(gòu)化信息進(jìn)行編碼。(3)蛋白質(zhì)關(guān)系分類模型:將平面特征和結(jié)構(gòu)化信息相結(jié)合,構(gòu)建蛋白質(zhì)關(guān)系分類模型。(4)實(shí)驗(yàn)設(shè)計(jì)和結(jié)果分析:在生物文本數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),分析模型的分類準(zhǔn)確率、魯棒性等性能指標(biāo)?!狙芯糠椒ê图夹g(shù)路線】本研究將采用以下方法和技術(shù)路線:(1)構(gòu)建生物文本數(shù)據(jù)集:從PubMed等數(shù)據(jù)庫(kù)中獲取生物文本數(shù)據(jù),并對(duì)其進(jìn)行標(biāo)注以構(gòu)建蛋白質(zhì)關(guān)系標(biāo)注數(shù)據(jù)集。(2)平面特征和結(jié)構(gòu)化信息提取模塊:設(shè)計(jì)一個(gè)模塊用于從生物文本中提取蛋白質(zhì)名稱和實(shí)體位置信息的平面特征,并對(duì)結(jié)構(gòu)化信息進(jìn)行編碼。采用CNN提取平面特征,將結(jié)構(gòu)化信息作為卷積核進(jìn)行卷積操作。(3)蛋白質(zhì)關(guān)系分類模型:將平面特征和結(jié)構(gòu)化信息相結(jié)合,構(gòu)建蛋白質(zhì)關(guān)系分類模型。采用Softmax作為分類器。(4)實(shí)驗(yàn)設(shè)計(jì)和結(jié)果分析:在生物文本數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),分析模型的分類準(zhǔn)確率、魯棒性等性能指標(biāo)。同時(shí),采用交叉驗(yàn)證等方法對(duì)模型進(jìn)行評(píng)估。【預(yù)期成果和意義】通過(guò)本研究,預(yù)期獲得以下成果:(1)提出一種基于平面特征和結(jié)構(gòu)化信息的蛋白質(zhì)關(guān)系抽取方法,該方法具有良好的魯棒性和高準(zhǔn)確率。(2)構(gòu)建一個(gè)包含蛋白質(zhì)關(guān)系標(biāo)注的生物文本數(shù)據(jù)集,為相關(guān)研究提供數(shù)據(jù)資源。(3)為生物信息學(xué)領(lǐng)域的蛋白質(zhì)相互作用網(wǎng)絡(luò)構(gòu)建和分析提供技術(shù)支持和方法參考?!緟⒖嘉墨I(xiàn)】[1]AiW,LuS,FengY.Aprotein-proteininteractionextractionapproachbasedondeepneuralnetwork[J].BMCbioinformatics,2018,19(15):450.[2]PengY,RiosA,KavuluruR,etal.Transferlearningacrossbiomedicalontologiesforrelationextractionfrombiomedicalliterature[J].Journalofbiomedicalinformatics,2018,84:76-83.[3]ThakurA,NoklebyJJ,LunnyD,etal.Convolutionneuralnetworkforprotein-proteininteractionextractionfrombiomedicalliterature[J].BMCbioinformatics,2018,19(1):508.[4]ZouQ,LiJ,SongL,etal.Protein–proteininteractionextractionbasedonensembledeeplearningmodels[J].BMCbioinformatics,2019,20(6):385.[5]Deng

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論