從Genbank中提取原始數(shù)據(jù)經(jīng)過機群系統(tǒng)的處理-生物信息課題組_第1頁
從Genbank中提取原始數(shù)據(jù)經(jīng)過機群系統(tǒng)的處理-生物信息課題組_第2頁
從Genbank中提取原始數(shù)據(jù)經(jīng)過機群系統(tǒng)的處理-生物信息課題組_第3頁
從Genbank中提取原始數(shù)據(jù)經(jīng)過機群系統(tǒng)的處理-生物信息課題組_第4頁
從Genbank中提取原始數(shù)據(jù)經(jīng)過機群系統(tǒng)的處理-生物信息課題組_第5頁
已閱讀5頁,還剩49頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

生物信息學(xué)

及其軟件平臺莊君中科院計算所生物信息學(xué)實驗室2002年2月生物信息學(xué)

及其軟件平臺莊君2002年2月1第一部分:

生物信息學(xué)研究需要什么?第一部分:

生物信息學(xué)研究需要什么?2需要什么?數(shù)據(jù)庫(DNA、蛋白質(zhì)序列)各種算法(Blast,Genscan……)這樣就行了嗎?——用戶(生物學(xué)研究人員)如何能更好的使用a和b需要什么?數(shù)據(jù)庫(DNA、蛋白質(zhì)序列)3Bioinformatics–aDefinition

--OxfordEnglishDictionary(Molecular)bio–informatics:bioinformaticsisconceptualisingbiologyintermsofmolecules(inthesenseofPhysicalchemistry)andapplying“informaticstechniques”(derivedfromdisciplinessuchasappliedmaths,computerscienceandstatistics)tounderstandandorganisetheinformationassociatedwiththesemolecules,onalargescale.Inshort,bioinformaticsisamanagementinformationsystemformolecularbiologyandhasmanypracticalapplications.Bioinformatics–aDefinition

4Bioinformatics:科技界一顆耀眼的新星在BIOINFORMATICS沒有誕生之前,一個新藥的問世需要十年時間,數(shù)億美元的R&D,而BIOINFORMATICS已將這個過程減少三分之二,R&D的費用也相應(yīng)大大減少。許多中小BIOTECH公司也看到了BIOINFORMATICS的巨大作用和潛在的商機,紛紛投資BIOINFORMATICS研究項目。Bioinformatics:科技界一顆耀眼的新星在BI5美國電腦執(zhí)照--高薪階層“BIOINFORMATICSCERTIFICATION”,這是目前最新的一門生物化學(xué)工程與電腦技術(shù)相結(jié)合的課程。包括“CBS”證書和“CBM”證書。VisualBasic

--$1195VisualC++

--$1295BioInformatics

--CBS,CBM

$2500

MIT:Course:20.01sDate:June24-28,2002Tuition:$2,500

美國電腦執(zhí)照--高薪階層“BIOINFORMATICSCE6后基因組時代后基因組時代的挑戰(zhàn):

1.蛋白組學(xué):序列->結(jié)構(gòu)->功能2.研究生物的生長代謝的過程和疾病的機制3.基因組藥物………生物信息學(xué)離不開高性能計算機。并需要信息學(xué)家的參與。急需有自主知識產(chǎn)權(quán)的生物信息處理軟件平臺和大量高效的快速的新算法的開發(fā)及改進。后基因組時代后基因組時代的挑戰(zhàn):

1.蛋白組學(xué):7pic2pic28pic3pic39Pic4Pic410Pic5Pic511Pic6Pic612Pic7Pic713MajorApplicationI:DesigningDrugsUnderstandingHowStructuresBindOtherMolecules(Function)DesigningInhibitorsDocking,StructureModelingMajorApplicationI:Designing14MajorApplicationII:FindingHomologsMajorApplicationII:Finding15MajorApplicationIII:

OverallGenomeCharacterizationOverallOccurrenceofaCertainFeatureintheGenomee.g.howmanykinasesinYeastCompareOrganismsandTissuesExpressionlevelsinCancerousvsNormalTissuesDatabases,StatisticsMajorApplicationIII:

Overall16proteomicsdataproteomicsdata17Proteomicstools

IdentificationandcharacterizationDNA->ProteinSimilaritysearchesPatternandprofilesearchesPost-translationalmodificationpredictionPrimarystructureanalysisSecondarystructurepredictionTertiarystructureTransmembraneregionsdetectionAlignmentProteomicstoolsIdentificatio18CIF:生物信息學(xué)構(gòu)架

CorporateInformationFactory(CIF)是一個支援企業(yè)級的信息系統(tǒng)構(gòu)架結(jié)構(gòu)。生物信息學(xué)是在生物研究中信息系統(tǒng)的應(yīng)用。CIF正是一個從不同的源頭來集成生物信息學(xué)數(shù)據(jù),數(shù)據(jù)庫中管理這些信息,并將這些信息遞交專家系統(tǒng)進行處理的一個完整的體系,數(shù)據(jù)集成、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)完整準(zhǔn)確性是CIF的特點。當(dāng)這些運作起來之后,CIF提供了一個企業(yè)級管理生物信息數(shù)據(jù)的方法。CIF:生物信息學(xué)構(gòu)架

CorporateInformat19生物信息學(xué)構(gòu)架(2)數(shù)據(jù)結(jié)構(gòu)、信息提取過程的不統(tǒng)一、數(shù)據(jù)集成和標(biāo)準(zhǔn)化工作的不力是目前生物信息學(xué)的一個問題,這個問題妨礙了信息的交互,這一點在基因組和蛋白組學(xué)研究中很突出。孤立的基因組和蛋白組數(shù)據(jù)只能揭示很少的在活體細胞內(nèi)的基因/蛋白的功能信息,而一個集成的,以系統(tǒng)學(xué)方法管理的生物信息學(xué)數(shù)據(jù)將為研究者帶來更廣闊的視野。生物信息學(xué)構(gòu)架(2)數(shù)據(jù)結(jié)構(gòu)、信息提取過程的不統(tǒng)一、數(shù)據(jù)集20服務(wù)器-客戶式結(jié)構(gòu)

client-server生物信息網(wǎng)絡(luò)中的數(shù)據(jù)庫服務(wù)廣泛采用服務(wù)器-客戶式結(jié)構(gòu),這些服務(wù)器包括為數(shù)眾多的數(shù)據(jù)庫搜索和序列對比服務(wù)器以及各專業(yè)領(lǐng)域的服務(wù)器.服務(wù)器-客戶式結(jié)構(gòu)

client-server生物信息網(wǎng)21生物信息數(shù)據(jù)庫種類生物信息數(shù)據(jù)庫是種類繁多。近年來,世界各國的生物學(xué)家和計算機科學(xué)家合作,已經(jīng)開發(fā)了幾百個數(shù)據(jù)庫生物信息數(shù)據(jù)庫種類生物信息數(shù)據(jù)庫是種類繁多。22BioinformaticsandXMLXML因其將數(shù)據(jù)信息本身的存儲與關(guān)聯(lián)與表現(xiàn)形式相分離,強大的可擴展性,本身層次清晰的樹形結(jié)構(gòu)特性以及跨平臺、跨語言的特性而成為良好網(wǎng)際語言,并在各種數(shù)據(jù)和存取工作中大顯神通。生物信息學(xué)的發(fā)展同樣引入了XML技術(shù)。BioinformaticsandXMLXML因其將數(shù)據(jù)23 JAVA

Java是一種跨平臺的編程語言在基于JAVA語言開發(fā)的網(wǎng)上序列查詢和類比排列系統(tǒng)上,科學(xué)家們可通過視圖方式對已知DNA、蛋白質(zhì)結(jié)構(gòu)、基因結(jié)構(gòu)及科學(xué)家們提交的序列進行比較,分析出有意義的信息,包括新基因的發(fā)現(xiàn),重復(fù)序列的測定,調(diào)控基因的確定,完整基因的分析等等。 JAVAJava是一種跨平臺的編程語言24Java(2)Java迫使你更加系統(tǒng)化,必須進行程序構(gòu)架規(guī)劃。而且它還能幫助你避免通常的編碼錯誤。”

有人說,Java很慢.真的嗎?Java(2)Java迫使你更加系統(tǒng)化,必須進行程序構(gòu)架規(guī)25第二部分:

我國生物信息學(xué)第二部分:

我國生物信息學(xué)26現(xiàn)狀及問題1.我國已有強大的DNA測序中心:

華大,北方,南方,..但我們需要運算速度遠比現(xiàn)在計算速度快的機器或方法.

2.生物信息學(xué)處理系統(tǒng)處于初級規(guī)模.有一些Genbank,EMBL,GCG的鏡象.

(1).沒有自己的完善的系統(tǒng)(2).沒有大量新算法的開發(fā)

3.后基因組:科研單位及制藥工業(yè)并未完全吸收利用生物信息學(xué)的工具.現(xiàn)狀及問題1.我國已有強大的DNA測序中心:

華大,北方27現(xiàn)有各種生物信息學(xué)網(wǎng)站(公共免費的,如NCBI,EMBL)特點:數(shù)據(jù)多、全,并且具有權(quán)威性缺點:1)用戶太多(全世界),國內(nèi)的網(wǎng)慢,比如有時遞交較長的序列做Blast會很長時間得不到結(jié)果2)數(shù)據(jù)庫太大太多,使用不易付費的,如:eB,doubletwist,com,雖然使用方便,幫助用戶在網(wǎng)站上保留數(shù)據(jù),服務(wù)性好,軟件也好用但是需付費,學(xué)術(shù)力量不強現(xiàn)有各種生物信息學(xué)網(wǎng)站(公共免費的,如NCBI,EMBL)28第三部分:

建立自主知識產(chǎn)權(quán)的生物信息學(xué)處理軟件平臺第三部分:

建立自主知識產(chǎn)權(quán)的生物信息學(xué)處理軟件平臺29時期生物信息學(xué)的作用

我們能做的序列基因組收集、存儲、分析和共享信息資源能功能基因組識別基因及功能,圖譜能蛋白質(zhì)組鑒別和分類能治療/研究疾病基因預(yù)測/基因芯片能?藥物設(shè)計研制新藥/產(chǎn)業(yè)化能??我們能做什么時期生物信息學(xué)的作用我們能做的序列基因組收集、存儲、分30GenbankHTGHTG是GenBank、DDJB及EMBL為使生物學(xué)家更好地進行同源性對比搜尋高通量基因組序列而作的特殊分類。占所有DNA序列的70%以上。HTG部分包括那些通過高通量測序中心測序產(chǎn)生的尚未完成的DNA序列,有或沒有注釋。

GenbankHTGHTG是GenBank、DDJB及E31項目目標(biāo)(生物信息學(xué)處理軟件平臺)開發(fā)一個可以使用Genscan,Blast,Blocks等分析GeneBank的基因組數(shù)據(jù)并可以通過Web界面進行查詢的原型系統(tǒng)不斷完善,添加算法和更新數(shù)據(jù),最終可以通過提供數(shù)據(jù)和服務(wù)來獲取社會效益和經(jīng)濟效益項目目標(biāo)(生物信息學(xué)處理軟件平臺)開發(fā)一個可以使用Gensc32

各種序列:DNA,Protein生物信息學(xué)處理軟件平臺BlastGenscanBlocks生物學(xué)家計算生物學(xué)模型/算法軟件并行軟件:Blast,Phrap,SW市場化各種算法串行后基因組學(xué)數(shù)據(jù)并行各種序列:生物信息學(xué)BlastGenscanBlocks生33項目功能描述(一)從Genbank中提取原始數(shù)據(jù),經(jīng)過機群系統(tǒng)的處理(運行各種目前流行的算法,如Blast、GenScan、Blast等對提取的數(shù)據(jù)進行分析),生成rawdata,最后經(jīng)過文本處理程序(perl)的處理,得到xml格式的數(shù)據(jù)。項目功能描述(一)從Genbank中提取原始數(shù)據(jù),經(jīng)過機群系34項目功能描述(二)用戶通過網(wǎng)頁提交檢索,檢索經(jīng)過預(yù)處理的核酸、蛋白質(zhì)序列數(shù)據(jù)庫,將結(jié)果以圖形、圖像的形式,通過網(wǎng)頁返回給用戶查看,檢索后的數(shù)據(jù)應(yīng)具備較高的可用性(以圖形化的方式將相應(yīng)的算法處理結(jié)果表達出來)項目功能描述(二)用戶通過網(wǎng)頁提交檢索,檢索經(jīng)過預(yù)處理的核酸35競爭優(yōu)勢強大的計算資源高性能計算機高性能算法的支持并行Blast解決了Blast在單節(jié)點上的瓶頸問題我們對生物信息領(lǐng)域深刻的理解GenebankHTGDivision生物學(xué)家與計算機開發(fā)人員的緊密配合競爭優(yōu)勢強大的計算資源36社會效益和經(jīng)濟效益社會效益具有我國自主知識產(chǎn)權(quán)的生物信息處理軟件平臺1、提供個人數(shù)據(jù)和服務(wù)2、為客戶的特殊要求度身定做數(shù)據(jù)或處理系統(tǒng)3、新算法的開發(fā)社會效益和經(jīng)濟效益社會效益37生物信息學(xué)處理

軟件平臺版本1。0

1。目前只注釋人類的Genome數(shù)據(jù)庫a.預(yù)測基因結(jié)構(gòu)

b.預(yù)測蛋白編碼基因

2。目前數(shù)據(jù)庫最重要來源是GenBank序列。未完成注釋的HTG序列70%,已部分完成注釋的PRI序列30%.

我們的平臺包括:

a.通過一個龐大的算法流水線(pipeline)來

加工,和注釋未完成(或已完成)的基因組的DNA序列.

b.數(shù)據(jù)庫格式化:

XML技術(shù).c.通過搜索引擎在網(wǎng)絡(luò)上實現(xiàn)可用性。

d.數(shù)據(jù)圖視化及用戶服務(wù)。生物信息學(xué)處理

軟件平臺版本1。01。目前只注釋人類的38流程圖Genbankflatfile用戶數(shù)據(jù)算法流水線集群運算(曙光,PBS,…..)數(shù)據(jù)處理,數(shù)據(jù)庫管理,XML,。。。搜索引擎網(wǎng)站W(wǎng)EBServerHTML圖視化流程圖Genbank用戶數(shù)據(jù)算法流水39xPBS命令GUIxPBS命令GUI40xPBSMON節(jié)點監(jiān)控xPBSMON節(jié)點監(jiān)控41圖視化—HTG沒有Genbank注釋

圖視化—HTG沒有Genbank注釋42圖視化—PRI(有Genbank注釋)圖視化—PRI(有Genbank注釋)43未來的圖視化未來的圖視化44第四部分:

基因組分析的算法的

現(xiàn)狀和發(fā)展問題第四部分:

基因組分析的算法的

現(xiàn)狀和發(fā)展問題45Algorithms—已有算法(1)我們的分析使用算法:(已完成的)

a.GENSCAN--

預(yù)測exons(外顯子),introns(內(nèi)顯子)和Promotor(起動子)...

預(yù)測可用作替換拼接形式的基因

b.BLOCKS--

預(yù)測出蛋白質(zhì)的結(jié)構(gòu):motifs(模式)和domains(域)。c.BLASTx--

預(yù)測蛋白質(zhì)的功能和相似性的家族。

Algorithms—已有算法(1)我們的分析使用算法:(已46blocks-算法(2)BLOCKS

>PR006781/10blocks:PI3KINASEP85REGULATORYSUBUNITSIGNATUREBlockFrameLocation(aa)BlockE-valuePR00678D0416-4341.6|---157aminoacids---|

PR00678

AAA::::::BB::::CCCC::::::DDDEEEE:::::FFFGGGG7UP1_DROME<::::::::::::::::::::::::::DDD

blocks-算法(2)BLOCKS47Blastx-算法(3)Blastx-算法(3)48算法(4)

a.REPEAT_MASKER--RepeatMasker是一程序.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論