版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
生物信息學(xué)
及其軟件平臺莊君中科院計算所生物信息學(xué)實驗室2002年2月生物信息學(xué)
及其軟件平臺莊君2002年2月1第一部分:
生物信息學(xué)研究需要什么?第一部分:
生物信息學(xué)研究需要什么?2需要什么?數(shù)據(jù)庫(DNA、蛋白質(zhì)序列)各種算法(Blast,Genscan……)這樣就行了嗎?——用戶(生物學(xué)研究人員)如何能更好的使用a和b需要什么?數(shù)據(jù)庫(DNA、蛋白質(zhì)序列)3Bioinformatics–aDefinition
--OxfordEnglishDictionary(Molecular)bio–informatics:bioinformaticsisconceptualisingbiologyintermsofmolecules(inthesenseofPhysicalchemistry)andapplying“informaticstechniques”(derivedfromdisciplinessuchasappliedmaths,computerscienceandstatistics)tounderstandandorganisetheinformationassociatedwiththesemolecules,onalargescale.Inshort,bioinformaticsisamanagementinformationsystemformolecularbiologyandhasmanypracticalapplications.Bioinformatics–aDefinition
4Bioinformatics:科技界一顆耀眼的新星在BIOINFORMATICS沒有誕生之前,一個新藥的問世需要十年時間,數(shù)億美元的R&D,而BIOINFORMATICS已將這個過程減少三分之二,R&D的費用也相應(yīng)大大減少。許多中小BIOTECH公司也看到了BIOINFORMATICS的巨大作用和潛在的商機,紛紛投資BIOINFORMATICS研究項目。Bioinformatics:科技界一顆耀眼的新星在BI5美國電腦執(zhí)照--高薪階層“BIOINFORMATICSCERTIFICATION”,這是目前最新的一門生物化學(xué)工程與電腦技術(shù)相結(jié)合的課程。包括“CBS”證書和“CBM”證書。VisualBasic
--$1195VisualC++
--$1295BioInformatics
--CBS,CBM
$2500
MIT:Course:20.01sDate:June24-28,2002Tuition:$2,500
美國電腦執(zhí)照--高薪階層“BIOINFORMATICSCE6后基因組時代后基因組時代的挑戰(zhàn):
1.蛋白組學(xué):序列->結(jié)構(gòu)->功能2.研究生物的生長代謝的過程和疾病的機制3.基因組藥物………生物信息學(xué)離不開高性能計算機。并需要信息學(xué)家的參與。急需有自主知識產(chǎn)權(quán)的生物信息處理軟件平臺和大量高效的快速的新算法的開發(fā)及改進。后基因組時代后基因組時代的挑戰(zhàn):
1.蛋白組學(xué):7pic2pic28pic3pic39Pic4Pic410Pic5Pic511Pic6Pic612Pic7Pic713MajorApplicationI:DesigningDrugsUnderstandingHowStructuresBindOtherMolecules(Function)DesigningInhibitorsDocking,StructureModelingMajorApplicationI:Designing14MajorApplicationII:FindingHomologsMajorApplicationII:Finding15MajorApplicationIII:
OverallGenomeCharacterizationOverallOccurrenceofaCertainFeatureintheGenomee.g.howmanykinasesinYeastCompareOrganismsandTissuesExpressionlevelsinCancerousvsNormalTissuesDatabases,StatisticsMajorApplicationIII:
Overall16proteomicsdataproteomicsdata17Proteomicstools
IdentificationandcharacterizationDNA->ProteinSimilaritysearchesPatternandprofilesearchesPost-translationalmodificationpredictionPrimarystructureanalysisSecondarystructurepredictionTertiarystructureTransmembraneregionsdetectionAlignmentProteomicstoolsIdentificatio18CIF:生物信息學(xué)構(gòu)架
CorporateInformationFactory(CIF)是一個支援企業(yè)級的信息系統(tǒng)構(gòu)架結(jié)構(gòu)。生物信息學(xué)是在生物研究中信息系統(tǒng)的應(yīng)用。CIF正是一個從不同的源頭來集成生物信息學(xué)數(shù)據(jù),數(shù)據(jù)庫中管理這些信息,并將這些信息遞交專家系統(tǒng)進行處理的一個完整的體系,數(shù)據(jù)集成、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)完整準(zhǔn)確性是CIF的特點。當(dāng)這些運作起來之后,CIF提供了一個企業(yè)級管理生物信息數(shù)據(jù)的方法。CIF:生物信息學(xué)構(gòu)架
CorporateInformat19生物信息學(xué)構(gòu)架(2)數(shù)據(jù)結(jié)構(gòu)、信息提取過程的不統(tǒng)一、數(shù)據(jù)集成和標(biāo)準(zhǔn)化工作的不力是目前生物信息學(xué)的一個問題,這個問題妨礙了信息的交互,這一點在基因組和蛋白組學(xué)研究中很突出。孤立的基因組和蛋白組數(shù)據(jù)只能揭示很少的在活體細胞內(nèi)的基因/蛋白的功能信息,而一個集成的,以系統(tǒng)學(xué)方法管理的生物信息學(xué)數(shù)據(jù)將為研究者帶來更廣闊的視野。生物信息學(xué)構(gòu)架(2)數(shù)據(jù)結(jié)構(gòu)、信息提取過程的不統(tǒng)一、數(shù)據(jù)集20服務(wù)器-客戶式結(jié)構(gòu)
client-server生物信息網(wǎng)絡(luò)中的數(shù)據(jù)庫服務(wù)廣泛采用服務(wù)器-客戶式結(jié)構(gòu),這些服務(wù)器包括為數(shù)眾多的數(shù)據(jù)庫搜索和序列對比服務(wù)器以及各專業(yè)領(lǐng)域的服務(wù)器.服務(wù)器-客戶式結(jié)構(gòu)
client-server生物信息網(wǎng)21生物信息數(shù)據(jù)庫種類生物信息數(shù)據(jù)庫是種類繁多。近年來,世界各國的生物學(xué)家和計算機科學(xué)家合作,已經(jīng)開發(fā)了幾百個數(shù)據(jù)庫生物信息數(shù)據(jù)庫種類生物信息數(shù)據(jù)庫是種類繁多。22BioinformaticsandXMLXML因其將數(shù)據(jù)信息本身的存儲與關(guān)聯(lián)與表現(xiàn)形式相分離,強大的可擴展性,本身層次清晰的樹形結(jié)構(gòu)特性以及跨平臺、跨語言的特性而成為良好網(wǎng)際語言,并在各種數(shù)據(jù)和存取工作中大顯神通。生物信息學(xué)的發(fā)展同樣引入了XML技術(shù)。BioinformaticsandXMLXML因其將數(shù)據(jù)23 JAVA
Java是一種跨平臺的編程語言在基于JAVA語言開發(fā)的網(wǎng)上序列查詢和類比排列系統(tǒng)上,科學(xué)家們可通過視圖方式對已知DNA、蛋白質(zhì)結(jié)構(gòu)、基因結(jié)構(gòu)及科學(xué)家們提交的序列進行比較,分析出有意義的信息,包括新基因的發(fā)現(xiàn),重復(fù)序列的測定,調(diào)控基因的確定,完整基因的分析等等。 JAVAJava是一種跨平臺的編程語言24Java(2)Java迫使你更加系統(tǒng)化,必須進行程序構(gòu)架規(guī)劃。而且它還能幫助你避免通常的編碼錯誤。”
有人說,Java很慢.真的嗎?Java(2)Java迫使你更加系統(tǒng)化,必須進行程序構(gòu)架規(guī)25第二部分:
我國生物信息學(xué)第二部分:
我國生物信息學(xué)26現(xiàn)狀及問題1.我國已有強大的DNA測序中心:
華大,北方,南方,..但我們需要運算速度遠比現(xiàn)在計算速度快的機器或方法.
2.生物信息學(xué)處理系統(tǒng)處于初級規(guī)模.有一些Genbank,EMBL,GCG的鏡象.
(1).沒有自己的完善的系統(tǒng)(2).沒有大量新算法的開發(fā)
3.后基因組:科研單位及制藥工業(yè)并未完全吸收利用生物信息學(xué)的工具.現(xiàn)狀及問題1.我國已有強大的DNA測序中心:
華大,北方27現(xiàn)有各種生物信息學(xué)網(wǎng)站(公共免費的,如NCBI,EMBL)特點:數(shù)據(jù)多、全,并且具有權(quán)威性缺點:1)用戶太多(全世界),國內(nèi)的網(wǎng)慢,比如有時遞交較長的序列做Blast會很長時間得不到結(jié)果2)數(shù)據(jù)庫太大太多,使用不易付費的,如:eB,doubletwist,com,雖然使用方便,幫助用戶在網(wǎng)站上保留數(shù)據(jù),服務(wù)性好,軟件也好用但是需付費,學(xué)術(shù)力量不強現(xiàn)有各種生物信息學(xué)網(wǎng)站(公共免費的,如NCBI,EMBL)28第三部分:
建立自主知識產(chǎn)權(quán)的生物信息學(xué)處理軟件平臺第三部分:
建立自主知識產(chǎn)權(quán)的生物信息學(xué)處理軟件平臺29時期生物信息學(xué)的作用
我們能做的序列基因組收集、存儲、分析和共享信息資源能功能基因組識別基因及功能,圖譜能蛋白質(zhì)組鑒別和分類能治療/研究疾病基因預(yù)測/基因芯片能?藥物設(shè)計研制新藥/產(chǎn)業(yè)化能??我們能做什么時期生物信息學(xué)的作用我們能做的序列基因組收集、存儲、分30GenbankHTGHTG是GenBank、DDJB及EMBL為使生物學(xué)家更好地進行同源性對比搜尋高通量基因組序列而作的特殊分類。占所有DNA序列的70%以上。HTG部分包括那些通過高通量測序中心測序產(chǎn)生的尚未完成的DNA序列,有或沒有注釋。
GenbankHTGHTG是GenBank、DDJB及E31項目目標(biāo)(生物信息學(xué)處理軟件平臺)開發(fā)一個可以使用Genscan,Blast,Blocks等分析GeneBank的基因組數(shù)據(jù)并可以通過Web界面進行查詢的原型系統(tǒng)不斷完善,添加算法和更新數(shù)據(jù),最終可以通過提供數(shù)據(jù)和服務(wù)來獲取社會效益和經(jīng)濟效益項目目標(biāo)(生物信息學(xué)處理軟件平臺)開發(fā)一個可以使用Gensc32
各種序列:DNA,Protein生物信息學(xué)處理軟件平臺BlastGenscanBlocks生物學(xué)家計算生物學(xué)模型/算法軟件并行軟件:Blast,Phrap,SW市場化各種算法串行后基因組學(xué)數(shù)據(jù)并行各種序列:生物信息學(xué)BlastGenscanBlocks生33項目功能描述(一)從Genbank中提取原始數(shù)據(jù),經(jīng)過機群系統(tǒng)的處理(運行各種目前流行的算法,如Blast、GenScan、Blast等對提取的數(shù)據(jù)進行分析),生成rawdata,最后經(jīng)過文本處理程序(perl)的處理,得到xml格式的數(shù)據(jù)。項目功能描述(一)從Genbank中提取原始數(shù)據(jù),經(jīng)過機群系34項目功能描述(二)用戶通過網(wǎng)頁提交檢索,檢索經(jīng)過預(yù)處理的核酸、蛋白質(zhì)序列數(shù)據(jù)庫,將結(jié)果以圖形、圖像的形式,通過網(wǎng)頁返回給用戶查看,檢索后的數(shù)據(jù)應(yīng)具備較高的可用性(以圖形化的方式將相應(yīng)的算法處理結(jié)果表達出來)項目功能描述(二)用戶通過網(wǎng)頁提交檢索,檢索經(jīng)過預(yù)處理的核酸35競爭優(yōu)勢強大的計算資源高性能計算機高性能算法的支持并行Blast解決了Blast在單節(jié)點上的瓶頸問題我們對生物信息領(lǐng)域深刻的理解GenebankHTGDivision生物學(xué)家與計算機開發(fā)人員的緊密配合競爭優(yōu)勢強大的計算資源36社會效益和經(jīng)濟效益社會效益具有我國自主知識產(chǎn)權(quán)的生物信息處理軟件平臺1、提供個人數(shù)據(jù)和服務(wù)2、為客戶的特殊要求度身定做數(shù)據(jù)或處理系統(tǒng)3、新算法的開發(fā)社會效益和經(jīng)濟效益社會效益37生物信息學(xué)處理
軟件平臺版本1。0
1。目前只注釋人類的Genome數(shù)據(jù)庫a.預(yù)測基因結(jié)構(gòu)
b.預(yù)測蛋白編碼基因
2。目前數(shù)據(jù)庫最重要來源是GenBank序列。未完成注釋的HTG序列70%,已部分完成注釋的PRI序列30%.
我們的平臺包括:
a.通過一個龐大的算法流水線(pipeline)來
加工,和注釋未完成(或已完成)的基因組的DNA序列.
b.數(shù)據(jù)庫格式化:
XML技術(shù).c.通過搜索引擎在網(wǎng)絡(luò)上實現(xiàn)可用性。
d.數(shù)據(jù)圖視化及用戶服務(wù)。生物信息學(xué)處理
軟件平臺版本1。01。目前只注釋人類的38流程圖Genbankflatfile用戶數(shù)據(jù)算法流水線集群運算(曙光,PBS,…..)數(shù)據(jù)處理,數(shù)據(jù)庫管理,XML,。。。搜索引擎網(wǎng)站W(wǎng)EBServerHTML圖視化流程圖Genbank用戶數(shù)據(jù)算法流水39xPBS命令GUIxPBS命令GUI40xPBSMON節(jié)點監(jiān)控xPBSMON節(jié)點監(jiān)控41圖視化—HTG沒有Genbank注釋
圖視化—HTG沒有Genbank注釋42圖視化—PRI(有Genbank注釋)圖視化—PRI(有Genbank注釋)43未來的圖視化未來的圖視化44第四部分:
基因組分析的算法的
現(xiàn)狀和發(fā)展問題第四部分:
基因組分析的算法的
現(xiàn)狀和發(fā)展問題45Algorithms—已有算法(1)我們的分析使用算法:(已完成的)
a.GENSCAN--
預(yù)測exons(外顯子),introns(內(nèi)顯子)和Promotor(起動子)...
預(yù)測可用作替換拼接形式的基因
b.BLOCKS--
預(yù)測出蛋白質(zhì)的結(jié)構(gòu):motifs(模式)和domains(域)。c.BLASTx--
預(yù)測蛋白質(zhì)的功能和相似性的家族。
Algorithms—已有算法(1)我們的分析使用算法:(已46blocks-算法(2)BLOCKS
>PR006781/10blocks:PI3KINASEP85REGULATORYSUBUNITSIGNATUREBlockFrameLocation(aa)BlockE-valuePR00678D0416-4341.6|---157aminoacids---|
PR00678
AAA::::::BB::::CCCC::::::DDDEEEE:::::FFFGGGG7UP1_DROME<::::::::::::::::::::::::::DDD
blocks-算法(2)BLOCKS47Blastx-算法(3)Blastx-算法(3)48算法(4)
a.REPEAT_MASKER--RepeatMasker是一程序.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 勞務(wù)供應(yīng)授權(quán)收款協(xié)議
- 2024年食堂承包協(xié)議范文
- 2024企業(yè)勞動合同書樣本
- 合作開發(fā)房產(chǎn)合同文本
- 2024年商場裝修合同的范本
- 建筑項目勞務(wù)分包合同格式
- 投資股權(quán)合同格式模板
- 個人股權(quán)出售合同
- 2024合作伙伴協(xié)議范本
- 2024年消防通風(fēng)承包合同協(xié)議書范本
- 我的母親作者老舍課件(專業(yè)版)
- 用數(shù)字化打造小學(xué)語文精彩課堂
- 蘇教版數(shù)學(xué)二年級上冊《九的乘法口訣》 完整版PPT
- 揚塵治理專項費用計劃
- 資產(chǎn)負債表(財企01表)
- 五年級上冊數(shù)學(xué)課件-《方程的意義》課件 (1)17張PPT
- 小學(xué)主題班會課件《食品安全教育》(共41張PPT)通用版
- 內(nèi)蒙體育職院《體育傳播學(xué)》教案第7章 體育傳播的效果與測量
- 小學(xué)勞動作業(yè)記錄單
- 導(dǎo)管室停電應(yīng)急預(yù)案及處理流程
- 部編版三年級語文上冊全冊1-8單元知識要點復(fù)習(xí)匯總
評論
0/150
提交評論