生物信息學(xué)課件培訓(xùn)資料_第1頁
生物信息學(xué)課件培訓(xùn)資料_第2頁
生物信息學(xué)課件培訓(xùn)資料_第3頁
生物信息學(xué)課件培訓(xùn)資料_第4頁
生物信息學(xué)課件培訓(xùn)資料_第5頁
已閱讀5頁,還剩324頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

生物信息學(xué)課件了解各種生物數(shù)據(jù)庫掌握利用Internet上的各種數(shù)據(jù)庫、軟件,查找生物相關(guān)信息,分析和解釋各種生物數(shù)據(jù)。學(xué)習(xí)本課程的目的SequenceanalysisGenomeannotationAnalysisofgeneexpressionAnalysisofregulationPredictionofproteinstructureComparativegenomics/kech/swxxx/華農(nóng)主頁-南湖教苑-精品課程-國家精品課程-2007年國家精品課程-生物信息學(xué)教學(xué)網(wǎng)站獲取課件及自學(xué)資源(僅限校園網(wǎng)內(nèi))/用戶名:nobody密碼:lampp參考教材DavidW.Mount.Bioinformatics:SequenceandGenomeAnalysis.(2ndedition)NewYork:ColdSpringHarborLaboratoryPress,2004.鐘揚(yáng)等譯,生物信息學(xué)(第一版),高等教育出版社,2003。參考教材周艷紅、王石平,生物信息學(xué),高等教育出版社,2007。A.D.BoxevanisandB.F.F.Ouellette.Bioinformatics:APracticalGuidetotheAnalysisofGenesandProteins.(3rdedition)NewYork:Wile-Interscience,2004.注意事項(xiàng)和要求應(yīng)用型課程,自學(xué)占很大比重按時(shí)上課,位置固定,課間不休,如已掌握內(nèi)容,可以早退考試方式:開卷,凡修課者必需參加考試,否則0分分10組,每次一組課后留下做清潔第一章生物信息學(xué)的發(fā)展和研究內(nèi)容生物信息學(xué)1、什么是生物信息學(xué)?生物信息學(xué)是信息科學(xué)領(lǐng)域和生命科學(xué)領(lǐng)域的一門新興的、應(yīng)用型交叉學(xué)科。以計(jì)算機(jī)為主要工具,以大量生物數(shù)據(jù)庫和分析軟件為基礎(chǔ)采用數(shù)理和信息科學(xué)的理論、技術(shù)和方法,分析生物學(xué)數(shù)據(jù),研究生命現(xiàn)象的一門科學(xué)為人類揭示生命的奧秘提供了一條新的途徑解決生物學(xué)問題為導(dǎo)向2、生物信息學(xué)發(fā)展簡(jiǎn)史DDBJ核苷酸數(shù)據(jù)庫1986GenBank和EMBL核苷酸數(shù)據(jù)庫1982M.Dayhoff開始收集蛋白質(zhì)序列1960sProteinInformationResource(PIR)“…themotherandfatherofbioinformatics…”byDavidJ.Lipman(DirectorofNCBI)Proteinsequenceatlas2、生物信息學(xué)發(fā)展簡(jiǎn)史生物信息學(xué)

(Bioinformatics)ComputationalbiologyBiologywithcomputer1991SWISS-PROT蛋白質(zhì)數(shù)據(jù)庫1986BLAST程序1990國家生物技術(shù)信息中心(NCBI)1988InvivoInvitroInsilico2、生物信息學(xué)發(fā)展簡(jiǎn)史Humangenomeproject(HGP)生物信息學(xué)學(xué)科的迅速發(fā)展在1990年代identifyalltheapproximately20,000-25,000genesinhumanDNA,determinethesequencesofthe3billionchemicalbasepairsthatmakeuphumanDNA,storethisinformationindatabases,

improvetoolsfordataanalysis,transferrelatedtechnologiestotheprivatesector,addresstheethical,legal,andsocialissues(ELSI)thatmayarisefromtheproject.Goals主要高通量技術(shù)的發(fā)展歷程DNA自動(dòng)化測(cè)序(1990-)基因芯片(1995-)新一代測(cè)序技術(shù)(2005-)廠商RocheIlluminaABI技術(shù)454SolexaGASOLiD測(cè)序儀GS20FLXTiIIIIIx123序列數(shù)目(百萬)52810025040115320單末端測(cè)序(Single-end)讀長(bp)1002004003550100253550運(yùn)行時(shí)間(天)335658通量(Gb)0.050.10.515251416配對(duì)末端測(cè)序(Paired-end)讀長(bp)

2004002×352×502×1002×252×352×50庫序列長度(kb)

0.20.2332運(yùn)行時(shí)間(天)

0.30.461010121016通量(Gb)

0.10.529502832Solexa和SOLiD配對(duì)末端測(cè)序所需時(shí)間和產(chǎn)出是單末端的兩倍,454的配對(duì)末端和單末端差異在于建庫方法,所需時(shí)間和測(cè)序量不變。ABISOLiD包含兩張芯片,這里的數(shù)據(jù)是一張芯片的量。

目前使用最廣泛的三大第二代測(cè)序平臺(tái)測(cè)序能力統(tǒng)計(jì)信息(2010年年初數(shù)據(jù))3個(gè)水稻基因組/天12個(gè)水稻基因組/天10個(gè)水稻基因組/天人基因組測(cè)序費(fèi)用TowardsaParadigmShiftinBiology

WalterGilbert,Nature349:99(1991)Thenewparadigm,nowemerging,isthatall“genes”willbeknown(inthesenseofbeingresidentindatabasesavailableelectronically),andthatthestartingpointofabiologicalinvestigationwillbetheoretical.Anindividualscientistwillbeginwithatheoreticalconjecture,onlythenturningtoexperimentstofollowortotestthathypothesis.生物信息學(xué)是伴隨著生命科學(xué)的發(fā)展而出現(xiàn)的,并且隨著技術(shù)的發(fā)展而不斷發(fā)展生命科學(xué)的現(xiàn)狀:Observing&Recording生命科學(xué)的未來:Designing&Creating,離不開生物信息學(xué)啟示3、生物信息學(xué)的基本方法和技術(shù)建立生物數(shù)據(jù)庫各種公共數(shù)據(jù)庫本地化數(shù)據(jù)庫數(shù)據(jù)庫檢索各種數(shù)據(jù)檢索工具的開發(fā)和使用Entrez檢索體系BLAST檢索體系3、生物信息學(xué)的基本方法和技術(shù)生物大分子序列分析Homologoussequenceanalysis(同源序列分析)Multiplesequencealignment(多序列對(duì)位排列)

Phylogeneticanalysis(進(jìn)化分析)基因結(jié)構(gòu)、功能分析Mapping(ePCR)、Exon/Intron、Promoter、Regulatoryregions……蛋白質(zhì)結(jié)構(gòu)、功能分析Motif、3-Dstructure、post-translationalmodification、interactions……3、生物信息學(xué)的基本方法和技術(shù)基因組分析序列拼接序列注釋3、生物信息學(xué)的基本方法和技術(shù)統(tǒng)計(jì)概率模型HiddenMarkovmodel(HMM,隱馬爾可夫模型)基因識(shí)別和藥物設(shè)計(jì)Maximumlikelihoodmodel(最大似然模型)序列進(jìn)化分析因特網(wǎng)的域名(domainname)規(guī)定四級(jí)域名.三級(jí)域名.二級(jí)域名.頂級(jí)域名我校一臺(tái)名為bioinformatics主機(jī):4、生物信息學(xué)的研究內(nèi)容收集、整理、儲(chǔ)存、加工、發(fā)布和分析生物學(xué)數(shù)據(jù)發(fā)展新的數(shù)理和信息科學(xué)的技術(shù)和方法用于管理和分析生物數(shù)據(jù)(數(shù)理和信息科學(xué)工作者,IT人士)(生物工作者,BT人士)5、生物信息學(xué)的應(yīng)用基礎(chǔ)研究和教學(xué)分子生物學(xué)研究的重要手段之一生命科學(xué)的教學(xué)藥物開發(fā)(PharmaceuticalBioinformatics)

新藥篩選藥靶設(shè)計(jì)分子藥理學(xué)研究5、生物信息學(xué)的應(yīng)用疾病診斷利用疑難病癥的病原DNA序列診斷疾病遺傳病其他環(huán)境監(jiān)測(cè)(Metagenomics)進(jìn)化分析6、本課程主要內(nèi)容檢索數(shù)據(jù)庫序列數(shù)據(jù)的檢索和分析比較基因組學(xué)(comparativegenomics)進(jìn)化分析文字?jǐn)?shù)據(jù)(文獻(xiàn))的檢索序列(DNA、蛋白質(zhì))數(shù)據(jù)的檢索其他(三維結(jié)構(gòu)、網(wǎng)絡(luò)圖等)數(shù)據(jù)的檢索分析和解釋實(shí)驗(yàn)數(shù)據(jù)(核苷酸和蛋白質(zhì)序列)利用國際上共享的數(shù)據(jù)庫和分析軟件7、上機(jī)操作初步了解Internet上的數(shù)據(jù)庫和分析工具自學(xué)課程

/Education

http://www.ebi.ac.uk/2can/home.html/nar/database/c/Microarray集成化、并行化、微型化(比擬集成電路,符合摩爾定理)!微乳液PCR橋式PCR單分子測(cè)序第二章數(shù)據(jù)庫生物信息學(xué)什么是數(shù)據(jù)庫(Database)?用于收集、整理、儲(chǔ)存、加工、發(fā)布和檢索數(shù)據(jù)的系統(tǒng)。生物類的數(shù)據(jù)庫種類很多(序列、結(jié)構(gòu)、生物分子互作、其它)投稿文章首先要將核苷酸序列或蛋白質(zhì)序列提交到相應(yīng)的數(shù)據(jù)庫中什么是數(shù)據(jù)庫(Database)?數(shù)據(jù)庫記錄通常包括兩部分原始數(shù)據(jù)對(duì)這些數(shù)據(jù)進(jìn)行的生物學(xué)意義的注釋一個(gè)數(shù)據(jù)庫通常鏈接了多個(gè)相關(guān)數(shù)據(jù)庫核苷酸數(shù)據(jù)庫-水稻抗病相關(guān)基因OsDR8Taxonomy數(shù)據(jù)庫Pubmed數(shù)據(jù)庫NCBI-Protein數(shù)據(jù)庫DQ176424(一)數(shù)據(jù)庫工具建立純文本數(shù)據(jù)庫GenBank數(shù)據(jù)庫、EMBL核苷酸數(shù)據(jù)庫數(shù)據(jù)庫工具SQL(結(jié)構(gòu)化查詢語言)是世界上流行的和標(biāo)準(zhǔn)化的數(shù)據(jù)庫語言能夠快速靈活存儲(chǔ)記錄文件和圖像MySQL下載網(wǎng)址/AccessSQLOracleAceDB數(shù)據(jù)庫工具AceDB:A

C.elegans

DataBase

(線蟲數(shù)據(jù)庫)被廣泛應(yīng)用的管理和提供基因組數(shù)據(jù)的工具數(shù)據(jù)形式豐富遺傳圖譜G1810.420.84RM2240.21R15060.21Xa26S128861.470.000.63L1044NBS119RM144Y6855RA0.0011新陳代謝途徑物理圖譜1gggctccaccactagtacccctcactacaggtagccataaaaaaaatcgatcaccaaaac61ccattattaggttgtgtactgatacagaaagttgggaaccaatctcccagcacagaaaac121ggtacggttcattagcgcgtgattaattaaatatttactattttttaaaaaaaatagatc181aatatgatttttaagcaactttcgtataaatactttttcaaaaaaacacaccgttttcta241gtttgaaaagcgtacacgcgtgaaatgagggagaaaggttggaaacgtgggattgcaaac(一)數(shù)據(jù)庫工具(二)各種生物數(shù)據(jù)庫1、核苷酸數(shù)據(jù)庫

DNA、mRNA、tRNA、rRNA序列RNA序列以cDNA序列的形式收集核苷酸序列直接來源于實(shí)驗(yàn)數(shù)據(jù)大量氨基酸序列

主要是非實(shí)驗(yàn)來源數(shù)據(jù)codingsequence(CDS)EXONINTRONCDS(codingsequence)ORF(openreadingframe)1、核苷酸數(shù)據(jù)庫1、核苷酸數(shù)據(jù)庫三大核苷酸數(shù)據(jù)庫GenBank、EMBL核苷酸數(shù)據(jù)庫、DDBJUnitedStatesPatentandTrademarkOffice(USPTO)EuropeanPatentOffice(EPO)JapanPatentOffice(JPO)專利核苷酸序列信息資源共享:以天為基礎(chǔ)進(jìn)行數(shù)據(jù)庫之間的序列數(shù)據(jù)交換1、核苷酸數(shù)據(jù)庫(1)GenBank/genbank美國NCBI的核苷酸數(shù)據(jù)庫,包括部分蛋白質(zhì)序列數(shù)據(jù)每天更新,每年發(fā)行六版release

/genbank/gbrel.txt

Release182(2011.2.15)132,015,054sequences124,277,818,310bases來源于380,000多個(gè)物種大約12%的序列來源于人(Homosapiens)NucleicAcidsRes.2011;39(Databaseissue):D32-37(1)GenBank……Locusname(位點(diǎn)名)Accessionnumber(注冊(cè)號(hào)或登陸號(hào))GI(GenInfoidentifier)

每個(gè)序列有一個(gè)flatfile每條序列有三個(gè)專有的編號(hào)或標(biāo)識(shí)(identifier)Samplerecord/Sitemap/samplerecord.html(1)GenBank(1)GenBankThedivisionsofGenBankPRI-primatesequencesROD-rodentsequencesMAM-othermammaliansequencesVRT-othervertebratesequencesINV-invertebratesequencesPLN-plant,fungal,andalgalsequencesBCT-bacterialsequencesVRL-viralsequencesPHG-bacteriophagesequencesSYN-syntheticsequencesUNA-unannotatedsequencesEST-ESTsequences(expressedsequencetags)STS-STSsequences(sequencetaggedsites)GSS-GSSsequences(genomesurveysequences)HTG-HTGsequences(high-throughputgenomicsequences)HTC-unfinishedhigh-throughputcDNAsequencingENV-environmentalsamplingsequencesTSA-TranscriptomeShotgunAssemblyPAT-patentsequencesWGS-wholegenomeshotgun(2)EST數(shù)據(jù)庫dbEST(DatabaseofExpressedSequenceTags)

/dbEST/index.html

GenBank的二級(jí)數(shù)據(jù)庫5’端或3’端的cDNA序列(EST)200-500bp “Single-passread”sequenceGenBank中60%以上的序列是EST/About/primer/est.html(3)UniGene數(shù)據(jù)庫NCBI的另一個(gè)核苷酸數(shù)據(jù)庫來源于同一基因的非重復(fù)EST組成基因序列群人、大鼠、小鼠、斑馬魚、牛、豬等擬南芥、水稻、小麥、大麥、玉米等共計(jì)120多個(gè)物種UniGene主頁輸入關(guān)鍵詞檢索UniGene

/unigene//genbank/TSA.htmlTSAisanarchiveofcomputationallyassembledsequencesfromprimarydatasubmittedtodbEST,theShortReadArchive(SRA),ortheTraceArchive.TheoverlappingsequencereadsfromacompletetranscriptomeareassembledintotranscriptsbycomputationalmethodsinsteadofbytraditionalcloningandsequencingofclonedcDNAs.Theprimarysequencedatausedintheassembliesandtheassembliesmustbesubmittedbythesamesubmitter.TSAsequencerecordsdifferfromESTandGenBankrecordsbecausetherearenophysicalcounterpartstotheassembliesinsertedintheTSArecord.Example(4)STS數(shù)據(jù)庫dbSTS(DatabaseofSequenceTaggedSites)

/dbSTS/index.html

GenBank的二級(jí)數(shù)據(jù)庫UniSTS短序列(200-500bp),僅在基因組中出現(xiàn)一次已定位于染色體上如何找到一個(gè)STS檢索:NCBI主頁選擇UniSTS后輸入關(guān)鍵詞檢索到的條目每一條目詳細(xì)內(nèi)容點(diǎn)擊“mapviewer”查看染色體定位(4)STS數(shù)據(jù)庫contigScience1989;245:1434-5.(5)GSS數(shù)據(jù)庫dbGSS(DatabaseofGenomeSurveySequences)

/dbGSS/index.html

GenBank的二級(jí)數(shù)據(jù)庫基因組短序列cosmid/BAC/YAC外源插入片段的末端序列AluPCR序列cosmid/BAC/YACHTGS(High-ThroughputGenomicSequences)

/HTGS/

GenBank的二級(jí)數(shù)據(jù)庫尚未完成測(cè)序的重疊群(>2kb)的序列新序列的增加速度很快(6)HTGS數(shù)據(jù)庫基因組測(cè)序過程中(Phase0、1、2)產(chǎn)生的過渡數(shù)據(jù)Nature,409,860-921Phase3Finished,nogaps(withorwithoutannotations)Phase0one-to-fewpassreadsofasingleclone(notcontigs)Phase1Unfinished,maybeunordered,unorientedcontigs,withgapsPhase2Unfinished,ordered,orientedcontigs,withorwithoutgaps鳥槍法(shotgun)測(cè)序流程水稻基因組全基因組大小:430Mb;

每個(gè)Reads讀長450bp;

故覆蓋每個(gè)水稻基因組所需反應(yīng):100萬;

覆蓋水稻基因組8X,需要800萬反應(yīng);

每個(gè)反應(yīng)的測(cè)序成本為19元,800萬反應(yīng)總共需15200萬人民幣;

人力費(fèi)800萬人民幣。中國水稻基因組計(jì)劃的經(jīng)費(fèi)預(yù)算Genomesequencing:QUICKER,SMALLER,CHEAPER/XPRIZEFoundationNature2008,452:788

Genome

/sites/entrez?db=genomeNCBI的另一個(gè)數(shù)據(jù)庫測(cè)序完成和正在測(cè)序物種基因組序列、遺傳圖、物理圖等序列收集在GenBank已經(jīng)完成測(cè)序的基因組(截止2011年2月)

GenomeProject——Statistics(7)基因組數(shù)據(jù)庫dbSNP(DatabaseofSingleNucleotidePolymorphisms)

/sites/entrez?db=snp

NCBI的數(shù)據(jù)庫,創(chuàng)建于1998.9約每300bp有一個(gè)SNP數(shù)據(jù)種類SNP

Insertion/deletion(Indel)

Deletion/insertion/substitution(DIS)發(fā)現(xiàn)致病基因、進(jìn)化分析…(8)單核苷酸多態(tài)性數(shù)據(jù)庫/About/primer/snps.htmldbSNP主頁輸入關(guān)鍵詞檢索到的條目每一條目詳細(xì)內(nèi)容代碼堿基MA或CRA或GWA或TSC或GYC或TKG或TVA、C或GHA、C或TDA、G或TBC、G或TNG、A、T或C標(biāo)準(zhǔn)堿基多意代碼(8)單核苷酸多態(tài)性數(shù)據(jù)庫

(9)EMBL(EuropeanMolecularBiologyLaboratory)

NucleotideSequenceDatabaseEBI(EuropeanBioinformaticsInstitute)管理與GenBank收集的數(shù)據(jù)相同序列數(shù)據(jù)文檔格式與GenBank不同數(shù)據(jù)庫主頁http://www.ebi.ac.uk/embl輸入關(guān)鍵詞檢索到的條目每一條目詳細(xì)內(nèi)容(10)DDBJ(DNADataBankofJapan)

與GenBank收集的序列數(shù)據(jù)相同數(shù)據(jù)庫主頁http://www.ddbj.nig.ac.jp/Welcome-e.html輸入關(guān)鍵詞檢索到的條目每一條目詳細(xì)內(nèi)容發(fā)表文章要提供Accessionnumber(在三大核苷酸數(shù)據(jù)庫中通用)EPD(EukaryoticPromoterDatabase)

http://www.epd.isb-sib.ch/由WeizmannInstituteofScienceinRehovot(Israel)開創(chuàng)4806條真核生物啟動(dòng)子序列(2009.6)人類基因組中的啟動(dòng)子大約19萬個(gè)同一個(gè)基因具有多個(gè)啟動(dòng)子(11)啟動(dòng)子數(shù)據(jù)庫miRBase

/收集了>15000條hairpinprecursormiRNA序列(2010.9)來源于>100個(gè)物種可以通過miRNA名稱、關(guān)鍵詞、染色體位置等信息檢索數(shù)據(jù)庫分析一條DNA序列中是否可能包含miRNA(12)miRNA數(shù)據(jù)庫2、蛋白質(zhì)數(shù)據(jù)庫由PIR、EBI和SIB創(chuàng)辦分為兩個(gè)部分:來源于實(shí)驗(yàn)的有詳細(xì)注釋的序列(SwissProt)和自動(dòng)注釋序列(TrEMBL)與100多個(gè)數(shù)據(jù)庫相互參照(cross-reference)可用關(guān)鍵詞(Textsearch)和序列比對(duì)(BLASTsimilaritysearch)進(jìn)行檢索(1)UniPROT

/數(shù)據(jù)庫主頁,使用關(guān)鍵詞檢索結(jié)果頁面,reviewed(Swiss-Prot),unreviewed(TrEMBL)Browsebytaxonomy,keyword,geneontology,enzymeclassorpathway條目詳細(xì)內(nèi)容(1)UniPROT蛋白質(zhì)家族分類

蛋白質(zhì)整合信息(2)其它類型的蛋白質(zhì)數(shù)據(jù)庫蛋白質(zhì)家族結(jié)構(gòu)域Prosite/prositePIR(ProteinInformationResource)3、結(jié)構(gòu)數(shù)據(jù)庫(1)PDB(ProteinDataBank)

由BrookhavenNationalLaboratories創(chuàng)辦

蛋白質(zhì)核酸其它71,415個(gè)結(jié)構(gòu)圖(2011.2)可通過BLAST系統(tǒng)檢索(1)PDB(ProteinDataBank)(2)SWISS-3DIMAGE

http://www.expasy.ch/sw3d/蛋白質(zhì)的平面和立體圖來源于實(shí)驗(yàn)結(jié)果理論模型X射線衍射圖、核磁共振(NMR)光譜圖和電鏡圖(文字和三維結(jié)構(gòu)圖)4、酶和代謝數(shù)據(jù)庫KEGG(KyotoEncyclopediaofGenesandGenomes)各種代謝、遺傳等路徑圖可檢索參于各種路徑的基因KEGG主頁http://www.genome.ad.jp/kegg/點(diǎn)擊“PATHWAY”“PATHWAY”網(wǎng)頁點(diǎn)擊任一代謝路徑,如糖酵解/糖原異生途徑(Glycolysis/Gluconeogenesis)檢索GeneticInformationProcessingKEGG主頁點(diǎn)擊“PATHWAY”“PATHWAY”網(wǎng)頁點(diǎn)擊任一遺傳信息路徑,如Proteinexport路徑可以查看參加這一路徑蛋白質(zhì)的信息KEGG數(shù)據(jù)庫檢索EnvironmentalInformationProcessingKEGG主頁點(diǎn)擊“PATHWAY”“PATHWAY”網(wǎng)頁點(diǎn)擊任何EnvironmentalInformationProcessing路徑,如MAPKsignalingpathway路徑可以查看與這一路徑相連的其它信號(hào)路徑或參加這一路徑的蛋白質(zhì)信息KEGG數(shù)據(jù)庫檢索CellularProcessesKEGG主頁點(diǎn)擊“PATHWAY”“PATHWAY”網(wǎng)頁點(diǎn)擊任何CellularProcesses路徑,如Cellcycle路徑可以查看與這一路徑相連的其它信號(hào)路徑或參加這一路徑的蛋白質(zhì)信息KEGG數(shù)據(jù)庫5、物種分類數(shù)據(jù)庫物種分類界(Kingdom)門(Phylum)綱(Class)目(Order)科(Family)屬(Genus)種(Species)每一分類等級(jí)下可加設(shè)亞級(jí)(Sub-),如亞門、亞綱、亞科等。每一分類等級(jí)上可加設(shè)總級(jí)(Super-),如總綱、總目、總科等。動(dòng)物界(Animal)脊索動(dòng)物門(Chordata)脊椎動(dòng)物亞門(Vertebrata)哺乳綱(Mammalia)嚙齒目(Rodentia)鼠科(Muridae)小家鼠屬(Mus)小家鼠種(musculus)Mouse:Musmusculus/Taxonomy/taxonomyhome.html擬南芥系譜(lineage)查找某一物種的系譜樹在NCBITaxonomy主頁輸入物種名稱“pig”Taxonomy數(shù)據(jù)庫lineage6、文獻(xiàn)數(shù)據(jù)庫(1)

/PubMed/美國國家醫(yī)學(xué)圖書館的數(shù)據(jù)庫醫(yī)學(xué)、分子生物學(xué)、基礎(chǔ)生物學(xué)5400多種刊物,來源于80多個(gè)國家文獻(xiàn)年限:1947年至今提供摘要,全文鏈接免費(fèi)全文收集在(2)其它類型的文獻(xiàn)數(shù)據(jù)庫Agricola

/美國農(nóng)業(yè)部農(nóng)業(yè)圖書館的數(shù)據(jù)庫農(nóng)業(yè)類刊物OMIM(OnlineMendelianInheritanceinMan)/sites/entrez?db=OMIMNCBI的數(shù)據(jù)庫,每天更新數(shù)據(jù)人類基因、遺傳疾病輸入疾病、基因名稱條目7、更多的數(shù)據(jù)庫/nar/database/c/8、向數(shù)據(jù)庫提交和修改核苷酸和蛋白質(zhì)序列提交:Submission修改:Update數(shù)據(jù)庫中的數(shù)據(jù)由大家無償提供,共同享用Accuracy??(1)向GenBank提交或修改核苷酸序列

在GenBank主頁用BankIt

功能提交序列網(wǎng)上直接提交,簡(jiǎn)單方便提交后立刻得到臨時(shí)編號(hào)二天內(nèi)得到Accessionnumber用Update

功能修改GenBank中的序列和相關(guān)信息

修改一次,version的編號(hào)就進(jìn)一位Accessionnumber不變

用Sequin方法提交序列

可下載的電子表格自動(dòng)確定CDS、ORF和查找重復(fù)序列New(2)向SWISS-PROT提交或修改蛋白質(zhì)序列

網(wǎng)上直接操作只接收用蛋白質(zhì)直接測(cè)序的序列由核苷酸序列翻譯得到的蛋白質(zhì)序列將進(jìn)入TrEMBL/sprot/More…

EMBLhttp://www.ebi.ac.uk/embl/Documentation/information_for_submitters.html大規(guī)模數(shù)據(jù)郵件聯(lián)系9、常用序列格式FastaGenbankflatfileASN.1格式轉(zhuǎn)換http://www.ebi.ac.uk/cgi-bin/readseq.cgi/molbio/readseq/上機(jī)操作熟悉各種數(shù)據(jù)庫了解常用序列格式并學(xué)習(xí)格式轉(zhuǎn)換重點(diǎn)了解GenBank和SWISS-PROT的各種功能和適用范圍Xa26nucleicacidsequence(DQ426646,6000bp):>Xa26,mRNAATGGCCATGGGTCCACACGCAGTGAGATGAATGCTAGATCTCACGAGAAAAAAGAAATACATCTCAGGGGTTGTGATGTACTGGATAATTTGCTCGTCATATTAACCATTAGCTTACTCTAGTTGATGTGGGCATGGATGGAGCCGGCAGCCGGCGATCCTATTTAA…Xa26aminoacidsequence(ABD84047,1103aa):>Xa26,proteinMALVRLPVWIFVAALLIASSSTVPCASSLGPIASKSNSSDTDLAALLAFKAQLSDPNNILAGNWTTGTPFCRWVGVSCSSHRRRRQRVTALELPNVPLQGELSS…AdamZemla

FourgeneticsignaturesoftheSARSvirus–showninyellow,blue,lightgreen,anddarkgreen–aremappedontoa3-DproteinmodeloftheSARSRNApolymerase.Surfacefeaturesofthesubstrate-bindingpocketsofTGEVMpro(A)andSARS3CLproteinase(B).Thesurfacecolorwasloadedbytheelectrostaticproperties.Onesmallmolecule,itschemicalstructureisshownin(C),producedbythevirtualscreeningontheMDDRdatabase,representedasCPKmodel,wasdockedintothebindingpockets.

XIONGBin

Microarray2-DPAGETwentymostsequencedorganismsinGenBank(2011.2)建立特定染色體的基因組文庫隨機(jī)選擇克隆進(jìn)行短片段單次測(cè)序比對(duì)確認(rèn)不含重復(fù)序列在序列上尋找引物合成引物對(duì)基因組DNA進(jìn)行PCR產(chǎn)物為單一片段即是STS標(biāo)記,確認(rèn)其在染色體上的位置如何找到一個(gè)STSNewBankIt第三章關(guān)鍵詞或詞組為基礎(chǔ)的數(shù)據(jù)庫檢索生物信息學(xué)檢索數(shù)據(jù)庫的方法用關(guān)鍵詞或詞組進(jìn)行數(shù)據(jù)庫檢索(Text-baseddatabasesearching)用核苷酸或蛋白質(zhì)序列進(jìn)行數(shù)據(jù)庫檢索(Sequence-baseddatabasesearching)GenenameAuthorAccessionnumber…Database關(guān)鍵詞或詞組為基礎(chǔ)的數(shù)據(jù)庫檢索關(guān)鍵詞名詞、描述性詞、詞組序列注冊(cè)號(hào)(Accessionnumber)檢索體系EntrezSequenceRetrievalSystem(SRS)Integrateddatabaseretrievalsystem(DBGET)TrendsinBiotechnology1998,16(supplement1):3-5.檢索須知(1)連接詞AND,OR,NOT(Booleanoperators)riceANDenzyme(AND為缺省值,可略去)riceANDenzymeNOTkinaseretrotransposonORretroelement注意事項(xiàng):1、AND,OR,NOTmustbeenteredinUPPERCASE2、Booleanoperatorsareprocessedinaleft-to-rightsequencericeAND(microarrayORexpressionprofile)riceANDmicroarrayORexpressionprofile3、Theordercanbechangedbyenclosingindividual

conceptsinparentheses(processedfirst)PubMed>27000records504records用引號(hào)將兩個(gè)單詞組成一個(gè)詞組16SrRNA=16SANDrRNA“16SrRNA”pseudopod*=pseudopod

OR

pseudopodiaOR

pseudopodium

檢索須知(2)Nucleotide16SrRNA“16SrRNA”~350000sequences~3000000sequencesexactmatchwildcard,*,放在單詞后使檢索范圍擴(kuò)大,但專一性降低1.Entrez/gquery/NCBI的檢索體系優(yōu)點(diǎn):三種檢索體系中最容易操作的體系缺點(diǎn):檢索范圍有限EntrezHelpEntrez可對(duì)8大類40個(gè)數(shù)據(jù)庫進(jìn)行檢索NucleicAcidsResearch2011,39:D38–D51ScientificliteraturePubmed自動(dòng)將檢索詞翻譯為MeSH詞匯Entrez可對(duì)8大類40個(gè)數(shù)據(jù)庫進(jìn)行檢索Sequence,Structure,Expression…Entrez系統(tǒng)中數(shù)據(jù)庫之間的連接NCBI主頁選擇“AllDatabases”或Entrez主頁,輸入關(guān)鍵詞各個(gè)數(shù)據(jù)庫中檢索到的信息數(shù)量點(diǎn)擊相應(yīng)數(shù)據(jù)庫查看信息目錄,每一條信息與其它數(shù)據(jù)庫的相關(guān)信息鏈接檢索方法(1):跨庫檢索(cross-databasesearch)檢索方法(2):選擇數(shù)據(jù)庫檢索NCBI主頁選擇數(shù)據(jù)庫,輸入關(guān)鍵詞檢索到的信息目錄,每一條信息與其它數(shù)據(jù)庫的相關(guān)信息鏈接查看信息內(nèi)容RefiningYourSearch查詢insulin基因的序列不是想要的結(jié)果!如何精簡(jiǎn)?RefiningYourSearch查詢?nèi)薸nsulin基因的序列insulin[proteinname]human[organism]RefiningYourSearch關(guān)鍵詞[查詢范圍]human[ORGN]AND50[SLEN]:60[SLEN]AND1999[MDAT]RefiningYourSearchAim:FindallhumannucleotidesequenceswithD-loopannotations.不同數(shù)據(jù)庫的Searchfields不同,詳見Limits選項(xiàng)!jmolevol[JOUR]ANDdrosophila[ORGN]D-loop[FKEY]ANDhuman[ORGN]Aim:Findallhumanproteinsequenceswithlengthsbetween50and60aminoacidsthatwereenteredintothedatabaseduring1999.Aim:FindDrosophilapopulationstudiespublishedintheJournalofMolecularEvolutionSearchFieldDescriptionsforSequenceDatabaseWatsonJ[author]1953[publicationdate]nature[journal]WatsonJ[AU]1953[DP]nature[TA]RefiningYourSearchPubMed數(shù)據(jù)庫的搜索SearchFieldDescriptionsandTagsforPubmed如何自動(dòng)獲得最近更新的結(jié)果?檢索、管理和引用文獻(xiàn)的工具

2.SRS(SequenceReterievalSystem)http://srs.ebi.ac.uk/

HelpEuropeanBioinformaticsInstitute(EBI)的檢索體系優(yōu)點(diǎn):檢索面寬缺點(diǎn):操作復(fù)雜17大類194個(gè)數(shù)據(jù)庫與SRS體系相連Literature,BibliographyandReferencedatabasesNucleotidesequencedatabasesUniprotUniversalProteinResourceOtherproteinsequencedatabasesDeprecatedProteinDatabasesNucleotiderelateddatabasesProteinfunctiondatabasesProteinstructuredatabasesEnzymes,reactionsandmetabolicpathwaydatabasesMutationandSNPdatabasesGeneontologyresourcesBiologicalResourcesCataloguesMappingdatabasesOtherdatabasesUserowneddatabasesApplicationresultdatabasesEMBOSSresultdatabases檢索方法(1):快速檢索(Quicksearch)操作簡(jiǎn)單,檢索數(shù)據(jù)庫有限適用于目標(biāo)明確的檢索在SRS主頁選擇檢索類別,輸入關(guān)鍵詞檢索到的信息目錄,每一條信息與其它數(shù)據(jù)庫的相關(guān)信息鏈接查看信息內(nèi)容檢索方法(2):高級(jí)檢索(advancedsearch)操作稍微復(fù)雜,可以檢索所有數(shù)據(jù)庫適用于范圍廣泛的檢索在SRS主頁點(diǎn)擊“LibraryPage”在“LibraryPage”網(wǎng)頁選擇數(shù)據(jù)庫,然后點(diǎn)擊“QueryForm”在“QueryForm”網(wǎng)頁輸入關(guān)鍵詞檢索檢索到的信息目錄,每一條信息與其它數(shù)據(jù)庫的相關(guān)信息鏈接3.DBGET(Integrateddatabaseretrievalsystem)http://www.genome.jp/dbget/日本GenomeNet的檢索體系優(yōu)點(diǎn):與KyotoEncyclopediaofGenesandGenomes(KEGG)database相連 操作較SRS簡(jiǎn)單缺點(diǎn):檢索面較SRS窄DBGET與40多個(gè)數(shù)據(jù)庫相連DBGET檢索體系中數(shù)據(jù)庫之間的連接檢索方法(1):?jiǎn)螏鞕z索(basicsearch)在DBGET主頁選擇一個(gè)數(shù)據(jù)庫輸入關(guān)鍵詞檢索查看檢索到的信息目錄查看信息詳細(xì)內(nèi)容檢索方法(2):跨庫檢索(LinkDB)在DBGET主頁點(diǎn)擊“LinkDB”在查詢網(wǎng)頁選擇數(shù)據(jù)庫輸入關(guān)鍵詞檢索(數(shù)據(jù)庫:編號(hào))結(jié)果不是總能得到你所需要的信息關(guān)鍵詞的使用retrotransposon retro-transposon

數(shù)據(jù)庫所包含數(shù)據(jù)的多少和范圍不同的數(shù)據(jù)庫包含內(nèi)容有限關(guān)鍵詞的拼寫錯(cuò)誤4、自習(xí)資源4、上機(jī)操作1、查找與水稻抗病基因Xa21有關(guān)的資料:(1)有多少條序列具有全長CDS,分別由多少堿基構(gòu)成?編碼多少個(gè)氨基酸?(2)指出該基因exon和intron的位置(3)Xa21蛋白是否有3-Dstructure數(shù)據(jù)2、查找線蟲(Caenorhabditiselegans)基因組的資料:(1)chromosomeI的測(cè)序是否已完成?(2)已知的chromosomeI的序列有多少堿基?序列發(fā)表在哪份雜志上?期號(hào)和頁碼?3、查看擬南芥(Arabidopsisthaliana)的系譜關(guān)系(lineage)。4、在PubMed中檢索我校在2011年1月發(fā)表的科研論文。5、熟悉SRS和DBGET檢索體系第四章核苷酸和蛋白質(zhì)序列為基礎(chǔ)的數(shù)據(jù)庫檢索生物信息學(xué)檢索數(shù)據(jù)庫的方法用關(guān)鍵詞或詞組進(jìn)行數(shù)據(jù)庫檢索(Text-baseddatabasesearching)用核苷酸或蛋白質(zhì)序列進(jìn)行數(shù)據(jù)庫檢索(Sequence-baseddatabasesearching)GenenameAuthorAccessionnumber…Database核苷酸和蛋白質(zhì)序列為基礎(chǔ)的數(shù)據(jù)庫檢索序列對(duì)位排列(sequencealignment)將兩條或多條序列對(duì)位排列,突出相似的結(jié)構(gòu)區(qū)域序列1序列2FunctionStructureSequence表示序列的字符兩條蛋白質(zhì)序列對(duì)位排列分析分析功能分析物種進(jìn)化檢測(cè)突變、插入或缺失序列延長序列定位基因表達(dá)譜分析序列比對(duì)的用途序列對(duì)位排列分析的種類序列對(duì)庫對(duì)位排列分析多序列對(duì)位排列分析從數(shù)據(jù)庫中尋找同源序列主要涉及核苷酸數(shù)據(jù)庫和蛋白質(zhì)數(shù)據(jù)庫兩序列對(duì)位排列分析(一)序列對(duì)位排列分析的基本原理1、記分矩陣(scoringmatrix)記分矩陣中含有兩條序列對(duì)位排列時(shí)具體使用的分值長度一定時(shí),分?jǐn)?shù)越高,兩條序列匹配越好DNA序列對(duì)位記分序列1ACGTTA序列2ACTTTG記分22-322-3=2蛋白質(zhì)序列對(duì)位排列分析記分復(fù)雜一致氨基酸的記分不同稀有氨基酸(C),分值高普通氨基酸(S),分值低相似氨基酸也記分,如R-K蛋白質(zhì)序列對(duì)位記分序列1VDSCY序列2VNWCY記分41-397=181、記分矩陣(scoringmatrix)蛋白質(zhì)有多種記分矩陣PAM矩陣(如PAM30、PAM70)BLOSUM矩陣(如BLOSUM62、BLOSUM80)BLOSUM62aminoacidscoringmatrixBLAST默認(rèn)scoringmatrix1、記分矩陣(scoringmatrix)基因進(jìn)化過程中產(chǎn)生突變序列對(duì)位排列分析時(shí)允許插入空位空位罰分涉及兩個(gè)參數(shù)插入缺失空位開放(gapopening)空位延伸(gapextension)序列1ATGCTGA序列2ATGGA序列1ATGCTGA序列2ATG--GA222-5-222=3IndelATGTGA2、空位(間隔)罰分(gappenalty)3、對(duì)位排列的方法詞或K串方法(BLAST,FASTA)點(diǎn)陣分析(Dot-matrix)動(dòng)態(tài)規(guī)劃(Dynamicprogramming)(二)序列對(duì)庫對(duì)位排列分析BLASTFASTAOthermethods主要檢索體系用待分析序列對(duì)數(shù)據(jù)庫進(jìn)行相似性分析重復(fù)許多次的兩兩序列對(duì)位排列分析從數(shù)據(jù)庫中找出所有同源序列1、基本概念(1)Sequenceidentity和sequencesimilarityIdentity:

兩條序列在同一位點(diǎn)上的核苷酸或氨基酸殘基完全相同Theextenttowhichnucleotideorproteinsequencesarerelated.Theextentofsimilaritybetweentwosequencescanbebasedonpercentsequenceidentityand/orconservation.InBLASTsimilarityreferstoapositivematrixscoreTheextenttowhichtwo(nucleotideoraminoacid)sequencesareinvariant.Similarity(positive):

兩條序列在同一位點(diǎn)上的

氨基酸殘基的化學(xué)性質(zhì)相似Homology同源Identity相同Similarity相似Ais80%identicaltoBAis80%similartoB×HomologyAis80%homologoustoBIfyoursequencesaremorethan100aminoacidslong(or100nucleotideslong),youcanlabelproteinsas“homologous”if25percentoftheaminoacidsareidentical,forDNAyouwillrequireatleast70percentidentity(2)Globalalignment和localalignmentQuerySubjectQuerySubjectGlobalalignment:兩條完整的序列相比較QuerySubjectLocalalignment:兩條序列中相似程度最高的部分相比較(3)Gappedalignment和ungappedalignmentQuerySubjectQuerySubjectQuerySubjectGappedalignment:

為達(dá)到最佳a(bǔ)lignment,序列中加入空位QuerySubjectUngappedalignment:相比較序列的核苷酸或氨基酸序列連續(xù)(4)Alignmentscore和E(expect)value衡量兩條相比較序列相似程度的標(biāo)準(zhǔn)(bits)Score:分值越大,兩個(gè)比較序列相似程度越高Evalue:期望得到的、完全由機(jī)會(huì)造成的、相當(dāng)于或大于目前分值的alignment次數(shù)E值取決于alignment分值、相比較序列的長短和數(shù)據(jù)庫中數(shù)據(jù)的數(shù)量Blast中E的閾值為10。1e-66=110-66

E值越小越好試驗(yàn)組存活率比對(duì)照組高20%(p<0.05)(5)Low-complexityregions(LCRs)核苷酸和蛋白質(zhì)序列中短的重復(fù)序列或由少數(shù)幾種核苷酸或氨基酸殘基組成的序列(如Poly-A)數(shù)據(jù)庫中半數(shù)以上的序列至少帶有一個(gè)LCRSequencealignment時(shí)應(yīng)避免LCR相互配對(duì)得分BLAST用Filter功能避免比較LCR在比對(duì)結(jié)果的query序列中用小寫字母或x和n(分別代表氨基酸和核苷酸)代表LCRBLAST(BasicLocalAlignmentSearchTool)檢索

/HelpBasicBLASTSpecializedBLASTBLAST

programsblastn

用核苷酸序列檢索核苷酸數(shù)據(jù)庫blastp

用蛋白質(zhì)序列檢索蛋白質(zhì)數(shù)據(jù)庫blastx

將核苷酸序列通過6種閱讀框翻譯成不同的蛋白

質(zhì)序列檢索蛋白質(zhì)數(shù)據(jù)庫tblastn用蛋白質(zhì)序列檢索核苷酸數(shù)據(jù)庫(數(shù)據(jù)庫中的序

列被翻譯出不同的蛋白質(zhì)序列)tblastx

將核苷酸序列通過6種閱讀框翻譯成不同的蛋白質(zhì)序列檢索核苷酸數(shù)據(jù)庫(數(shù)據(jù)庫中的序列也被翻譯出不同的蛋白質(zhì)序列)BLASTdatabasesHumangenomicplustranscript人基因組和mRNA序列

Mousegenomicplustranscript小鼠基因組和mRNA序列

nucleotidecollection(nr/nt)GenBank(無EST,STS,GSS,HTGS)

non-redundantproteinsequences(nr)非冗余蛋白質(zhì)數(shù)據(jù)庫

refseq-rnaReferencemRNAsequences

refseq-genomicReferencegenomicsequences

refseq-proteinReferenceproteinsequencesestEST數(shù)據(jù)庫BLASTdatabasesest-others非人和小鼠的EST數(shù)據(jù)庫gss GSS數(shù)據(jù)庫htgs HTGS數(shù)據(jù)庫pat 專利序列數(shù)據(jù)庫pdb 蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)庫alu_repeatsAlu重復(fù)序列數(shù)據(jù)庫swissprot swissprot蛋白質(zhì)數(shù)據(jù)庫dbsts STS數(shù)據(jù)庫wgswhole-genomeshotgunreadsenv_ntEnvironmentalsamples(nt)env_nrEnvironmentalsamples(pro)(1)BLASTN將要查詢的序列直接粘貼到序列框中或輸入登陸號(hào),GI號(hào)選擇database、organism選擇BlastAlgorithm

可進(jìn)行其它項(xiàng)目的選擇用于分析進(jìn)一步選擇檢索范圍:Limitbyentrezquery(如proteaseNOThivI[organism])Filter(Humanrepeats):遮蓋重復(fù)序列可加快檢索速度(特別是>100kb的片段)結(jié)果頁面BLAST結(jié)果解讀SequenceBLAST結(jié)果解讀HitlistScore(Bitscore)

Highbitscore=goodmatchE-Value

LowE-value=goodmatchRed:verygoodGreen:acceptableBlack:badE-valueshigherthan1e-4requireextraevidencetosupporthomologyE-valueslowerthan1e-4indicatepossiblehomology1e-03=borderlineE-value1e-04=goodE-value1e-10=verygoodE-value(2)BLASTP基本操作同blastn(3)PSI-BLAST(PositionSpecificIteratedBLAST)氨基酸序列檢索重復(fù)檢索數(shù)據(jù)庫第一步 檢索數(shù)據(jù)庫

新的alignmentsequences第二步可繼續(xù)檢索循環(huán) 被查詢序列(query)

BLASTP標(biāo)準(zhǔn)檢索點(diǎn)擊RunPSI-Blastiteration2(4)PHI-BLAST(PatternHitInitiatedBLAST)蛋白質(zhì)序列,并帶有特殊區(qū)域(pattern)具有同樣的特殊區(qū)域其它區(qū)域與查詢序列相似可與PSI-BLAST相連,重復(fù)檢索在數(shù)據(jù)庫中檢索到的蛋白質(zhì)可查詢檢測(cè)到的特殊區(qū)域檢索前需輸入PROSITE數(shù)據(jù)庫的結(jié)構(gòu)句法(patternsyntax)如:[IVMF]-G-E-x-[GAS]-[LIVM]-x(5,11)-R-[STAQ](5)TranslatedBLASTblastx,tblastn,tblastx

基本操作同blastn(6)ConservedDomainSearch檢索conserveddomaindatabase只適用于蛋白質(zhì)序列的檢索分析檢測(cè)被檢索的序列中是否含有保守結(jié)構(gòu)域點(diǎn)擊“Searchforsimilardomainarchitectures”查看相關(guān)結(jié)構(gòu)域點(diǎn)擊結(jié)構(gòu)域圖標(biāo)查看多序列對(duì)位排列(7)Primer-BLAST/tools/primer-blast/設(shè)計(jì)PCR引物分析引物特異性

在GenBank檢索結(jié)果頁面中提供了鏈接結(jié)果(8)Constraint-basedMultipleAlignmentTool/tools/cobalt/多重比對(duì)進(jìn)化分析

在blast檢索結(jié)果頁面中提供了鏈接結(jié)果3、FASTA檢索

http://www.ebi.ac.uk/Tools/sss/Programs一些特殊設(shè)計(jì)的序列檢索體系在發(fā)現(xiàn)基因和蛋白質(zhì)家族成員方面可能更為可靠BLAST和FASTA檢索體系有時(shí)不能檢測(cè)出某些遠(yuǎn)緣序列的相關(guān)性(三)兩序列對(duì)位排列分析NCBI的分析工具對(duì)任意兩條序列進(jìn)行對(duì)位排列分析允許空位SpecializedBLASTAligntwo(ormore)sequencesusingBLAST(bl2seq)Needleman-Wunsch

GlobalSequenceAlignmentTool序列來源輸入Accessionnumber

直接粘貼序列適用于blastn,blastp,blastx,tblastn,tblastxblastn:兩條核苷酸序列相比較blastp:兩條蛋白質(zhì)序列相比較tblastn:比較蛋白質(zhì)序列(sequence1)和核苷酸序列(翻譯成蛋白質(zhì)序列)(sequence2)blastx:比較核苷酸序列(翻譯成蛋白質(zhì)序列)(sequence1)和蛋白質(zhì)序列(sequence2)tblastx:兩條核苷酸序列(翻譯成蛋白質(zhì)序列)比較BLAST2sequences結(jié)果格式兩種圖形兩序列對(duì)位排列Seq2Seq1BLAST2sequences結(jié)果格式兩種圖形兩序列對(duì)位排列Needleman-Wunsch

GlobalSequenceAlignmentToolSeq2Seq1編碼區(qū)的比對(duì)應(yīng)以密碼子為單位勿改變編碼框注意:Nucl.AcidsRes.(2003)31:3537-3539eTBLASTDuplicationPlagiarismNature2008451:397-399Atextsimilarity-basedengineforsearchingliteraturecollectionsadatabaseofhighlysimilarcitationsinthescientificliterature

/dejavu/(四)上機(jī)操作了解BLASTHelp中的內(nèi)容。以大麥Mlo基因(Z83834)為查詢序列

(1)用Blastn能在nr/nt數(shù)據(jù)庫中檢索到多少條與之同源的序列?有多少條是禾本科中的?

(2)換用megablast或discontiguousmegablast,觀察檢索結(jié)果的改變。

(3)嘗試修改Blastn的參數(shù),觀測(cè)對(duì)檢索結(jié)果的影響。

(4)找出Mlo基因的編碼蛋白序列,用Blastp檢索到的與Mlo蛋白同源的序列與用PSI-Blast檢索到的同源序列是否有差別?

(5)使用BlastX預(yù)測(cè)Mlo基因的編碼蛋白。用bl2seq分析大麥和小麥Mlo基因mRNA序列編碼區(qū)和蛋白質(zhì)產(chǎn)物的同源性

GFCN*FFT*LN?

WLLQLILNLA*C

MASATNSSLSLM?5’ATGGCTTCTGCAACTAATTCTTCACTTAGCTTAATGC3’3’TACCGAAGACGTTGATTAAGAAGTGAATGCAATTACG5’?PLQW*NLV*TLAHSRCSIR*LR*H?AEAVLEESVNIBlastx的6種閱讀框架第五章多序列對(duì)位排列和進(jìn)化分析生物信息學(xué)chickenPLVSSPLRGEAGVLPFQQEEYEKVKRGIVEQCCHNTCSLYQLENYCNxenopusALVSGPQDNELDGMQLQPQEYQKMKRGIVEQCCHSTCSLFQLESYCNhumanLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCNmonkeyPQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCNdogLQVRDVELAGAPGEGGLQPLALEGALQKRGIVEQCCTSICSLYQLENYCNhamsterPQVAQLELGGGPGADDLQTLALEVAQQKRGIVDQCCTSICSLYQLENYCNbovinePQVGALELAGGPGAGGLEGPPQKRGIVEQCCASVCSLYQLENYCNguineapigPQVEQTELGMGLGAGGLQPLALEMALQKRGIVDQCCTGTCTRHQLQSYCNBringthegreatestnumberofsimilarcharactersintothesamecolumnofthealignmentMultipleSequenceAlignment(MSA)多序列對(duì)位排列HumanHoxgenes為什么要做MSA?用于描述一組序列之間的相似性關(guān)系,以便了解一個(gè)基因家族的基本特征,尋找motif,保守區(qū)域等。用于預(yù)測(cè)新序列的二級(jí)和三級(jí)結(jié)構(gòu),進(jìn)而推測(cè)其生物學(xué)功能。用于描述同源序列之間的親緣關(guān)系的遠(yuǎn)近,應(yīng)用到分子進(jìn)化分析中。是構(gòu)建分子進(jìn)化樹的基礎(chǔ)。為什么要做MSA?abcGenetreeABCSpeciestreeWeoftenassumethatgenetreesgiveusspeciestrees注意概念:Paralogy(旁系同源/并系同源)&Orthology(直系同源)怎么做MSA?動(dòng)態(tài)規(guī)劃算法(dynamicprogramming):MSA改進(jìn)算法(啟發(fā)式算法):

1.漸進(jìn)法(progressivemethods):Clustal,T-Coffee,MUSCLE2.迭代法(iterativemethods):PRRP,DIALIGN3.其它算法:PartialOrderAlgorithm、profileHMM、meta-meth

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論