基因家族分析套路[文檔知識(shí)]_第1頁(yè)
基因家族分析套路[文檔知識(shí)]_第2頁(yè)
基因家族分析套路[文檔知識(shí)]_第3頁(yè)
基因家族分析套路[文檔知識(shí)]_第4頁(yè)
基因家族分析套路[文檔知識(shí)]_第5頁(yè)
已閱讀5頁(yè),還剩16頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基因家族分析套路(一)近年來(lái),測(cè)序價(jià)格的下降,導(dǎo)致越來(lái)越多的基因組完成了測(cè)序,在數(shù)據(jù)庫(kù)中形成了大量的可用資源。如何利用這些資源呢?今天小編帶你認(rèn)識(shí)一下不測(cè)序也能發(fā)文章的思路-全基因組基因家族成員鑒定與分析(現(xiàn)在這一領(lǐng)域可是很熱奧);一、基本分析內(nèi)容n 數(shù)據(jù)庫(kù)檢索與成員鑒定n 進(jìn)化樹(shù)構(gòu)建n 保守domain和motif分析.n 基因結(jié)構(gòu)分析.n 轉(zhuǎn)錄組或熒光定量表達(dá)分析.二、數(shù)據(jù)庫(kù)檢索與成員鑒定1、數(shù)據(jù)庫(kù)檢索1)首先了解數(shù)據(jù)庫(kù)用法,學(xué)會(huì)下載你要分析物種的基因組相關(guān)數(shù)據(jù)。一般也就是下面這些數(shù)據(jù)庫(kù)了n Brachypodiumdb:/n TAIR:

2、/n RiceGenomeAnnotationProject:/.n Phytozome:/n Ensemble:/genome_browser/index.htmln NCBI基因組數(shù)據(jù)庫(kù):/assembly/?term=2)已鑒定的家族成員獲取。 如何獲得其他物種已發(fā)表某個(gè)基因家族的所有成員呢,最簡(jiǎn)單的就是下載該物種蛋白序列文件(可以

3、從上述數(shù)據(jù)庫(kù)中下載),然后按照文章中的ID,找到對(duì)應(yīng)成員。對(duì)于沒(méi)有全基因組鑒定的,可以下列數(shù)據(jù)庫(kù)中找:a.NCBI:nucleotideandproteindb.b.EBI:http:/www.ebi.ac.uk/.c.UniProtKB:/uniprot/2、比對(duì)工具。一般使用blast和hmmer,具體使用命令如下:n LocalBLASTformatdbidb.faspF/T;blastallpblastp(orelse)iknown.fasddb.fasm8b2(orelse)e1e-5oalignresult.txt.-b:outputtwo

4、differentmembersinsubjectsequences(db).n Hmmer(hiddenMarkovModel)search.ThesameasPSI-BLASTinfunction.Ithasahighersensitivity,butthespeedislower.Command:hmmbuild-informatafaknown.hmmalignknown.fa;hmmsearchknown.hmmdb.fasalign.out.3、過(guò)濾。n Identity:至少50%.n Coverregion:也要超過(guò)50%或者蛋白結(jié)構(gòu)域的長(zhǎng)度.n domain:必須要有完整的該

5、蛋白家族的。工具pfamdb(http:/pfam.sanger.ac.uk/)和NCBIBatchCD-search.(/Structure/bwrpsb/bwrpsb.cgi).n EST支持n BlastandHmmer同時(shí)檢測(cè)到4、通過(guò)上述操作獲得某家族的所有成員基因家族分析套路(二)本次主要講解在基因家族分析類文章中,進(jìn)化部分分析的內(nèi)容。主要是進(jìn)化樹(shù)的構(gòu)建與分析。一、構(gòu)建進(jìn)化樹(shù)的基本步驟、多序列比對(duì).Muscleprogram.、Model選擇.分別針對(duì)蛋白序列和核酸序列的模型選擇程序。ProtTestprogramforprote

6、inandModelTestorJmodetlestforDNA(/58001704/blog).、算法選擇。三種.NJ,MLandBI.、軟件選擇。MEGA(bootstrapleast1000replicates),phyMLandMrbayes(/58001704/main).、進(jìn)化樹(shù)修飾.MEGA:view-optionsandsubtree-drawoptions.Alsocanbedecoratedinword(/58001704/main)二、

7、具體步驟2.1多序列比對(duì)。一般采用muscle。因?yàn)镸USCLEisoneofthebest-performingmultiplealignmentprogramsaccordingtopublishedbenchmarktests,withaccuracyandspeedthatareconsistentlybetterthanCLUSTALW.2.2模型選擇。對(duì)于用蛋白序列構(gòu)建進(jìn)化樹(shù)的可以采用下面命令:java-Xmx250m-classpathpath/ProtTest.jarprottest.ProtTest-ialignmfile.phy.運(yùn)行結(jié)果如下圖注意:1)“.Phy”form

8、at.Onlyallowtencharaters.注意名字不能重復(fù)相同。2)AIC:AkaikeInformationCriterionframework.3)Gammadistributionparameter(G):gammashape.3)proportionofinvariablesites:I.2.3 構(gòu)建進(jìn)化樹(shù)2.3.1意義:a聚類分析。如亞家族分類。像MAPKKK基因家族通過(guò)進(jìn)化樹(shù)可以清楚分為MEKK,RafandZIK三個(gè)亞家族.b親緣關(guān)系鑒定。在進(jìn)化樹(shù)上位于同一支的往往暗示這親緣關(guān)系很近c(diǎn)基因家族復(fù)制分析。研究基因家族復(fù)制事件(duplicationevents),兩種復(fù)制事

9、件類型常采用的標(biāo)準(zhǔn):Tandemduplication:Identityandcoverregionmorethan70%andtightlylinked(Holub,2001).Chromosomalsegmentduplication:PlantGenomeDuplicationDatabase(PGDD:/duplication/)2.3.2進(jìn)化樹(shù)。一般ML樹(shù)比較準(zhǔn)確,但應(yīng)結(jié)合方法,如NJ樹(shù),相互驗(yàn)證。2.3.3進(jìn)化部分分析:KaKs計(jì)算簡(jiǎn)單的方法.可以使用下面的網(wǎng)頁(yè)P(yáng)AL2NAL(http:/www.bork.embl.

10、de/pal2nal/)標(biāo)準(zhǔn)方法:.a.ParaAT:ParaAT.pl-htest.homologs-ntest.cds-atest.pep-pprocfaxtk-ooutputb.KaKs_CalculatormNG(orelse)-itest.axt-otest.axt.kaksc.分歧時(shí)間計(jì)算:Divergenttime(T)calculation.T=Ks/2.:mean5.1-7.110-9.d. Ka/Ks意義: Ka/Ks=1.中性進(jìn)化。. Ka/KsKa/Ks1.正選擇。Positivelyselectedgenesandproducefitnessadvant

11、agemutationstoevolvenewfunctions.基因家族分析套路(三)本節(jié)主要講基因結(jié)構(gòu)分析套路1、Motif分析使用軟件MEME,命令如下:memesample.fa-dnarevcomp-nmotifs10-modzoops-minw6-maxw50meme_htmlFormat.html2、基因結(jié)構(gòu)分布圖可以使用在線網(wǎng)站GSDS2.0:website:/用法如下:結(jié)果展示3、基因結(jié)構(gòu)常見(jiàn)統(tǒng)計(jì)信息:自己excel或?qū)懗绦蚪y(tǒng)計(jì)a.Thenumberofintronandexon.b.Thesplicingintronpatt

12、erninculding0,1,2phase.c.Themarkedregion.Forexamplekinasedomain.d.sequencelength.e.UTR.4、啟動(dòng)子分析。網(wǎng)站:主要做植物的:http:/bioinformatics.psb.ugent.be/webtools/plantcare/html/注意事項(xiàng):a.IEbrower.b.Onlyonesequenceforoncesearchandthelengthwaslimitedin1000bp.c.DNAsequenceorigin:1000or1500bpupstreamofATGofonegene.分析結(jié)果:

13、基因家族分析套路(四)一、轉(zhuǎn)錄組及芯片原始數(shù)據(jù)下載網(wǎng)站1、GEOdatesets/profile(/gds).。用法見(jiàn)下圖。GEO數(shù)據(jù)ID命名規(guī)則:GPL-GSE-GSM.GPL:platformGSE:multipleseries.GSM:multiplesamples.GDSGSE.ThedifferenceconcentratedonthedatalabeledGDScanbeanalyzedforonegeneonline.Itissimpleandeasily.ThedatainthesameGPLcanbeusedtocompar

14、einexperiment下面是在線分析轉(zhuǎn)錄組數(shù)據(jù)的用法:2、EBIArrayExpress(http:/www.ebi.ac.uk/arrayexpress/)該數(shù)據(jù)庫(kù)下載數(shù)據(jù)用法如下:3、PLEXdb(/).該數(shù)據(jù)庫(kù)下載數(shù)據(jù)用法如下,注意用戶名和密碼!4、SRAdb(/sra/)5、DRAdb(http:/trace.ddbj.nig.ac.jp/DRASearch/)二、數(shù)據(jù)處理拿到原始數(shù)據(jù),要進(jìn)行處理,才能進(jìn)行后續(xù)數(shù)據(jù)分析。1、芯片數(shù)據(jù)。原始數(shù)據(jù)格式“.cel”格式。以AffyMicroarra

15、y數(shù)據(jù)處理為例講述主要的命令如下:library(affy);library(makecdfenv);librarybarleyGenome=make.cdf.env(“barleyGenome.cdf)mydataesetwrite.exprs(eset,file=mydata.txt)designcolnames(design)fitcontrast.matrixfit2fit2topTable(fit2,coef=1,adjust=fdr,sort.by=B,number=10)#Generateslistoftop10(number=10)differentiallyexpressed

16、genessortedbyB-values(sort.by=B)forfirstcomparisongroup.write.table(topTable(fit2,coef=1,adjust=fdr,sort.by=B,number=500),file=limma_complete.xls,s=F,sep=t)#Exportscompletelimmastatisticstableforfirstcomparisongroup.results-decideTests(fit2,p.value=0.05);vennDiagram(results)2、轉(zhuǎn)錄組數(shù)據(jù)處理。原始數(shù)據(jù)格式為sra或fastq格式。Sra可以轉(zhuǎn)換為fastq然后運(yùn)用下面的命令進(jìn)行處理。1)獲得cleandata;fastx_clipper:clipadapter.fastq_quality_filter:basequalitycontrol.fastq_quality_trimmer:trim5lowqualitybases.2)計(jì)算RPKM.bowtie2-buildpath/db.seqpath/dbtophatdbread.fastqbam_filterpath/accepted_hits.bam

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論