生物信息學(xué)分析方法_第1頁
生物信息學(xué)分析方法_第2頁
生物信息學(xué)分析方法_第3頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、核酸和蛋白質(zhì)序列分析蛋白質(zhì) , 核酸, 序列關(guān)鍵詞: 核酸序列 蛋白質(zhì)序列 分析軟件在獲得一個(gè)基因序列后, 需要對(duì)其進(jìn)展生物信息學(xué)分析, 從中盡量開掘信息, 從而指導(dǎo)進(jìn)一 步的實(shí)驗(yàn)研究。通過染色體定位分析、含子/外顯子分析、ORF分析、表達(dá)譜分析等,能夠說明基因的根本信息。通過啟動(dòng)子預(yù)測(cè)、CpG島分析和轉(zhuǎn)錄因子分析等,識(shí)別調(diào)控區(qū)的順式作用元件, 可以為基因的調(diào)控研究提供根底。 通過蛋白質(zhì)根本性質(zhì)分析,疏水性分析, 跨膜 區(qū)預(yù)測(cè),信號(hào)肽預(yù)測(cè),亞細(xì)胞定位預(yù)測(cè),抗原性位點(diǎn)預(yù)測(cè),可以對(duì)基因編碼蛋白的性質(zhì)作出初步判斷和預(yù)測(cè)。 尤其通過疏水性分析和跨膜區(qū)預(yù)測(cè)可以預(yù)測(cè)基因是否為膜蛋白,這對(duì)確定實(shí)驗(yàn)研究方向有

2、重要的參考意義。此外,通過相似性搜索、功能位點(diǎn)分析、結(jié)構(gòu)分析、查詢 基因表達(dá)譜聚簇?cái)?shù)據(jù)庫、 基因敲除數(shù)據(jù)庫、 基因組上下游鄰居等, 盡量挖掘網(wǎng)絡(luò)數(shù)據(jù)庫中的 信息,可以對(duì)基因功能作出推論。 上述技術(shù)路線可為其它類似分子的生物信息學(xué)分析提供借 鑒。本路線圖與推薦網(wǎng)址已建立超級(jí),放在大學(xué)人類疾病基因研究中心 /science/bioinfomatics.htm , 可以直接點(diǎn)擊進(jìn)入檢索。下面介紹其中一些根本分析。值得注意的是,在對(duì)序列進(jìn)展分析時(shí),首先應(yīng)當(dāng)明確序列的性質(zhì),是mRN序列還是基因組序列?是計(jì)算機(jī)拼接得到還是經(jīng)過PCRT增測(cè)序得到?是原核生物還是真核生物?這些決定了

3、分析方法的選擇和分析結(jié)果的解釋。一核酸序列分析1、雙序列比對(duì) pairwise alignment 雙序列比對(duì)是指比較兩條序列的相似性和尋找相似堿基與氨基酸的對(duì)應(yīng)位置,它是用 計(jì)算機(jī)進(jìn)展序列分析的強(qiáng)大工具,分為全局比對(duì)和局部比對(duì)兩類,各以Needleman-Wunsch算法和 Smith-Waterman 算法為代表。 由于這些算法都是啟發(fā)式 heuristic 的算法,因此 并沒有最優(yōu)值。根據(jù)比對(duì)的需要,選用適當(dāng)?shù)谋葘?duì)工具,在比對(duì)時(shí)適當(dāng)調(diào)整空格罰分gappenalty 和空格延伸罰分 gap extension penalty ,以獲得更優(yōu)的比對(duì)。除了利用BLAST FASTA等局部比對(duì)工具

4、進(jìn)展序列對(duì)數(shù)據(jù)庫的搜索外,我們還推薦使用 EMBOSS:件包中的 Needle 軟件bioinfo.pbi.nrc.ca:8090/EMBOSS/ ,和 Pairwise BLAST 。以上介紹的這些雙序列比對(duì)工具的使用都比較簡(jiǎn)單, 一般 輸入所比較的序列即可。1BLAST和FASTAFASTA . 和 BLAST . 是目前運(yùn)用 較為廣泛的相似性搜索工具。 這兩個(gè)工具都采用局部比對(duì)的方法, 選擇計(jì)分矩陣對(duì)序列計(jì)分, 通過分值的大小和統(tǒng)計(jì)學(xué)顯著性分析確定有意義的局部比對(duì)。使用FASTA和BLAST進(jìn)展數(shù)據(jù)庫搜索,找到與查詢序列有一定相似性的序列。一般認(rèn)為 , 如果蛋白的序列一致性為 25-30

5、%,那么可認(rèn)為序列同源。BLAST根據(jù)搜索序列和數(shù)據(jù)庫的不同類型分為5種表2,另外PSI-BLAST通過迭代搜索,可以搜索到與查詢序列相似性較低的序列。其中BLASTNBLASTP在實(shí)踐中最為常用,TBLASTN在搜索相似序列進(jìn)展新基因預(yù)測(cè)時(shí)特別有用。使用BLAST時(shí),先選擇需要使用的 BLAST程序,然后提供相應(yīng)的查詢序列,選擇所比對(duì)的數(shù)據(jù)庫即可。(2)Needle 和 Pairwise BLAST :其中 Needle 適用于蛋白質(zhì)和 DNA序列,而 Pairwise BLAST 僅適用于DNA序列3相似性和同源性:必須指出,相似性similarity丨和同源性( homology) 是兩

6、個(gè)完全不同的概念。同源序列是指從某一共同祖先經(jīng)過趨異進(jìn)化而形成的 不同序列。相似性是指序列比對(duì)過程中檢測(cè)序列和目標(biāo)序列之間一樣堿基或氨基酸殘基序列 所占比例的大小。經(jīng)過比對(duì),當(dāng)相似性高于一定程度,可以推測(cè)序列可能是同源序列,具有一定同源性。2、多序列比對(duì)和進(jìn)化樹在研究生物問題時(shí),常常需要同時(shí)對(duì)兩個(gè)以上的序列進(jìn)展比對(duì),這就是多序列比對(duì)。多序列比對(duì)可用于研究一組相關(guān)基因或蛋白, 推斷基因的進(jìn)化關(guān)系, 還可用于發(fā)現(xiàn)一組功能 或結(jié)構(gòu)相關(guān)基因之間的共有模式 pattern 。最常用的多序列比對(duì)工具為 ClustalW . ,多用于比較蛋白序列。ClustalW 用法:1輸入:序列以 FastA 格式輸入

7、。 2輸出:除了以文本形式外,還可以通過JalView顯示和編輯結(jié)果。此外,還可以另外使用GeneDoc常見于文獻(xiàn)與DNAStar 軟件等顯示結(jié)果。多序列比對(duì)的結(jié)果還用于進(jìn)一步繪制進(jìn)化樹。3、ORF(Open Reading Frame) 分析從核酸序列翻譯得到蛋白質(zhì)序列,需要進(jìn)展ORF分析,每個(gè)生物信息學(xué)分析軟件包幾乎都帶有翻譯功能。推薦使用 NCBI 的 ORF F/gof/gof.html軟件或 EMBOS中的 getorf bioinfo.pbi.nrc.ca:8O9O/EMBOSS/軟件。ORFFinder 以圖形方式,分為正鏈 +1、 2

8、、 3和反鏈 1、2、3六個(gè)相位預(yù)測(cè) ORF;Getorf 可指定預(yù) 測(cè)ORF的長(zhǎng)度下限和指定預(yù)測(cè)正反鏈。 進(jìn)展ORF分析雖然比較簡(jiǎn)單,但應(yīng)注意以下幾點(diǎn):1 序列的準(zhǔn)確性:尤其是通過計(jì)算機(jī)拼接的序列,需要根據(jù)EST和基因組序列進(jìn)展反復(fù)校正。2ORF是否完整:看在 ORF上游同一相位是否具有終止碼,或者具有起始密碼子。3參考Kozak 一致性規(guī)律,即起始密碼子位點(diǎn)符合A/GCCATGG 4不要忽略反義讀框。4、染色體定位根據(jù)基因組圖譜對(duì)序列進(jìn)展染色體定位和瀏覽其基因組上下游基因。具體方法為: 1進(jìn)展Genomic BLAST搜索。2通過"Genome vieW觀察基因組結(jié)構(gòu)。3點(diǎn)擊相應(yīng)

9、染色體區(qū)域,通過表意圖 ideogram 和相應(yīng)區(qū)域上下游的基因進(jìn)展準(zhǔn)確定位。5、基因結(jié)構(gòu)分析根據(jù)基因的mRNA序列與基因組序列,可以進(jìn)展基因結(jié)構(gòu)的分析。推薦使用BLAST或BLAT()進(jìn)展分析。 由于真核生物轉(zhuǎn)錄后含子將被剪切,因此將mRNZ和基因組進(jìn)展比對(duì)以后,會(huì)發(fā)現(xiàn)mRNA勺每個(gè)外顯子與基因組序列片斷匹配, 根據(jù)這些片段可以判斷外顯子的數(shù)目和大小。外顯子和含子具體邊界確實(shí)定, 可以參考GT/AG一致性規(guī)那么。BLAT的結(jié)果直接顯示外顯子數(shù)目、大小與邊界。丨進(jìn)展啟動(dòng)子預(yù)測(cè)。用RT-PCR等實(shí)驗(yàn)方法獲得的 mRNA往往缺少完整的 5'端,采用 FirstEF 程序可以對(duì)第一外顯子 尤

10、其是非編碼的第一外顯子 和CpG相關(guān)啟動(dòng)子進(jìn)展預(yù)測(cè)。方法:以 FastA 格式輸入起始密碼子上游序列。2轉(zhuǎn)錄因子結(jié)合位點(diǎn)分析:推薦使用 TFSEARC程序.cbrc.jp/research/db/TFSEARCH.html 丨與 MATCH程序 .gene-regulation./pub/programs.html#match對(duì)轉(zhuǎn)錄因子數(shù)據(jù)庫 TRANSFAC 進(jìn)展搜索,尋找可能的轉(zhuǎn)錄因子結(jié)合位點(diǎn)。方法: 輸入起始密碼子上游序列。 結(jié)果將給出很多可能的轉(zhuǎn)錄因子結(jié)合位點(diǎn), 注意選擇其中 分值較高的位點(diǎn)。 二 蛋白質(zhì)序列分析1 、跨膜區(qū)預(yù)測(cè)各個(gè)物種的膜蛋白的比例差異不大, 約四分之一的人類蛋白為膜

11、蛋白。 由于膜蛋白不 溶于水,別離純化困難,不容易生長(zhǎng)晶體,很難確定其結(jié)構(gòu)。因此,對(duì)膜蛋白的跨膜螺旋進(jìn) 展預(yù)測(cè)是生物信息學(xué)的重要應(yīng)用。推薦使用 TMHM軟件丨對(duì)蛋白進(jìn)展跨膜預(yù)測(cè)。TMHMM綜合了跨膜區(qū)疏水性、電荷偏倚、螺旋長(zhǎng)度和膜蛋白拓?fù)鋵W(xué)限制等性質(zhì),采用隱馬氏模型Hidden Markov Models,對(duì)跨膜區(qū)與膜外區(qū)進(jìn)展整體的預(yù)測(cè)。TMHMI是目前最好的進(jìn)展跨膜區(qū)預(yù)測(cè)的軟件 ,它尤其長(zhǎng)于區(qū)分可溶性蛋白和膜蛋白,因此首選它來判定一個(gè)蛋白是否 為膜蛋白。所有跨膜區(qū)預(yù)測(cè)軟件的準(zhǔn)確性都不超過52,但 86的跨膜區(qū)可以通過不同的軟件進(jìn)展正確預(yù)測(cè)。 因此,綜合分析不同的軟件預(yù)測(cè)結(jié)果和疏水性圖以獲得更

12、好的預(yù)測(cè)結(jié)果。 方法:輸入待分析的蛋白序列即可。2、信號(hào)肽預(yù)測(cè)信號(hào)肽位于分泌蛋白的 N端,當(dāng)?shù)鞍卓缒まD(zhuǎn)移位置時(shí)被切掉。 信號(hào)肽的特征是包括一 個(gè)正電荷區(qū)域、一個(gè)疏水性區(qū)域和不帶電荷但具有極性的區(qū)域。信號(hào)肽切割位點(diǎn)的-3 和-1位為小而中性氨基酸。推薦使用 SignalP 軟件 2.0 版.cbs.dtu.dk/services/SignalP-2.0/對(duì) PDCD5N端序列進(jìn)展信號(hào)肽分析。 SignalP2.0 根據(jù)信號(hào)肽序列特征,采用神經(jīng)網(wǎng)絡(luò)方法或隱馬氏模型方法, 根據(jù)物種的不同, 分別選擇用真核和原核序列進(jìn)展訓(xùn)練, 對(duì)信號(hào)肽位置與切割位點(diǎn)進(jìn)展預(yù)測(cè)。信號(hào)肽切割位點(diǎn)預(yù)測(cè)用 Y-score ma

13、ximum來判斷,對(duì)是否分泌蛋白用 meanS-score來判斷: 如果meanS-score大于0.5,那么預(yù)測(cè)為分泌蛋白,存在信號(hào)肽,但I(xiàn)I型跨膜蛋白的N端序列可能被錯(cuò)誤預(yù)測(cè)為分泌蛋白的信號(hào)肽。方法:輸入待分析的蛋白序列,如為原核基因選擇原核訓(xùn)練集,否那么選擇真核訓(xùn)練集。3、亞細(xì)胞定位預(yù)測(cè)亞細(xì)胞定位與蛋白質(zhì)的功能存在著非常重要的聯(lián)系。亞細(xì)胞定位預(yù)測(cè)基于如下原理: 1不同的細(xì)胞器往往具有不同的理化環(huán)境 , 它根據(jù)蛋白質(zhì)的結(jié)構(gòu)與外表理化特征 , 選擇性 容納蛋白。 2蛋白質(zhì)外表直接暴露于細(xì)胞器環(huán)境中 , 它由序列折疊過程決定 , 而后者取決于氨基酸組成。因此可以通過氨基酸組成進(jìn)展亞細(xì)胞定位的預(yù)

14、測(cè)。推薦使用1軟件對(duì)PDCD蛋白的細(xì)胞定位進(jìn)展預(yù)測(cè)。PSORT將動(dòng)物蛋白質(zhì)定位于 10 個(gè)細(xì)胞器: 1細(xì)胞漿, 2 細(xì)胞骨架, 3質(zhì)網(wǎng), 4胞外, 5高爾基體,6溶酶體,7線粒體,8胞核,9過氧化物酶體 peroxisome 和10細(xì)胞膜。DNA序列分析技術(shù)路線圖cDNAFeatuesAATAAA signal,PolyadenylationElectronic elongation(EST)ORFs(ORF Finder, getorf)Restriction site(DNASIS) Expression profileESTSAGEmap,SAGE GenieMicroarray(Wor

15、mBase)Genomic sequenceFeatureschromosome location(Human Genome)MW, base compositon(DNAMAN)Exon-intron(SIM4) Repeats(RepeatMasker) SNPs(dbSNP, TSC)5' flanking sequencePromoter, TATA box(FIRSTEF)CpG island(cpgplot)Transcription factor binding site(TFSEARCH, match)Novel gene prediction(EST, stackPA

16、CK) 蛋白序列分析技術(shù)路線圖Protein features MW,pi,AA composition(EMBOSS) Hydrophobicity(BioEdit) Transmembrane region(TMHMM) Signal peptide(Signal P) subcellular location(PSORT)Coiled coil(COILS)Antigenic site(DNAStar)Function inferenceGene knockouts(WormBase)Similarity searchAlignment(BLAST,FASTA,CLUSTALW)Phylogenic analysis(DNANAN)Gen

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論