主流可變剪切軟件識別原理_第1頁
主流可變剪切軟件識別原理_第2頁
主流可變剪切軟件識別原理_第3頁
主流可變剪切軟件識別原理_第4頁
主流可變剪切軟件識別原理_第5頁
免費預(yù)覽已結(jié)束,剩余4頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、總結(jié)隨著多物種的基因組測序結(jié)果公布,人們發(fā)現(xiàn)蛋白質(zhì)編碼基因的數(shù)量并沒有隨著生物復(fù)雜性的增加而增加,進(jìn)而發(fā)現(xiàn)了可變剪切的機(jī)制。可變剪切是指mRNA前體中的外顯子以不同的組合方式進(jìn)行剪切和拼接,從而產(chǎn)生不同結(jié)構(gòu)及功能的mRNA口蛋白質(zhì)。這種由同一基因產(chǎn)生不同結(jié)構(gòu)的mRN相蛋白質(zhì)稱作可變剪切。目前已發(fā)現(xiàn)的可變剪切共有五種類型:1 .外顯子跳讀(圖1A)即在進(jìn)行序列剪切時會跳過一個外顯子。2 .互斥外顯子(圖1B)即進(jìn)行序列剪切時存在兩個外顯子,二者選一進(jìn)行剪切。3 .內(nèi)含子保留(圖1C)即剪切時不剪切內(nèi)含子。4 .可變5'供體(圖1D)即剪切上游長度不定的外顯子。5 .可變3'受體(

2、圖1E)即剪切下游長度不定的外顯子。圖1可變剪切類型單末端和雙末端測序結(jié)果均可用于檢測可變剪切事件,但二者的原理不盡相同。單末端測序是將測序得到的reads比對到參考基因組中,如果特定的外顯子沒有對比到參考基因組,則標(biāo)記為在轉(zhuǎn)錄本中可能為選擇性剪切事件。而雙末端測序產(chǎn)生的是成對的reads,將成對的reads匹配到參考基因組上,然后對每對reads之間的實際距離與理論距離進(jìn)行計算,推測轉(zhuǎn)錄本的結(jié)構(gòu)。以下為幾種較為常用的可變剪切識別工具,接下來將對以下幾種不同可變剪切機(jī)制識別軟件的功能特點進(jìn)行簡單的介紹:AStalavisa原理:與其它軟件都是相同的標(biāo)記代碼不同,AStalavisa計數(shù)系統(tǒng)將每

3、一個未映射成功的reads相對應(yīng)的位置標(biāo)記唯一的代碼。首先將reads與轉(zhuǎn)錄本進(jìn)行映射,并將未在重疊轉(zhuǎn)錄本覆蓋的reads作為拼接結(jié)構(gòu)進(jìn)行檢測,然后根據(jù)基因組坐標(biāo)系,將剪切位點的變化生成AS代碼描述相應(yīng)的可變剪切事件。AStalavisa會將相同類型的可變剪切歸類到相同的分類結(jié)構(gòu)組中,無論使用多少轉(zhuǎn)錄本進(jìn)行比對它都會過濾去除冗余的數(shù)據(jù)來確定唯一的可變剪切事件。AStalavisa功能主要集中于拼接結(jié)構(gòu)的變化,而非外顯子或內(nèi)含子的屬性選擇,它克服了復(fù)雜剪切事件預(yù)測的難題。AStalavisa適用于所有物種的基因組或自定義基因的一部分。AStalavisa是一種預(yù)測方法而非固定的數(shù)據(jù),所以預(yù)測準(zhǔn)確

4、度依賴于不同的注釋文件,種特異性和編碼活動制約性。3Downloadturtput(GIFfftmiafl:selededjCDondinat.esIraiiHcripUlUCflnpffwjscyne卻曾口庇巳EFI1-353CJB.2-D2OeJu*:33790853.33T囪啊B,337EiOE0EtPll-3&3Cie2-0L5rMS世33fT®070LlankPTGporiianiCounEInflra工mmSjUncUire1.12Cfrdt1.24口。聃2Show»code:l-,2-圖2AStalavisa示例結(jié)果DiffSplice:是RNA-se

5、q全基因組水平不同剪切機(jī)制的檢測軟件,尤其適用于比較不同細(xì)胞之間轉(zhuǎn)錄租的基因差異表達(dá)分析,同一細(xì)胞不同狀態(tài)下或不同發(fā)展階段之間的基因差異表達(dá)分析。DiffSplice采用從頭計算的方法,它不需要完整的轉(zhuǎn)錄注釋文件,而是使用ASMs局部化搜尋可變剪切位點,這種局部化能夠減少樣品間相應(yīng)的ASMs模塊比較復(fù)雜度。DiffSplice首先會融合所有樣品的RNA-seq序歹進(jìn)行圖譜拼接重組,預(yù)測所有類型的轉(zhuǎn)錄及可變剪切事件。軟件將外顯子使用節(jié)點代替,若兩個外顯子節(jié)點間有reads覆蓋則連接這兩個節(jié)點。然后會自動識別基因組區(qū)域相應(yīng)的ASMs,每一條拼接序列都相當(dāng)于單入口單出口的子圖,不同的子圖會產(chǎn)生分歧,

6、這種分歧在不同子圖進(jìn)行比對時就會被識別為可變剪切位點。轉(zhuǎn)錄組圖譜拼接有兩種方法,一種是根據(jù)基因組比對進(jìn)行拼接,另一種是根據(jù)RNA-seq進(jìn)行從頭拼接。接下來會使用ESG(表達(dá)權(quán)重拼接圖譜)對ASMs進(jìn)行識別,其中每個ASMs被定義為單條子圖拼接圖譜,其中小的ASMs會嵌入更大的ASMs子圖譜中。黑MEXS“Xitgn/iUftzASM圖3DiffSplice原理DSGseq采用負(fù)二項式(NB)模型化閱讀外顯子,并且提出NB統(tǒng)計數(shù)值來檢測兩組樣品基因中的全部外顯子的不同剪切方式,這種方法是基于外顯子而開發(fā)的新途徑。其他大部分的檢測可變剪切的軟件第一步都會將所有可變剪切類型進(jìn)行評估,然后進(jìn)行可變剪

7、切類型的比例計算,這種機(jī)制往往會檢測到許多額外的假陽性的可變剪切。而DSGseqft接使用外顯子來檢測可變剪切類型,它不需要剪切類型組成的信息,也不需要剪切類型的表達(dá)量。當(dāng)兩組樣品進(jìn)行比對時,外顯子出現(xiàn)中部缺失的現(xiàn)象判定為內(nèi)含子保留,兩個外顯子之間增加單一位置外顯子為外顯子跳躍,兩個外顯子之間增加多個位置外顯子為外顯子互斥,外顯子5'或3'長度不同為可變供體或可變受體。圖4DSGseq®理RNAexpress是一款界面友好、計算效率較高和計算方式靈活的新型注釋軟件,它不依賴其他主流的注釋文件,能夠有效的識別轉(zhuǎn)錄本與基因組及轉(zhuǎn)錄特征,相較于其他只關(guān)注識別可變剪切的軟件,

8、RNAexpres劭能更加強(qiáng)大,它能夠識別一些非編碼的長短鏈RNA新的轉(zhuǎn)錄起始位點、可變啟動子、RNA編輯位點和編碼轉(zhuǎn)錄本的過程。RNAexpresW識別BAM格式文件,輸出GTF格式文件。該軟件簡單易懂,允許用戶添加新的類模塊來建立新的識別算法。RNAexpress分析過程分為以下6個階段,每個階段都有獨立的輸出文件。1 .數(shù)據(jù)的輸入及轉(zhuǎn)化2 .樣品融合3 .選擇算法(可選擇外部GTF比對)>4 .進(jìn)行比對5 .序列調(diào)取6 .閱讀計數(shù)圖5RNAexpressM理流程iReckon:該軟件概率論算法合并了諸如新型可變剪切類型、內(nèi)含子保留、未剪切前體mRNA、多重映射reads等機(jī)制,能夠

9、同時評估和發(fā)現(xiàn)可變剪切類型。該軟件使用了正則最大希期望值算法來發(fā)現(xiàn)及量化低表達(dá)量的新型可變剪切類型。軟件的工作流程分為三個步驟,首先軟件會識別所有的可變剪切類型,然后根據(jù)識別的可變剪切類型重新排列reads,最后根據(jù)預(yù)測的可變剪切類型的豐度進(jìn)行重建。SplicingGraph是一款對鑒別真假可變剪切位點高度靈敏的軟件,它能夠在裝配好的基因通路中捕捉單一結(jié)構(gòu),每個外顯子相當(dāng)于一個節(jié)點被內(nèi)含子連在一起,不同內(nèi)含子長度顯示內(nèi)含子有時不會被剪切,內(nèi)含子之間有無節(jié)點或幾個節(jié)點顯示有內(nèi)含子跳躍或選擇性剪切事件,而這種緊密的結(jié)構(gòu)使可變剪切更加簡易,該軟件還支持基因家族的可變剪切比對。SplicingGrap

10、h是基于Sircah的基礎(chǔ)上進(jìn)行優(yōu)化的軟件,它增強(qiáng)了Sircah基于ES微據(jù)的可變剪切偵測能力,擴(kuò)展了統(tǒng)計學(xué)、蛋白質(zhì)和RNA-seq的預(yù)測數(shù)據(jù)包。GeneModelforAT5G22640PredictedSpliceGraphforAT5G22640SpliceJunctionswithReadSupportRead75300前75310007533000i1ifAlt,3'NovelJuhctionllntronRetentiari21oQ11圖6SplicingGraph原理SplicingViewer:是一款可以對可變剪切進(jìn)行檢測、注釋和可視化的軟件。簡而言之分為三個步驟(圖7

11、A)來深度測定RNA-seq數(shù)據(jù)的可變剪切。首先,依據(jù)注釋基因組使用read校準(zhǔn)軟件(MAQ,BWA,Bowtie,SOA2校正短reads,SAMtools將映射成功的結(jié)果輸出為SAM/BAM格式文件(圖7B),繼續(xù)使用GATK對已經(jīng)公布的基因進(jìn)行深度覆蓋(圖7C),未被映射到的reads會被用于接下來的剪切點校準(zhǔn)。然后,將已知基因模型及注釋基因通過剪切位點原則(GT-AG,GC-AG,AT-AC一起用于判定檢測可能存在的剪切點(圖7D)。然后,那些未被映射的reads會被用于剪切位點的檢測(圖7E),判定標(biāo)準(zhǔn)為至少有兩條reads覆蓋到非重復(fù)匹配位點。最后,所有的鑒定拼接位點與拼接位點信息

12、注釋可變剪切類型(圖7F)。FASputafnsDCand糜gjunclkmsEJUr-aEbCfiamapping圖7SplicingViewer原理Tophat:該軟件利用Bowtie將所有reads映射到參考基因組,未匹配的reads在接下來的步驟繼續(xù)映射。然后利用MAQ重新將匹配的reads比對到參考基因組,獲得reads富集的基因組區(qū)域,稱為島序列即潛在的外顯子。軟件繼續(xù)將島序列兩端延長一定的側(cè)翼序列來預(yù)測可變5'供體和可變3'受體,繼續(xù)將臨近的島序列兩兩組合識別GT-AGg構(gòu)尋找內(nèi)含子結(jié)構(gòu)。軟件通過IUM種子延長方法尋找覆蓋潛在的剪切位點,種子序列確定為供體上游小段序列和下游受體小段序列,軟件繼續(xù)尋找覆蓋到種子位點的序列進(jìn)一步確定種子區(qū)域側(cè)翼的外顯子區(qū)域是否完全匹配,并同時檢測剪切的內(nèi)含子是否滿足長度。最后返回所有滿足條件的剪切位點和組合方式。圖8TopHat原

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論