主流可變剪切軟件識別原理_第1頁
主流可變剪切軟件識別原理_第2頁
主流可變剪切軟件識別原理_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 3/3主流可變剪切軟件識別原理總結(jié) 隨著多物種的基因組測序結(jié)果公布,人們發(fā)現(xiàn)蛋白質(zhì)編碼基因的數(shù)量并沒有隨著生物復(fù)雜性的增加而增加,進(jìn)而發(fā)現(xiàn)了可變剪切的機(jī)制。可變剪切是指mRNA前體中的外顯子以不同的組合方式進(jìn)行剪切和拼接,從而產(chǎn)生不同結(jié)構(gòu)及功能的mRNA和蛋白質(zhì)。這種由同一基因產(chǎn)生不同結(jié)構(gòu)的mRNA和蛋白質(zhì)稱作可變剪切。目前已發(fā)現(xiàn)的可變剪切共有五種類型: 1.外顯子跳讀(圖1A)即在進(jìn)行序列剪切時(shí)會跳過一個(gè)外顯子。 2.互斥外顯子(圖1B)即進(jìn)行序列剪切時(shí)存在兩個(gè)外顯子,二者選一進(jìn)行剪切。 3.內(nèi)含子保留(圖1C)即剪切時(shí)不剪切內(nèi)含子。 4.可變5供體(圖1D)即剪切上游長度不定的外顯子。

2、5.可變3受體(圖1E)即剪切下游長度不定的外顯子。 A C E 圖1 可變剪切類型 B D 單末端和雙末端測序結(jié)果均可用于檢測可變剪切事件 ,但二者的原理不盡相同。單末端測序是將測序得到的reads比對到參考基因組中,如果特定的外顯子沒有對比到參考基因組,則標(biāo)記為在轉(zhuǎn)錄本中可能為選擇性剪切事件。而雙末端測序產(chǎn)生的是成對的reads,將成對的reads匹配到參考基因組上,然后對每對reads之間的實(shí)際距離與理論距離進(jìn)行計(jì)算,推測轉(zhuǎn)錄本的結(jié)構(gòu)。以下為幾種較為常用的可變剪切識別工具,接下來將對以下幾種不同可變剪切機(jī)制識別軟件的功能特點(diǎn)進(jìn)行簡單的介紹: AStalavisa原理:與其它軟件都是相同的

3、標(biāo)記代碼不同,AStalavisa計(jì)數(shù)系統(tǒng)將每一個(gè)未映射成功的reads相對應(yīng)的位置標(biāo)記唯一的代碼。首先將reads與轉(zhuǎn)錄本進(jìn)行映射,并將未在重疊轉(zhuǎn)錄本覆蓋的reads作為拼接結(jié)構(gòu)進(jìn)行檢測,然后根據(jù)基因組坐標(biāo)系,將剪切位點(diǎn)的變化生成AS代碼描述相應(yīng)的可變剪切事件。AStalavisa會將相同類型的可變剪切歸類到相同的分類結(jié)構(gòu)組中,無論使用多少轉(zhuǎn)錄本進(jìn)行比對它都會過濾去除冗余的數(shù)據(jù)來確定唯一的可變剪切事件。AStalavisa功能主要集中于拼接結(jié)構(gòu)的變化,而非外顯子或內(nèi)含子的屬性選擇,它克服了復(fù)雜剪切事件預(yù)測的難題。AStalavisa適用于所有物種的基因組或自定義基因的一部分。AStalavi

4、sa是一種預(yù)測方法而非固定的數(shù)據(jù),所以預(yù)測準(zhǔn)確度依賴于不同的注釋文件,種特異性和編碼活動制約性。 圖2 AStalavisa示例結(jié)果 DiffSplice:是RNA-seq全基因組水平不同剪切機(jī)制的檢測軟件,尤其適用于比較不同細(xì)胞之間轉(zhuǎn)錄租的基因差異表達(dá)分析,同一細(xì)胞不同狀態(tài)下或不同發(fā)展階段之間的基因差異表達(dá)分析。DiffSplice采用從頭計(jì)算的方法,它不需要完整的轉(zhuǎn)錄注釋文件,而是使用ASMs局部化搜尋可變剪切位點(diǎn),這種局部化能夠減少樣品間相應(yīng)的ASMs模塊比較復(fù)雜度。DiffSplice首先會融合所有樣品的RNA-seq序列進(jìn)行圖譜拼接重組,預(yù)測所有類型的轉(zhuǎn)錄及可變剪切事件。軟件將外顯子

5、使用節(jié)點(diǎn)代替,若兩個(gè)外顯子節(jié)點(diǎn)間有reads覆蓋則連接這兩個(gè)節(jié)點(diǎn)。然后會自動識別基因組區(qū)域相應(yīng)的ASMs,每一條拼接序列都相當(dāng)于單入口單出口的子圖,不同的子圖會產(chǎn)生分歧,這種分歧在不同子圖進(jìn)行比對時(shí)就會被識別為可變剪切位點(diǎn)。轉(zhuǎn)錄組圖譜拼接有兩種方法,一種是根據(jù)基因組比對進(jìn)行拼接,另一種是根據(jù)RNA-seq進(jìn)行從頭拼接。接下來會使用ESG(表達(dá)權(quán)重拼接圖譜)對ASMs進(jìn)行識別,其中每個(gè)ASMs被定義為單條子圖拼接圖譜,其中小的ASMs會嵌入更大的ASMs子圖譜中。 圖3 DiffSplice原理 DSGseq:采用負(fù)二項(xiàng)式(NB)模型化閱讀外顯子,并且提出NB統(tǒng)計(jì)數(shù)值來檢測兩組樣品基因中的全部外

6、顯子的不同剪切方式,這種方法是基于外顯子而開發(fā)的新途徑。其他大部分的檢測可變剪切的軟件第一步都會將所有可變剪切類型進(jìn)行評估,然后進(jìn)行可變剪切類型的比例計(jì)算 ,這種機(jī)制往往會檢測到許多額外的假陽性的可變剪切。而DSGseq直接使用外顯子來檢測可變剪切類型,它不需要剪切類型組成的信息,也不需要剪切類型的表達(dá)量。當(dāng)兩組樣品進(jìn)行比對時(shí),外顯子出現(xiàn)中部缺失的現(xiàn)象判定為內(nèi)含子保留,兩個(gè)外顯子之間增加單一位置外顯子為外顯子跳躍,兩個(gè)外顯子之間增加多個(gè)位置外顯子為外顯子互斥,外顯子5或3長度不同為可變供體或可變受體。 圖4 DSG seq原理 RNAexpress:是一款界面友好、計(jì)算效率較高和計(jì)算方式靈活的

7、新型注釋軟件,它不依賴其他主流的注釋文件,能夠有效的識別轉(zhuǎn)錄本與基因組及轉(zhuǎn)錄特征。相較于其他只關(guān)注識別可變剪切的軟件,RNAexpress功能更加強(qiáng)大,它能夠識別一些非編碼的長短鏈RNA、新的轉(zhuǎn)錄起始位點(diǎn)、可變啟動子、RNA編輯位點(diǎn)和編碼轉(zhuǎn)錄本的過程。RNAexpress可識別BAM格式文件,輸出GTF格式文件。該軟件簡單易懂,允許用戶添加新的類模塊來建立新的識別算法。RNAexpress分析過程分為以下6個(gè)階段,每個(gè)階段都有獨(dú)立的輸出文件。 1.數(shù)據(jù)的輸入及轉(zhuǎn)化 2.樣品融合 3.選擇算法(可選擇外部GTF比對) 4.進(jìn)行比對 5.序列調(diào)取 6.閱讀計(jì)數(shù) 圖5 RNAexpress處理流程 iReckon:該軟件概率論算法合并了諸如新型可變剪切類型、內(nèi)含子保留、未剪切前體mRNA、多重映射reads等機(jī)制,能夠同時(shí)評估和發(fā)現(xiàn)可變剪切

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論