宏基因組測(cè)序中短序列的注釋_第1頁(yè)
宏基因組測(cè)序中短序列的注釋_第2頁(yè)
宏基因組測(cè)序中短序列的注釋_第3頁(yè)
宏基因組測(cè)序中短序列的注釋_第4頁(yè)
宏基因組測(cè)序中短序列的注釋_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、宏基因組中短底列的注釋是理解測(cè)序微生物群落潛在功能的重 要步驟之一。單純利用局部匹配的注釋容易混淆那些蛋白同源性且 局部序列非常相似的序列,進(jìn)而不能真實(shí)準(zhǔn)確反映復(fù)雜蛋白質(zhì)家族 中多變的結(jié)構(gòu)和功能域。今天我們介紹一種新方法MetaGeneHunt,該方法可以識(shí)別特定的 蛋白質(zhì)結(jié)構(gòu)域,并根據(jù)結(jié)構(gòu)域的長(zhǎng)度對(duì)hit-counts進(jìn)行標(biāo)準(zhǔn)化。 使用MetaGeneHunt對(duì)MG-RAST對(duì)公開獲取的宏基因組進(jìn)行分 析,包括哺孚物微生物群和Twin Gut腸道菌群研究,以評(píng)估短序列中含GH蛋白的頻率和位于GH區(qū)域的匹配頻率。在對(duì)糖苗水解酶(GHs)的研究,發(fā)現(xiàn)在所有樣本中4726,023條含 有GH區(qū)域蛋

2、白匹配的短讀序列中,有58.3%的廂列位于目標(biāo)區(qū)域 之外。接下來,在比較樣本之前,將匹配到目標(biāo)區(qū)域的hit-counts 標(biāo)準(zhǔn)化,以說明對(duì)應(yīng)的域長(zhǎng)度。腸道和盲腸中的菌群顯示出與不同 微生物組合相匹配的GH譜特征。相反,胃和結(jié)腸的菌群在結(jié)構(gòu)和功能上顯示出更多樣性和多變性。 在樣本中,盡管有波動(dòng),但碳水化合物處理的潛在功能變化與群落 組成的變化相關(guān)。這表示,在利用MG-RAST平臺(tái)處理宏基因組測(cè) 廂寤列時(shí),MetaGeneHunt是一種能快速準(zhǔn)確地識(shí)別短序列宏基因 組中離散蛋白結(jié)構(gòu)試的新方法。在過去的幾十年里,宏基因組DNA的高通量測(cè)序已經(jīng)產(chǎn)生了大量 的廂列,這些序列的特征為我們了解微生物群落的結(jié)

3、構(gòu)和功能提供了許多認(rèn)知。例如,截至2019年12月,MG-RAST托管了約40 萬(wàn)個(gè)可公開訪問的帶注釋的數(shù)據(jù)集。在數(shù)據(jù)處理過程中,不考慮目 標(biāo)區(qū)域(或蛋白質(zhì))的長(zhǎng)度會(huì)導(dǎo)致兩個(gè)主要的系統(tǒng)偏差。首先,目標(biāo)區(qū)城越長(zhǎng),他們的頻率就越容易被高估。其次,如果數(shù) 據(jù)處理涉及稀疏性r較短的、不太豐富的域,盡管重要,也可能被 丟棄。為了解決這些問題,研究人員設(shè)計(jì)了 MetaGeneHunt來精確 注釋從MG-RAST檢索到的短序列宏基因組中的蛋白質(zhì)結(jié)構(gòu)域。MetaGeneHunt將MG-RAST提供的短陰列局部比對(duì)與M5nr數(shù)據(jù) 庫(kù)中精確的基于PFam的蛋白質(zhì)結(jié)構(gòu)域識(shí)別相結(jié)合,以在公共可訪 問數(shù)據(jù)集中識(shí)別蛋白質(zhì)

4、結(jié)構(gòu)域。方法MetaGeneHunt 簡(jiǎn)要說明:MetaGeneHunt 的設(shè)計(jì)基于 MG-RAST 平臺(tái)注釋的數(shù)據(jù)集的。在使用GeneHunt創(chuàng)建的M5nr數(shù)據(jù)庫(kù)中, MetaGeneHunt使用了糖昔水解酶和輔助結(jié)構(gòu)域(如CBMs)的精確的 特定結(jié)構(gòu)懺注釋(PFam)作為參考注釋表(RAT)。首先,MetaGeneHunt使用MG-RAST應(yīng)用程序接口從MG-RAST (330和650文件)檢索M5n注釋的宏基因組。接下來,使 用來自RAT的注釋命中的MD5id ,在文件650中識(shí)別與潛在的 GHs匹配的序列。接下來,對(duì)于這些局部匹配”將精確對(duì)齊位置與RAT中特定于域的 注釋進(jìn)行比較。如果

5、查詢中的20AAs與特定的蛋白質(zhì)結(jié)構(gòu)域(考慮 到RAT中的HMMenvelope位置)對(duì)齊,則該結(jié)構(gòu)域注釋被轉(zhuǎn)移到查 詢中。相反,如果查詢的20AAS匹配在目標(biāo)區(qū)域之外(例如,在連接域、輔 助域、信號(hào)肽中),則該注釋被認(rèn)為是否定的。用戶可以隨意修改重 疊(overlapping )的閾值。接下來,從序列聚集文件(330文件) 中檢索每個(gè)識(shí)別出的命中的實(shí)際序列計(jì)數(shù)。最后,在后續(xù)的數(shù)據(jù)處理 和標(biāo)準(zhǔn)化過程中,根據(jù)Pfam數(shù)據(jù)庫(kù)中蛋白質(zhì)結(jié)構(gòu)域的大小,對(duì)每個(gè) 蛋白質(zhì)結(jié)構(gòu)域的命中計(jì)數(shù)進(jìn)行標(biāo)準(zhǔn)化。方法驗(yàn)證:文中使用的原始數(shù)據(jù)和預(yù)處理數(shù)據(jù)可在MG-RAST服務(wù)器上 公開訪問。在mgp20861項(xiàng)目中可獲得對(duì)應(yīng)

6、于555百萬(wàn)個(gè)100 bp序 列的小鼠微生物組數(shù)據(jù)。使用MG-RAST API檢索了哺孚物微生物 組數(shù)據(jù)(nigpll6 )和雙腸腸道菌群硏究(mgplO )其他數(shù)據(jù)集。哺乳 動(dòng)物微生物組研究糖苗水解酶(GHs )和相關(guān)酶的附加注釋表是從 Brian Muegge (直接對(duì)應(yīng))獲得的。使用MG-RAST API檢索了預(yù)處理 的數(shù)據(jù),包括從門到屬水平的讀物分類注釋。數(shù)據(jù)分析和統(tǒng)計(jì)使用R 統(tǒng)計(jì)語(yǔ)言。主要結(jié)果 糖莒水解酶的識(shí)別識(shí)別蛋白質(zhì)結(jié)構(gòu)域并考慮其長(zhǎng)度產(chǎn)生了一個(gè) 健壯的功能注釋系統(tǒng),對(duì)hit-count的標(biāo)準(zhǔn)化反應(yīng)了目標(biāo)區(qū)域的實(shí)際 分布。bGH 27L33 (Raw fl count)GH125C

7、oLmnZ-SarcCBM4/9 GH42 GH4 GH4C GH42Mgpe.CG心4Domain Length 1 r-jItII 11. OH M LF:L M2 F:L F M3M L m? F:C M5 M S M2 F:S M3M S M8 F:l M5ML M3 M I M2 F:l M5M I M6 M I M5 M C MS F:S M8 F:C M3 M C M6 M CG粼GH63GH42CCBM48 GH24 GH66 GH39Normalized Hit Count500010000aaSex Female MaleLocationCecum IntestineE C

8、olona).橫軸為目標(biāo)區(qū)域的原始hit-count,縱軸為標(biāo)準(zhǔn)化后的hit-count, 圖中的顏色階梯表示目標(biāo)區(qū)域的長(zhǎng)度。這種標(biāo)準(zhǔn)化主要影響長(zhǎng)度短的 域(例如,GH78、GH25)、小的亞域(例如,GH31N、GH36C)和目 標(biāo)區(qū)域的附屬域(例如,CMB5J2)Ob).小鼠胃腸道中目標(biāo)區(qū)域的標(biāo)準(zhǔn)化后的hit-count (僅顯示大于100 的hit-count的區(qū)域),可見,標(biāo)準(zhǔn)化后的hit-count與結(jié)構(gòu)域長(zhǎng)度無(wú) 關(guān)(附加文件中有對(duì)兩者做相關(guān)分析,結(jié)果分別為P.pearson=0.38 , P.spearman二0.33 )c).熱圖顯示了小鼠胃腸道中最受樣本來源影響的被稀疏標(biāo)準(zhǔn)化的

9、 GH區(qū)域的分布(two-way方差分析)??v軸的注釋列Mx:F/M:S/l/C/L 分別表示小鼠(樣本號(hào))雌性/雄性:胃/腸/盲腸/結(jié)腸 小鼠腸道菌群的結(jié)構(gòu),與盲腸中的微生物群落相比,結(jié)腸與腸道 中的微生物群落結(jié)構(gòu)更相似結(jié)腸和胃中的微生物群落有較高的相似 性。匚&5S2SSGonus (Phylum)50() AO&H0Q 匸b 7525s O_i S SAkkermansia (V) Alistipes (B) Bacillus (F) Bacteroides (B) Bifidjbaderium (A) Blautia (F) Bryantella (F) ButyrMbno (F) C

10、lostridium (F) Doroa (F) Eubacterium (F) HokJemama (F) Lactobacillus (F) Pa陽(yáng)bacteroides (B) Porphyromonas (B) Prevotella (B) Roseburia (F) Ruminococcus (F) Turidbacter (F).26PhyljnnBiftdobactenum (MDS2=0.23)Turidbacter (MDS2=0.35ActinobactoriaLactobacillus BacterodetesFlrrhculesHoldemaniaPrevoteilaS

11、tomachButyrivibrioAkkermansiaProteoOactoria VorruoomicrobaEubaaenumClostridiumRuminococcusBlautia Dorea RoseburKParabacteroidesPorphyromonascteroidsIntestneCecumfl Colon4342剛 MDS1 M3禍樓恥a).對(duì)受樣本來源影響較大的樣本根據(jù)屬水平進(jìn)行樣本聚類 (Bray-Curtis 距離指數(shù),complete linkage )。b).樣本間的微生物群落組成,只展示了相對(duì)豐度至少占群落中1 %的 屬水平物種(V:疣微菌門,B:擬

12、桿菌門,A:放線菌門,F(xiàn):厚壁菌門)。20o.NMDS分析(2D stress=0.020),展示了在樣本聚類中都存在的這 些菌屬,在b)中的主要類群用標(biāo)簽指示,不同門水平按顏色區(qū)分,點(diǎn) 的大小反映該屬在樣本中的最大頻率。微生物組中的結(jié)構(gòu)功能關(guān)系, 多樣性仍然與潛在功能高度相關(guān)。胃和盲腸的群落在結(jié)構(gòu)和功能上是 最多樣化的。其次,腸道中的群落組成和功能大多是保守的,而與保 守的微生物群落相關(guān)的大腸則顯示出可變功能潛力。(ee_E一 SSQs 一 Mo-Aem閹 Aqed)_susod leuoBunLL0.05-山口 口0.00-0 Stomach(九5= 0 82 PpyVO 01) Inte

13、stine (RPoafSor= 0.73. Pp0.001) Cecum (RPearscn= 0.89, P0.001) Colon (Rpag= 0.56. PPMrscn0.01)0.00.1 0.2Microbial Community Structure(Pairwise Bray-Curtis Dissimilarity)0.3AO對(duì)同一位置的樣本的微生物群落結(jié)構(gòu)和功能差異進(jìn)行成對(duì)比較 (Bray-Curtis ),線條為線性回歸的結(jié)果。在胃,腸,盲腸和結(jié)腸中, 屬水平群落結(jié)構(gòu)的變化與多糖解構(gòu)功能的相關(guān)性分析結(jié)果表示除大 腸外,其余的P.pearson的值都在0.001以下。胃和盲腸的群落在結(jié) 構(gòu)和功能上是最多樣化的,盡管多樣性仍然與功能潛力高度相關(guān)。其 次,腸道中的群落組成和功能大多是保守的,而與保守的微生物群落 相關(guān)的大腸則顯示出可變的功能潛力。MetaGeneHune提供了一種新的方法來識(shí)別短序列宏基因組中的 GHs及其相關(guān)結(jié)構(gòu)域。識(shí)別結(jié)構(gòu)域而不是蛋白質(zhì)是至關(guān)重要的,因 為GH結(jié)構(gòu)域與許多可變結(jié)構(gòu)域相關(guān)。這種新方法基于GeneHunt 注釋方法,并對(duì)其進(jìn)行補(bǔ)充,旨在分析MG-RAST中的短序列宏基因 組。因此,它不需要大型計(jì)算機(jī)基礎(chǔ)設(shè)施。通過這種新

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論