




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
基因組學(xué)研究與應(yīng)用的現(xiàn)狀與展望
基因組學(xué)是研究對象。在一般研究中,它研究了遺傳信息的分子組成、組織結(jié)構(gòu)、表達、遺傳因素和一般機制。在基因組研究中必須借助于計算科學(xué)來處理和充分利用大量的數(shù)據(jù),由此促成了基因組信息學(xué)?;蚪M信息學(xué)在基因組研究中有兩方面基本任務(wù):一是對基因組學(xué)研究各個環(huán)節(jié)如文庫構(gòu)建、物理圖譜的制備、遺傳圖譜制備等發(fā)展適用的軟件;二是對產(chǎn)生的海量數(shù)據(jù)的存儲、管理和檢索,并對這些數(shù)據(jù)進行歸納總結(jié),從數(shù)據(jù)中找出有價值的生物學(xué)知識。隨著可利用的基因組信息不斷增加,基因組信息學(xué)將發(fā)揮越來越大的作用。我們擬對目前基因組學(xué)研究中幾種常用工具軟件的原理和使用方法作一簡要介紹。1具有特定生物學(xué)功能的位點序列比對的理論基礎(chǔ)是進化學(xué)說。在進化上曾有共同祖先的序列,盡管它們各自在進化過程中發(fā)生替換、插入、缺失等事件,但和其特定生物學(xué)功能相聯(lián)系的位點應(yīng)具有某種程度的保守性,如酶的活性位點、形成二硫鍵的半胱氨酸等。序列比對就是將兩條或多條核酸或蛋白質(zhì)序列排列以獲得最大的相似性(核酸)或保守性(蛋白質(zhì)),以評價兩條序列的相似性或同源程度。1.1ch-資源分布的局部比對任何方法在進行比對時,都是將序列相似或不相似的信息轉(zhuǎn)化為數(shù)值后進行。通常將兩條序列分別作為打分矩陣的兩維,矩陣點是兩維上對應(yīng)兩個殘基的相似性分數(shù),分數(shù)越高則說明兩個殘基越相似。因此,序列比對問題變成在矩陣里尋找最佳比對路徑。最初的序列比對是以1970年Needleman和Wunsch提出動態(tài)規(guī)劃算法作為依據(jù)的,該算法是全序列比對算法,在比對中包含兩個被比較序列的所有元素。其缺點是一些局部序列相似性較高,而全序列相似性較小的序列,其同源性不易檢出,因前者常被后者的平均效應(yīng)所掩蓋。在具有模塊性質(zhì)的蛋白質(zhì)比對中,這種情況更為明顯。因此在Needleman-Wunsch算法基礎(chǔ)上改良產(chǎn)生了Smith-Waterman算法。它是一種局部比對的方法,用于尋找兩個被比較序列相似的片段,這樣對全局相似性較小的序列,可檢出局部性比對較好的片段。在進行序列兩兩比對時,有兩方面問題直接影響相似性分值:取代矩陣和空位罰分。在核酸研究中,情況比較簡單,只有4種堿基,但也存在轉(zhuǎn)換和顛換的區(qū)別,在取代矩陣中應(yīng)賦予它們不同的權(quán)重。在蛋白質(zhì)研究中,情況較為復(fù)雜。組成蛋白質(zhì)的20種氨基酸分為芳香族氨基酸、疏水性氨基酸、親水性氨基酸、酸性氨基酸、堿性和半胱氨酸等6類,類內(nèi)氨基酸替換比類間氨基酸替換對蛋白質(zhì)結(jié)構(gòu)和功能影響要小,如纈氨酸對異亮氨酸的取代與谷氨酸對異亮氨酸的取代對結(jié)構(gòu)和功能具有不同的影響效果。在蛋白質(zhì)研究中已發(fā)展出不同的取代矩陣來描述氨基酸殘基兩兩取代的分值,常用的取代矩陣有PAM和BLOSUM系列,它們來源于不同的構(gòu)建方法和不同的參數(shù)選擇,包括PAM250、BLOSUM62、BLOSUM90、BLOSUM30等。對于不同的對象可以采用不同的取代矩陣以獲得更多信息,例如對同源性較高的序列可以采用BLOSUM90矩陣,而對同源性較低的序列可采用BLOSUM30和PAM250矩陣。有時為取得兩個序列最大的相似性,會在序列中補加空位。空位罰分是為了補償插入和缺失對序列相似性的影響,由于沒有什么合適的理論模型能很好地描述空位問題,空位罰分缺乏理論依據(jù)而更多依據(jù)經(jīng)驗。一般的處理方法是用兩個罰分值,對插入的第一個空位罰分,如10~15;另一個對空位的延伸罰分,如1~2。對于具體的比對問題,采用不同的罰分方法會取得不同的效果。對于比對計算產(chǎn)生的分值,有統(tǒng)計學(xué)方法判斷兩個序列是否同源。主要的思想是把具有相同長度的隨機序列進行比對,把分值與最初的比對分值相比,看看比對結(jié)果是否具有顯著性。相關(guān)的參數(shù)E代表隨機比對分值不低于實際比對分值的概率。對于嚴格的比對,必須E值低于一定閾值才能說明比對的結(jié)果具有足夠的統(tǒng)計學(xué)顯著性,這樣就排除了由于偶然的因素產(chǎn)生高比對得分的可能。1.2運行基本程序BLAST(basiclocalalignmentsearchtool)是現(xiàn)在應(yīng)用最廣泛的序列相似性搜索工具。它采用啟發(fā)式算法對局部匹配來取代全局匹配,因此能檢測只有部分相似性的序列,并為比對結(jié)果提供統(tǒng)計學(xué)的評估。BLAST在檢索時,大致可分為以下幾步:(1)將長度為n的檢索序列按單位長度w分為n-w+1個不同的字段,將這些字段和數(shù)據(jù)庫的序列兩兩比對。各字段和比對上的序列有不同的分值,將所有分值高于T的那些比對選出,用于下一步流程;(2)將檢索字段和數(shù)據(jù)庫中所有含該字段的序列比對,找出含有檢索片段的大分子;(3)對每個片段而言,以比對上的那段序列為核心,向兩側(cè)進行無空位延伸。匹配加分,錯配罰分。當(dāng)延伸時分值降低了X時,停止延伸,并以最后的分值為該比對的分值。將所有分值超過某域值的比對作為最后的輸出結(jié)果。這種方法無法處理含有空位的比對,所以經(jīng)常出現(xiàn)檢索序列和比對上的序列會輸出多個不同的比對結(jié)果,如將這些比對結(jié)合在一起考慮,則兩條序列之間有顯著的同源性。為此,Altschul等對BLAST作了修改:只有兩個不相重疊的字段同時都比對上同一條序列,并且兩字段間距離小于設(shè)定值A(chǔ)時,才能激活程序使比對向兩側(cè)無空位延伸;如果最后的分值高于Sg時,一種改進的含Smith-Waterman算法的程序被激活,重新進行包含間隔處理的比對,所得的分值為最終分值。BLAST包含針對不同的查詢序列和要搜索的數(shù)據(jù)庫類型的5個程序。最常用的為BLASTN(核酸—核酸)和BLASTP(蛋白—蛋白)兩種程序。BLASTX也較為常用,它主要用于將一段DNA序列按6個不同的可讀框翻譯后,與蛋白質(zhì)數(shù)據(jù)庫比較。這種程序?qū)π滦蛄泻虴ST分析很有用。2系統(tǒng)拼接成完整的基因組序列利用鳥槍法進行測序,再將大量隨機測序得到的小片段用計算機拼接成完整的基因組序列是基因組研究中的重要工作。好的拼接程序,不僅要求組裝結(jié)果的錯誤盡可能少,而且能降低目前對計算硬件的過高要求。2.1重復(fù)序列干擾組裝方法已有許多計算機程序能自動對小片段序列進行組裝。目前大部分程序都遵守“overlap-layout-consensus”的思路,即首先在用于拼接組裝的片段中找出序列重疊;用重疊度最高的片段建立序列contigs,再將contigs定位定向,最后得到完整的一致序列。這種策略采取的計算方法類似于19世紀愛爾蘭數(shù)學(xué)家WilliamRowanHamilton提出的哈米爾頓的路徑問題,即給出一系列任意的城市,每次只經(jīng)過一個城市,而連接所有城市最短的路徑是哪一條。如果城市的數(shù)目較少,答案很容易得到,但隨著城市數(shù)目的增加,問題就越來越難以解決。若有30個城市,那么將會超過上億種可能的答案。目前計算機無法承受如此巨大的計算量。由于重復(fù)序列會干擾組裝,在目前的基因組拼接中,多采用啟發(fā)式算法來避免重復(fù)序列的干擾。最近,加州大學(xué)圣地亞哥分校的計算機教授PavelPevzner嘗試用一種新的方法對基因組片段序列組裝。他的算法是以18世紀的瑞士數(shù)學(xué)家LeonhardEuler命名的數(shù)學(xué)概念為基礎(chǔ)。簡單的說,這種技術(shù)就是將人類基因組分成更小的片段,同時利用了重復(fù)序列進行組裝,這樣,不僅巧妙地解決了重復(fù)序列干擾組裝的問題,而且將耗費計算資源的“哈密爾頓途徑”變成了“歐拉途徑”。“歐拉途徑”就是假定每個城市不限定只能訪問一次,想去多少次都可以,但是每一條路只能走一次,從這個網(wǎng)絡(luò)中找出最短的路程的問題。2.2具體軟件介紹2.2.1phrap的基本功能Phrap(PHRagmentassemblyprogram)是目前在小的基因組片段或重復(fù)序列含量較低的全基因組組裝中應(yīng)用非常廣泛的軟件。它常和另幾個軟件一起組成Phred-Phrap-Consed軟件包。Phred的基本功能是找到電泳道,識別泳道的空間并對信號進行技術(shù)處理;將測序儀上得到不同波長光的強度變化軌跡,轉(zhuǎn)化成對應(yīng)的的A,T,G,C4種堿基;并根據(jù)信號峰的間距、形狀及信噪比等因素,判斷堿基的可信度信息。Phred可處理不同類型的測序反應(yīng)。這些情況包括測序反應(yīng)可為引物標記或終止物標記;標記的熒光物可以是羅丹明、bigdye或其他熒光物質(zhì);測序設(shè)備可為ABI系列或MegaBace系列。Consed是推薦的和Phrap一起使用的序列編輯界面,它的發(fā)展和Phrap緊密聯(lián)系,充分利用了Phrap中產(chǎn)生的豐富的信息。通過Consed編輯,修改后的數(shù)據(jù)保存為phd類型文件。重新用Phrap拼接一次,修改后的結(jié)果則整合在新文件中。2.2.2重復(fù)序列組合另一種用于裝配全基因組的策略,即用全基因組的鳥槍法測序反應(yīng)來組裝復(fù)雜的真核生物基因組。這種策略核心要求是每個模板須進行雙向測序。TIGR用這種策略成功地組裝了第一個全基因組測序的果蠅的基因組。Celera同樣采用這種策略開發(fā)了用于人基因組組裝的軟件Celeraassembler。組裝策略主要包括5個步驟:Screener、Overlapper、Unitigger、Scaffolder和RepeatResolver。Screener標出序列中所有的重復(fù)單位小于6個堿基的簡單重復(fù)序列和所有已知的散布重復(fù)序列如SINE;LINE等。Overlapper這一步則將屏蔽重復(fù)序列的各反應(yīng)互相比對,找出那些末段匹配至少40bp,差異率小于6%的反應(yīng),組成各個不同的類,進行拼接。由于某些低復(fù)雜度區(qū)域(LCR)在Screener中未被標出,不同染色體位置的LCR因相似性高在這一步中可能被聚于一類,產(chǎn)生組裝錯誤。Unitigger則應(yīng)用統(tǒng)計學(xué)方法來選出那些組裝可信度高的contig,用于下一步框架圖的構(gòu)建。Scaffolder根據(jù)反應(yīng)對提供的連鎖信息將contig相互定位和定向。RepeatResolver則根據(jù)反應(yīng)對的信息將重復(fù)序列回填組裝的框架圖中。最后根據(jù)最大節(jié)約算法,結(jié)合堿基的質(zhì)量測度值得到的一致序列和Phrap由最高質(zhì)量的反應(yīng)決定一致序列不太一致。3是進化主要動力之一,分在真核生物中,重復(fù)序列是基因組結(jié)構(gòu)的重要組成部分,也是進化主要推動力之一。對基因組中重復(fù)序列檢測,不僅是基因組組裝的不可缺少的一步,也是認識基因組結(jié)構(gòu)與功能和進行基因預(yù)測的必不可少的前提。3.1重復(fù)序列的組成將基因組序列和該物種的重復(fù)序列數(shù)據(jù)庫比對是檢測重復(fù)序列的主要思路,但也存在基于數(shù)學(xué)原理檢測串聯(lián)重復(fù)序列的方案。對不同物種而言,重復(fù)序列的類型和序列都不一致。在人基因組中重復(fù)序列主要分為兩類:散布重復(fù)和串聯(lián)重復(fù),其中散布重復(fù)又可分為SINE、LINE、LTR返座子和DNA轉(zhuǎn)座子等4大類,它們和不同的進化時間相聯(lián)系。構(gòu)建每種重復(fù)序列的共有序列(consensussequence)時,將該類重復(fù)序列多序列比對,找出每個位置上出現(xiàn)頻率最多的堿基為共有序列(/RM/RepeatMasker.html)。Repbase為Juka等建立的重復(fù)序列數(shù)據(jù)庫,至目前人重復(fù)序列共有632種,為重復(fù)序列種類知道最多的物種??梢詫崟r下載最新的數(shù)據(jù)庫,并把它用于重復(fù)序列檢測。將得到的重復(fù)序列和基因組序列比對時,為盡可能的檢出基因組中的重復(fù)序列,必須能檢測相似性較低,允許大量插入和缺失的局部比對的程序,因此,選用靈敏度最高的Smith-Waterman算法來進行檢測。3.2重復(fù)序列的檢測目前能提供重復(fù)序列檢測的主要有Censor和RepeatMasker,其中RepeatMasker程序應(yīng)用最為廣泛。RepeatMasker通過選用不同物種的重復(fù)序列數(shù)據(jù)庫,識別不同物種的基因組序列中重復(fù)序列。RepeatMasker通過比對重復(fù)序列數(shù)據(jù)庫中數(shù)據(jù)與FASTA格式的序列,用crossmatch比對標出。由于重復(fù)序列和GC含量相關(guān),在輸入?yún)?shù)時,可指定特定的GC值,程序會選用相應(yīng)的取代矩陣,如果缺省該選項,程序自動選用43%。在運行程序時,還可設(shè)定分歧度,即將與一致序列比較小于該分歧度的重復(fù)序列找出。某些人類疾病就是由重復(fù)序列引起的,這些重復(fù)序列,一般都是現(xiàn)在仍有轉(zhuǎn)座能力的重復(fù)序列引起的,他們的突變率都為0或接近于0,我們可以在選項中設(shè)置突變率參數(shù),找出那些保守性較好的重復(fù)序列。在使用RepeatMasker時,我們可以自己選定數(shù)據(jù)庫,可以方便地對某些數(shù)據(jù)進行處理。由于Crossmatch采用了SW方法,耗費機時過多。因此,RepeatMasker也提供了其它比對程序Wu-BLAST,同時,通過改變SW方法的內(nèi)部參數(shù)設(shè)置,也能加快檢索速度(/RM/RepeatMasker.html)。4因勢而新,因教而學(xué)基因預(yù)測在基因組學(xué)研究中占有重要的地位?;蝾A(yù)測有多種不同的策略。現(xiàn)有的基因預(yù)測軟件多是利用基因本身的特征來進行新基因的識別,但將數(shù)據(jù)庫搜索比較整合入預(yù)測軟件成為一種趨勢。4.1敏感性、特異性和信號量敏感性和特異性是基因預(yù)測的兩個重要指標。敏感性表示程序預(yù)測的能力,而特異性表示預(yù)測結(jié)果的可信度。敏感性和特異性往往是一對矛盾,一般以敏感性和特異性的平均值作為評判程序優(yōu)劣的標準。在完全從新的基因預(yù)測中,主要依據(jù)兩方面信息:(1)搜索與編碼區(qū)有關(guān)的信號序列(信號搜索);(2)從統(tǒng)計學(xué)角度分析一段連續(xù)的DNA序列是否更像編碼序列(內(nèi)容識別)。4.1.1編碼區(qū)的使用頻率在原核生物中可以通過尋找較長的ORF來預(yù)測基因編碼區(qū)。在真核生物中,由于基因的編碼區(qū)被內(nèi)含子打斷,識別ORF的方法就不適用,但利用真核生物編碼區(qū)的一些特征序列可以找出基因組序列中的編碼區(qū)。因為同義密碼子的使用頻率在不同的物種中有自己的特征模式,有些高表達的基因,往往只選用同義密碼子中的一種,其他密碼子使用頻率很低;同時密碼子3個位置上不同堿基的使用頻率也有差別,這樣就使得編碼區(qū)的序列具有統(tǒng)計顯著性。利用這一特性對基因組序列進行統(tǒng)計學(xué)分析,可以發(fā)現(xiàn)編碼區(qū)的粗略位置。最初統(tǒng)計分析3個堿基的選用頻率在編碼區(qū)和隨機序列中的差異,但發(fā)現(xiàn)密碼子選用的頻率和鄰近的密碼子相關(guān)聯(lián)。在一特定的可讀框中,6核苷酸(雙密碼子)的選用頻率的統(tǒng)計差異被用來區(qū)別編碼和非編碼區(qū)域最為有效,因為不僅能測量密碼子的偏歧性,而且能衡量鄰近密碼子的關(guān)聯(lián)尺度。在目前的各種預(yù)測程序中這是一種被廣泛應(yīng)用的方法。4.1.2基因組織及測序在原核生物中,識別轉(zhuǎn)錄和翻譯的起始信號、核糖體結(jié)合位點、轉(zhuǎn)錄和翻譯的終止信號可以幫助確定編碼蛋白的序列。在真核生物中,情況遠為復(fù)雜,這不僅因為同一個信號在不同的基因中可能相差很大,而且信號和基因之間距離可能相距較遠??梢暂o助確定真核生物基因組的為翻譯起始位點;內(nèi)含子剪接位點;poly(A)位點;翻譯終止位點等。啟動子是基因表達所必需的重要信號序列,識別出啟動子對于基因辨識十分重要。CpG島和持家基因的5′端相聯(lián)系,預(yù)測出CpG島也可為識別新基因提供輔助信息。內(nèi)含子和外顯子剪接位點具有較明顯的序列特征,但是要注意可變剪接的問題。如果把剪接位點和兩側(cè)的編碼特性結(jié)合起來分析則有助于提供剪接位點的識別效果。對于真核生物,如果已知轉(zhuǎn)錄起始點,并且沒有內(nèi)含子打斷5′非翻譯區(qū)的話,“Kozak規(guī)則”可以在大多數(shù)情況下定位起始密碼子。polyA和翻譯終止信號不像起始信號那么重要,但也可以輔助劃分基因的范圍。目前用于基因預(yù)測的軟件很多,而且都是整合了多種算法復(fù)合分析軟件。許多基因預(yù)測的程序都已經(jīng)整合了同源比較算法,比如著名的GRAILⅡ程序。盡管每種預(yù)測方法都有假陽性,并會漏掉一些外顯子,可采用不同的預(yù)測方法對同一段基因組序列預(yù)測,其共同的外顯子是真實的外顯子的可能性加大。但基因預(yù)測對基因的UTR區(qū)預(yù)測能力仍較弱。4.2基于不同基因的模型預(yù)測Genscan是目前較為常用的基因預(yù)測軟件,可應(yīng)用于多種物種進行基因識別。Genscan只對編碼的基因進行預(yù)測,不考慮tRNA和rRNA的預(yù)測。Genscan可對兩條鏈進行基因預(yù)測,不僅可預(yù)測完整的基因,也可預(yù)測部分基因,但不能預(yù)測重疊的基因。Genscan用于基因預(yù)測的概率模型包含基因的基因組特征參數(shù),這些基因組特征參數(shù)與物種緊密相關(guān)。這些特征包括:典型基因密度,每個基因的平均外顯子數(shù),不同類型的外
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年白花菜項目可行性研究報告
- 木材改性機行業(yè)深度研究報告
- 湖北重點項目-鹽化工循環(huán)經(jīng)濟產(chǎn)業(yè)園項目可行性研究報告(撰寫大綱)
- 2025年創(chuàng)意產(chǎn)業(yè)園商鋪租賃合作協(xié)議
- 2025年增韌稀釋劑行業(yè)深度研究分析報告
- 2025年血液凈化信息系統(tǒng)項目建議書
- 中國腦膜炎疫苗行業(yè)市場深度分析及投資戰(zhàn)略規(guī)劃報告
- 2025年度出軌離婚協(xié)議書模板下載與定制服務(wù)合同
- 2025房地產(chǎn)經(jīng)紀業(yè)務(wù)信息共享協(xié)議
- 2025年度生態(tài)農(nóng)業(yè)項目承包經(jīng)營合同書
- 貸款的培訓(xùn)課件
- 《雷達干擾技術(shù)概述》課件
- 新概念英語青少版入門 A-Unit-1課件(共98張)
- 中國金融書法家協(xié)會入會申請表
- 廣西易多收生物科技有限公司河池化工廠綠色節(jié)能生產(chǎn)升級項目環(huán)境影響報告書
- 北京市海淀區(qū)九年級英語第二學(xué)期期末練習(xí)(初三中考二模)試卷講評-客觀題
- (完整版)園藝產(chǎn)品貯藏與加工
- 中國古典文獻-第七章-文獻目錄
- 學(xué)前教育大專畢業(yè)論文3000字
- 注塑領(lǐng)班簡歷樣板
- 骨骼肌-人體解剖學(xué)-運動系統(tǒng)
評論
0/150
提交評論