核酸蛋白序列比對(duì)分析_第1頁(yè)
核酸蛋白序列比對(duì)分析_第2頁(yè)
核酸蛋白序列比對(duì)分析_第3頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、核酸蛋白序列比對(duì)分析生物技術(shù)02級(jí)021402198曾彪摘要 生物信息學(xué)一一是一門新興的交叉學(xué)科,是采用計(jì)算機(jī)技術(shù)和信 息論方法研究蛋白質(zhì)及核酸序列等各種生物信息的采集、存儲(chǔ)、傳遞、檢索、 分析和解讀的科學(xué),是現(xiàn)代生命科學(xué)與計(jì)算機(jī)科學(xué)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)、物理學(xué)和 化學(xué)等學(xué)科相互滲透而形成的交叉學(xué)科。核酸與蛋白質(zhì)序列分析是生物信息學(xué) 的基本研究方法。核酸與蛋白質(zhì)序列分析是生物信息學(xué)的基本研究方法。關(guān)鍵詞核酸/蛋白質(zhì)序列分析生物信息數(shù)據(jù)與查詢序列比較DNA芯片質(zhì)譜隱馬爾可夫模型正文人類基因組計(jì)劃完成了人類基因組的測(cè)序與分析工作,也積累了大量的核酸和蛋白質(zhì)序列數(shù)據(jù),從而導(dǎo)致了分子數(shù)據(jù)庫(kù)的 建立。分子生物

2、學(xué)家在此基礎(chǔ)上依靠計(jì)算機(jī)進(jìn)行核酸和蛋口質(zhì)序列 分析。大量生物學(xué)實(shí)驗(yàn)的數(shù)據(jù)積累,形成了當(dāng)前數(shù)以百計(jì)的生物信息 數(shù)據(jù)庫(kù)。它們各自按一定的目標(biāo)收集和整理生物學(xué)實(shí)驗(yàn)數(shù)據(jù),并提 供相關(guān)的數(shù)據(jù)查詢、數(shù)據(jù)處理。這些生物信息數(shù)據(jù)庫(kù)可以分為一級(jí) 數(shù)據(jù)庫(kù)和二級(jí)數(shù)據(jù)庫(kù)。一級(jí)數(shù)據(jù)庫(kù)的數(shù)據(jù)都直接來(lái)源于實(shí)驗(yàn)獲得的 原始數(shù)據(jù),只經(jīng)過(guò)簡(jiǎn)單的歸類整理和注釋;二級(jí)數(shù)據(jù)庫(kù)是在一級(jí)數(shù) 據(jù)庫(kù)、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對(duì)特定目標(biāo)衍生而來(lái),是對(duì) 生物學(xué)知識(shí)和信息的進(jìn)一步整理。國(guó)際上著名的一級(jí)核酸數(shù)據(jù)庫(kù)有 Genbank數(shù)據(jù)庫(kù)、EMBL核酸庫(kù)和DDBJ庫(kù)等;蛋口質(zhì)序列數(shù)據(jù)庫(kù)有 SWISS-PROT. PIR等;蛋白質(zhì)結(jié)構(gòu)庫(kù)有PDB等。國(guó)

3、際上二級(jí)生物學(xué) 數(shù)據(jù)庫(kù)非常多,它們因針對(duì)不同的研究?jī)?nèi)容和需要而各具特色,如 人類基因組圖譜庫(kù)GDB、轉(zhuǎn)錄因子和結(jié)合位點(diǎn)庫(kù)TRANSFAC、蛋白質(zhì) 結(jié)構(gòu)家族分類庫(kù)SCOP等等。要在如此龐大的數(shù)據(jù)庫(kù)中找到所需要的目標(biāo)序列,必須建立數(shù) 據(jù)庫(kù)查詢系統(tǒng)。數(shù)據(jù)庫(kù)查詢(也稱為數(shù)據(jù)庫(kù)檢索)是指對(duì)序列、結(jié) 構(gòu)以及各種二次數(shù)據(jù)庫(kù)中的注釋信息進(jìn)行關(guān)鍵詞匹配查找。常用的 數(shù)據(jù)庫(kù)查詢系統(tǒng)有Entrez, SRS等。數(shù)據(jù)庫(kù)搜索是指通過(guò)特定的序 列相似性比對(duì)算法,找出核酸或蛋口質(zhì)序列數(shù)據(jù)庫(kù)中與檢測(cè)序列具 有一定程度相似性的序列。常用的數(shù)據(jù)庫(kù)搜索系統(tǒng)有BLAST FASTA 和 BLITZ o面對(duì)大批由測(cè)序儀產(chǎn)生的序列數(shù)據(jù),

4、通過(guò)序列分析,人們能 夠了解這些序列的生物學(xué)信息和意義。線性核酸序列的分析主要包 括同源比較,讀框分析,酶切位點(diǎn)查找,GC比例分析,序列翻譯, 引物設(shè)計(jì)等;蛋白質(zhì)序列分析包括同源比較,疏水性分析,序列模 體識(shí)別,結(jié)構(gòu)域識(shí)別,高級(jí)結(jié)構(gòu)預(yù)測(cè)等。核酸序列分析核酸序列的基本分析1. 測(cè)定分子質(zhì)量、堿基組成、堿基分布等基木數(shù)值;2. 序列變換:反向序列、互補(bǔ)序列、互補(bǔ)反向序列;3. 限制性酶切分析:限制酶的所有信息,包括甲基化酶、相應(yīng)的 微生物來(lái)源、識(shí)別序列位點(diǎn)、裂解位點(diǎn)、甲基化特異性、酶的商 業(yè)來(lái)源以及參考文獻(xiàn)。4. 克隆測(cè)序的分析:測(cè)序峰圖的查看、核酸序列中載體的識(shí)別和 去除、其他人工序列的分析和去

5、除核酸序列的電子延伸 GenBank的UniGene數(shù)據(jù)庫(kù)、意大利Tigem的 EST Machine EMBL 的 EST Cluster Project 等基因的電子表達(dá)譜分析-一將待分析序列與EST數(shù)據(jù)庫(kù)進(jìn)行序列對(duì) 庫(kù)的檢索,用與待分析核酸序列具有高同源性的EST序列所對(duì)應(yīng)的 組織來(lái)源進(jìn)行推斷,進(jìn)而得到該基因的組織表達(dá)譜。SAGE數(shù)據(jù)庫(kù)、 UniGene Tigem 等。核酸序列的電子基因定位分析-一染色體定位。-通過(guò)序列標(biāo)簽STS數(shù)據(jù)庫(kù)定位-利用UniGene/RH放射性朵交定位-直接利用基因組序列定位cDNA對(duì)應(yīng)的基因組序列分析EST和cDNA的基因組序列查詢了解該基因的基因組結(jié)構(gòu):

6、外顯子/內(nèi)含子結(jié)構(gòu)、轉(zhuǎn)錄調(diào)控區(qū)?;诤怂嵝蛄袑?duì)齊分析的功能預(yù)測(cè)-利用數(shù)據(jù)庫(kù)的核酸序列的同源性分析-兩條核酸序列之間的同源性分析-核酸序列之間的多重比對(duì)分析及進(jìn)化分析可讀框架分析1)cDNA序列的可讀框架分析2)基因組序列中的編碼區(qū)/內(nèi)含子結(jié)構(gòu)分析3)cDNA序列與基因組序列的對(duì)齊及顯示,Sim4程序。5)基因啟動(dòng)子及其他調(diào)控位點(diǎn)分析-一啟動(dòng)子、增強(qiáng)子、轉(zhuǎn)錄因子 結(jié)合位點(diǎn)、內(nèi)含子與外顯子。6)重復(fù)序列分析7)引物設(shè)計(jì)蛋白質(zhì)序列分析1蛋口質(zhì)序列檢索2.蛋口質(zhì)基本性質(zhì)分析1)氨基酸組分、分子質(zhì)量、等電點(diǎn)2)疏水性分析3)跨膜區(qū)分析4)前導(dǎo)肽和蛋白質(zhì)定位5)卷曲螺旋分析 蛋口質(zhì)功能預(yù)測(cè)6)基于序列同源

7、性分析的蛋白質(zhì)功能預(yù)測(cè)。Blast Blast2、FASTAo7)基于模體、結(jié)構(gòu)位點(diǎn)、結(jié)構(gòu)功能域的蛋白質(zhì)功能預(yù)測(cè)蛋口質(zhì)結(jié)構(gòu)預(yù)測(cè)8)蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)9)蛋口質(zhì)三級(jí)結(jié)構(gòu)預(yù)測(cè)一一與己知結(jié)構(gòu)的序列比較、同源模建、 threading算法和折濫識(shí)別DNA芯片技術(shù)與脫氧核糖核酸序列分析在分子生物學(xué)的許多研究領(lǐng)域,都需要對(duì)DNA分子進(jìn)行序列分析, 闡明DA分子的一級(jí)結(jié)構(gòu)是進(jìn)一步認(rèn)識(shí)其功能的基礎(chǔ)。因此,分析 測(cè)定DA序列的能力在很大程度上決定著人們獲取遺傳信息、認(rèn)識(shí) 生命奧秘的能力。人類基因組計(jì)劃的根本目標(biāo)是分析人類基因組 DNA的全部核苛酸順序,這項(xiàng)計(jì)劃的實(shí)施極大地促進(jìn)了 DNA序列分 析技術(shù)的發(fā)展,各種

8、新的高速測(cè)序技術(shù)不斷出現(xiàn)。在這些新的DNA 序列分析技術(shù)中,DNA芯片(DNA chip):技術(shù)以其新穎的構(gòu)思和誘 人的應(yīng)用前景而受到人們的廣泛關(guān)注,它綜合應(yīng)用了生物學(xué)、化學(xué) 以及工程技術(shù)科學(xué)等學(xué)科的眾多相關(guān)技術(shù),在微型芯片上合成了高 密度的寡核苗酸探針陣列,將探針陣列與待分析DNA序列同步雜 交,用高分辨率的檢測(cè)裝置進(jìn)行掃描檢測(cè),再結(jié)臺(tái)計(jì)算機(jī)系統(tǒng)分析 處理,可以快速獲取所需的遺傳信息這是一種全新的DNA序列分析 技術(shù),與傳統(tǒng)測(cè)序技術(shù)相比,它的突岀優(yōu)點(diǎn)是整個(gè)檢測(cè)過(guò)程快速高 效。由于探針陣列具有高度的序列多樣性,它可以同時(shí)對(duì)大量基因、 乃至整個(gè)基因組進(jìn)行掃描分析,從而能夠使人們從一個(gè)更高的層次

9、來(lái)全面研究基因的功能,分析不同基因之間的生物相關(guān)性這些是傳 統(tǒng)的序列分析技術(shù)所無(wú)法企及的。隨著這項(xiàng)技術(shù)的廣泛應(yīng)用,將會(huì) 給分子生物學(xué)的發(fā)展帶來(lái)深遠(yuǎn)的影響,特別是將在以研究基因定位 和基因功能為主的后基因組計(jì)劃中發(fā)揮越來(lái)越太的作用。DNA芯片是生物芯片的一種,也稱為微陣列(Microarray),是 指由大量探針按一定的順序排列在固相載體表而而形成的探針陣 列,目前DNA芯片主要包括eDNA芯片和寡核苛酸芯片。探針陣列 的合成目前主要有兩種方式:(1)離片合成法(Off-Chip Synthesis) ;(2)在片 / 原位 合成法(On Chip / in situSynthesis) o D

10、NA芯片是通過(guò)核酸雜交原理來(lái)進(jìn)行序列分析的,將 標(biāo)過(guò)的未知序列與芯片上的探針陣列進(jìn)行雜交,嚴(yán)格控制反應(yīng)條件, 如靶序列濃度、雜交溫度及緩沖溶液濃度等,那么與靶序列完全互 補(bǔ)的探針顯示比較強(qiáng)的雜交信號(hào),利用高分辨率的檢測(cè)裝置檢測(cè)出 完全互補(bǔ)的探針,經(jīng)過(guò)計(jì)算機(jī)系統(tǒng)分析處理,即可確定待測(cè)序列。DNA芯片可廣泛應(yīng)用于涉及DNA序列分析的眾多研究領(lǐng)域。目 前DNA芯片技術(shù)主要應(yīng)用于比較分析特定基因的遺傳多樣性,檢測(cè) 多態(tài)性位點(diǎn)用于基因定位,檢測(cè)突變位點(diǎn)診斷遺傳病,監(jiān)測(cè)基因的 表達(dá)水平,DNA測(cè)序以及進(jìn)行其它的序列比較等方面的研究。1檢 測(cè)多態(tài)性/突變位點(diǎn)利用DNA芯片技術(shù),可以同時(shí)檢測(cè)眾多基因乃 至整個(gè)

11、基因組的多態(tài)性/突變位點(diǎn)。在用寡核薪酸芯片掃描分析特 定基因時(shí),針對(duì)不同的檢測(cè)目的,可以設(shè)計(jì)臺(tái)成出不同形式的探針 陣列,將待分析序列與這四個(gè)探針同時(shí)雜交,嚴(yán)格控制雜交條件,那 么完全互補(bǔ)探針的雜交信號(hào)最強(qiáng),從而可以確定位點(diǎn);2 DNA測(cè)序 SBH(Sequencing by Hybridization)法是近年來(lái)提出的一種新的 DNA測(cè)序方法,它用一系列較短的己知序列的寡核苛酸探針,與較 長(zhǎng)的待分析序列朵交,尋找其互補(bǔ)序列,根據(jù)朵交結(jié)果分析待測(cè)DNA 序列。人類基因組計(jì)劃的實(shí)施,對(duì)現(xiàn)代分析科學(xué)提出了嚴(yán)峻挑戰(zhàn),同 時(shí)也給分析科學(xué)的發(fā)展帶來(lái)了巨大的機(jī)遇,促進(jìn)了分析科學(xué)與眾多 相關(guān)學(xué)科的滲透融合。D

12、NA芯片技術(shù)正是在此基礎(chǔ)上發(fā)展起來(lái)的一 種全新的DA序列分析技術(shù),這一技術(shù)己在分子生物學(xué)的許多研究 領(lǐng)域顯示了巨大的潛力和誘人的應(yīng)用前景。目前DNA芯片技術(shù)的研 究與應(yīng)用正處在一個(gè)迅猛發(fā)展、日趨完善階段,在不斷拓展其新的 應(yīng)用領(lǐng)域的同時(shí),還需要進(jìn)一步提高探針陣列的合成密度以及檢測(cè) 系統(tǒng)的分辨率與靈敏度,更重要的是要使這項(xiàng)技術(shù)逐步實(shí)現(xiàn)常規(guī)化 與自動(dòng)化。隨著這一技術(shù)的逐步完善與廣泛應(yīng)用,將會(huì)在二十一世 紀(jì)的分子生物學(xué)中發(fā)揮更大的作用。質(zhì)譜及隱馬爾可夫模型在肽和蛋白質(zhì)序列分析中的應(yīng)用了解肽和蛋口質(zhì)的序列對(duì)理解其功能具有重要意義,測(cè)定其序 列也是當(dāng)前生命科學(xué)研究中的重要內(nèi)容之一.質(zhì)譜作為高靈敏度的 測(cè)

13、定分子結(jié)構(gòu)的儀器,其高靈敏度、廣泛的適用性及快速性等特性 使它具有很大潛力發(fā)展成為輔助傳統(tǒng)測(cè)序方法的新方法,并得到了 廣泛的關(guān)注.肽和蛋白質(zhì)序列的質(zhì)譜測(cè)定方法質(zhì)譜用于肽和蛋口質(zhì) 的序列測(cè)定主要可以分為三種方法.一種方法叫蛋白圖譜(protein mapping),即用特異性的酶解或化學(xué)水解的方法將蛋白切成小的片 段,然后用質(zhì)譜檢測(cè)各產(chǎn)物肽分子量,將所得到的肽譜數(shù)據(jù)輸入數(shù) 據(jù)庫(kù),搜索與之相對(duì)應(yīng)的己知蛋白,從而獲取待測(cè)蛋白序列;第二 種方法是利用待測(cè)分子在電離及飛行過(guò)程中產(chǎn)生的亞穩(wěn)離子,通過(guò) 分析相鄰?fù)M類型峰的質(zhì)量差,識(shí)別相應(yīng)的氨基酸殘基其中亞 穩(wěn)離子碎裂包括“自身”碎裂及外界作用誘導(dǎo)碎裂;第三

14、種方法與 FAman法有相似之處,即用化學(xué)探針或酶解使蛋口或肽從N端或c 端逐一降解下氨基酸殘基,形成相互間差一個(gè)氨基酸殘基的系列肽, 名為梯狀測(cè)序(ladder sequencing),經(jīng)質(zhì)譜檢測(cè),由相鄰峰的質(zhì)量 差知道相應(yīng)氨基酸殘基.隱馬爾可夫模型(Hidden Markov model, HMM)用于蛋口質(zhì)研究 是生物信息學(xué)研究的新領(lǐng)域。目前,人們已經(jīng)得到大量的蛋白質(zhì)序 列和結(jié)構(gòu)數(shù)據(jù),傳統(tǒng)研究蛋白質(zhì)的方法己經(jīng)不再實(shí)用,生物學(xué)家己 經(jīng)轉(zhuǎn)向能夠處理大量數(shù)據(jù)的統(tǒng)計(jì)方法來(lái)進(jìn)行研究。隱馬爾可夫模型 可以通過(guò)訓(xùn)練,識(shí)別同一特征的蛋白質(zhì)序列。從SCOP數(shù)據(jù)庫(kù)中選擇 了一個(gè)蛋白質(zhì)族,由它得到了能夠代表該

15、族特征的隱馬爾可夫模型, 并用該模型對(duì)一些蛋口質(zhì)序列進(jìn)行分析。隱馬爾可夫模型(Hidden Markov model, HMM)用于蛋口質(zhì)研究是生物信息學(xué)研究的新領(lǐng)域, 它的基礎(chǔ)是計(jì)算機(jī)技術(shù)、統(tǒng)計(jì)學(xué)和分子生物學(xué)。HMM可被用于蛋白 質(zhì)同源性的研究。它由相互關(guān)聯(lián)的兩個(gè)隨機(jī)過(guò)程共同描述信號(hào)的統(tǒng) 計(jì)特性,其中一個(gè)是隱蔽的(不可觀測(cè)的)具有有限狀態(tài)的Markov 鏈,另一個(gè)是與Markov鏈的每一狀態(tài)相關(guān)聯(lián)的觀察結(jié)果的隨機(jī)過(guò)程。隱M吐kov鏈的特征要靠可觀測(cè)到的信號(hào) 揭示。編碼蛋口質(zhì)的原始DNA序列,在生物的進(jìn)化過(guò)程中,會(huì)受到 自然環(huán)境和各種因素的影響,使翻譯岀的蛋口質(zhì)序列經(jīng)歷突變,遺 失,或引入外源

16、序列等變化,最后按不同的進(jìn)化路徑分化,形成多 種功能相近的蛋白質(zhì)。因此,可以把這些蛋白質(zhì)看作由一個(gè)基木蛋 白質(zhì)序列經(jīng)過(guò)插入,刪除或替換了某些氨基酸殘基而形成的。這個(gè) 過(guò)程可以用HMM來(lái)表示。HMM可以用于己知一級(jí)結(jié)構(gòu)進(jìn)行蛋白質(zhì)的 分類,并且有較好的效果,是對(duì)其它預(yù)測(cè)和分類方法的補(bǔ)充。若結(jié) 合各種蛋口質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù),會(huì)產(chǎn)生更準(zhǔn)確的預(yù)測(cè)結(jié)果。但它也存在 一些缺陷,使得它用于結(jié)構(gòu)分析方而有一定的不足。結(jié)束語(yǔ)核酸/蛋白質(zhì)序列分析只是計(jì)算機(jī)在生物工程方而的應(yīng)用, 隨著社會(huì)科技的發(fā)展,計(jì)算機(jī)與人們的日常生活和工作聯(lián)系越來(lái)越 密切,只有善于利用計(jì)算機(jī)的人,才能走在時(shí)代的前方。參考文獻(xiàn)1. 基于PC / Linux的核酸序列分析系統(tǒng)的構(gòu)建及其應(yīng)用張成崗1歐陽(yáng)曙光2生物化學(xué)與生物物理進(jìn)展-2001年2期2. 基于WWW與UNIX的核酸序列分析實(shí)用軟件的開發(fā)黃弋1顧健人2遺傳學(xué)報(bào)-2001年3期3. Clustal W蛋口質(zhì)與核酸序列分析軟件 郭崇志孫曼霽 生物 技術(shù)通訊-2000年2期4. 液相色譜與串聯(lián)質(zhì)譜偶聯(lián)在蛋白質(zhì)序列分析中

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論