生物信息學(xué)復(fù)習(xí)題及答案

上傳人：燈*** IP屬地：河北上傳時(shí)間：2024-03-11 格式：PDF 頁(yè)數(shù)：10 大?。?.46MB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩5頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

生物信息學(xué)復(fù)習(xí)題

一、名詞解釋

生物信息學(xué),二級(jí)數(shù)據(jù)庫(kù)，F(xiàn)ASTA序列格式，genbank序列格式,Entrez,BLAST,

查詢序列（query）,打分矩陣（SCoringmatrix）,空位（gap）,空位罰分，E

值，低復(fù)雜度區(qū)域，點(diǎn)矩陣（dotmatrix）,多序列比對(duì)，分子鐘，系統(tǒng)發(fā)育

（phylogeny）,進(jìn)化樹(shù)的二歧分叉結(jié)構(gòu)，直系同源，旁系同源，外類(lèi)群，有根樹(shù)，

除權(quán)配對(duì)算法（UPGMA）,鄰接法構(gòu)樹(shù)，最大簡(jiǎn)約法構(gòu)樹(shù)，最大似然法構(gòu)樹(shù)，一致

樹(shù)（COnSenSUStree）,bootstrap,開(kāi)放閱讀框（ORF）,密碼子偏性（CodOnbias）,

基因預(yù)測(cè)的從頭分析法，結(jié)構(gòu)域（domain）,超家族，模體（motif）,序列表譜

（profile）,PAM矩陣,BLOSUM,PSI-BLAST,RefSeq,PDB數(shù)據(jù)庫(kù),GenPept,

折疊子，TrEMBL,MMDB,SCOP,PROSITE,GeneOntologyConsortium,表譜

（profile）0

二、問(wèn)答題

1）生物信息學(xué)與計(jì)算生物學(xué)有什么區(qū)別與聯(lián)系？

2）試述生物信息學(xué)研究的基本方法。

3）試述生物學(xué)與生物信息學(xué)的相互關(guān)系。

4）美國(guó)國(guó)家生物技術(shù)信息中心（NCBI）的主要工作是什么？請(qǐng)列舉3個(gè)以上NCBl

維護(hù)的數(shù)據(jù)庫(kù)。

5）序列的相似性與同源性有什么區(qū)別與聯(lián)系？

6）BLAST套件的blastn、blastp>blastx、tblastn和tblaStX子工具的用途

什么？

7）簡(jiǎn)述BLAST搜索的算法。

8）什么是物種的標(biāo)記序列？

9）什么是多序列比對(duì)過(guò)程的三個(gè)步驟？

10）簡(jiǎn)述構(gòu)建進(jìn)化樹(shù)的步驟。

11）簡(jiǎn)述除權(quán)配對(duì)法（UPGMA）的算法思想。

12）簡(jiǎn)述鄰接法（NJ）的算法思想。

13）簡(jiǎn)述最大簡(jiǎn)約法（MP）的算法思想。

14）簡(jiǎn)述最大似然法（ML）的算法思想。

15）UPGMA構(gòu)樹(shù)法不精確的原因是什么？

16）在MEGA2軟件中，提供了多種堿基替換距離模型，試列舉其中2種，解釋其

含義。

17）試述DNA序列分析的流程及代表性分析工具。

18）如何用BLAST發(fā)現(xiàn)新基因？

19）試述SCOP蛋白質(zhì)分類(lèi)方案。

20）試述SWlSS-PROT中的數(shù)據(jù)來(lái)源。

21）TrEMBL哪兩個(gè)部分？

22）試述PSl-BLAST搜索的5個(gè)步驟。

三、操作與計(jì)算題

1）如何獲取訪問(wèn)號(hào)為U49845的genbank文件？解釋如下genbank文件

的LOeUS行提供的信息：

LOCUSSCU498455028bpDNAlinearPLN

2I-JUN-1999

2）利用EntreZ檢索系統(tǒng)，對(duì)核酸數(shù)據(jù)搜索，輸入如下信息，將獲得什

么結(jié)果：

AFl14696：AFl14714[ΛCCN]o

3）相比使用BLAST套件搜索數(shù)據(jù)庫(kù)，BLAST2工具在結(jié)果呈現(xiàn)上有什么

優(yōu)點(diǎn)？

4）MEGA2如何將其它多序列比對(duì)格式文件轉(zhuǎn)化為MEGE格式的多序列比

對(duì)文件？

5）什么簡(jiǎn)約信息位點(diǎn)Pi?

6）以下軟件的主要用途是什么？

RepeatMasker,CpGPlot,SpliceView,Genscan,ORFfinder,

neuralnetworkpromoterprediction.

7）為下面的序列比對(duì)確定比對(duì)得分：匹配得分=+1,失配得分=0,空

位得分=-Io

TGTACGGCTATA

TC--CGCCT-TA

8）用UPGMA重建系統(tǒng)發(fā)生樹(shù)，距離矩陣如下:

物種_A_____________B_____________C_____________D___________

B9~

C8-U-

D]2—15—

E15―18―13―5一

9）畫(huà)出4個(gè)物種的3棵不同的無(wú)根樹(shù).這4個(gè)物種在某位置上的核甘酸

分別是T,T,C和C,為每個(gè)內(nèi)部節(jié)點(diǎn)推斷的祖先序列標(biāo)出最可能的候

選核昔酸，3棵可能的無(wú)根樹(shù)中有幾棵是一樣簡(jiǎn)約的（因?yàn)樗麄冇凶?/p>

小替換數(shù)）？有幾棵樹(shù)的替換樹(shù)是2?有大于2個(gè)替換的樹(shù)嗎？

10）如何將所研究的蛋白質(zhì)與其他相關(guān)蛋白質(zhì)做結(jié)構(gòu)比對(duì)。

答案部分

一、名詞解釋?zhuān)?/p>

物蔣息學(xué)：研究大量生物數(shù)據(jù)復(fù)雜關(guān)系的學(xué)科，其特征是多學(xué)科交叉，以互聯(lián)

網(wǎng)為媒介，數(shù)據(jù)庫(kù)為載體。利用數(shù)學(xué)知識(shí)建立各種數(shù)學(xué)模型；利用計(jì)算機(jī)為工具

對(duì)實(shí)驗(yàn)所得大量生物學(xué)數(shù)據(jù)進(jìn)行儲(chǔ)存、檢索、處理及分析，并以生物學(xué)知識(shí)對(duì)結(jié)

果進(jìn)行解釋。

二級(jí)數(shù)據(jù)庫(kù)：在一級(jí)數(shù)據(jù)庫(kù)、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對(duì)特定目標(biāo)衍生而

來(lái)，是對(duì)生物學(xué)知識(shí)和信息的進(jìn)一步的整理。Pll,第2段。

FASTA序列格式：是將DNA或者蛋白質(zhì)序列表示為一個(gè)帶有一些標(biāo)記的核甘酸或

者氨基酸字符串，大于號(hào)（〉）表示一個(gè)新文件的開(kāi)始，其他無(wú)特殊要求。

genbank序列格式：是GenBank數(shù)據(jù)庫(kù)的基本信息單位，是最為廣泛的生物信息

學(xué)序列格式之一。該文件格式按域劃分為4個(gè)部分：第一部分包含整個(gè)記錄的信

息（描述符）；第二部分包含注釋?zhuān)坏谌糠质且膮^(qū)，提供了這個(gè)記錄的科學(xué)

依據(jù)；第四部分是核昔酸序列本身，以“〃”結(jié)尾。P13,第2段。

EntreZ檢索系統(tǒng)：是NCBl開(kāi)發(fā)的核心檢索系統(tǒng)，集成了NCBI的各種數(shù)據(jù)庫(kù)，

具有鏈接的數(shù)據(jù)庫(kù)多，使用方便，能夠進(jìn)行交叉索引等特點(diǎn)。P83-85。

BLAST：基本局部比對(duì)搜索工具，用于相似性搜索的工具，對(duì)需要進(jìn)行檢索的序

列與數(shù)據(jù)庫(kù)中的每個(gè)序列做相似性比較。P94

查詢序列（querysequence）：也稱被檢索序列，用來(lái)在數(shù)據(jù)庫(kù)中檢索并進(jìn)行相

似性比較的序列。P98,第1段。

打分矩陣（scoringmatrix）：在相似性檢索中對(duì)序列兩兩比對(duì)的質(zhì)量評(píng)估方法。

包括基于理論（如考慮核酸和氨基酸之間的類(lèi)似性）和實(shí)際進(jìn)化距離（如PAM）

兩類(lèi)方法。P29,第2段。

空位（gap）：在序列比對(duì)時(shí)，由于序列長(zhǎng)度不同，需要插入一個(gè)或幾個(gè)位點(diǎn)以

取得最佳比對(duì)結(jié)果，這樣在其中一序列上產(chǎn)生中斷現(xiàn)象，這些中斷的位點(diǎn)稱為空

位。P29,第2段。

空位罰分：空位罰分是為了補(bǔ)償插入和缺失對(duì)序列相似性的影響，序列中的空位

的引入不代表真正的進(jìn)化事件，所以要對(duì)其進(jìn)行罰分，空位罰分的多少直接影響

對(duì)比的結(jié)果。P37,倒數(shù)第2段。

E值：衡量序列之間相似性是否顯著的期望值。E值大小說(shuō)明了可以找到與查詢

序列（query）相匹配的隨機(jī)或無(wú)關(guān)序列的概率，E值越接近零，越不可能找到

其他匹配序列，E值越小意味著序列的相似性偶然發(fā)生的機(jī)會(huì)越小，也即相似性

越能反映真實(shí)的生物學(xué)意義。P95

低復(fù)雜度區(qū)域:BLAST搜索的過(guò)濾選項(xiàng)。指序列中包含的重復(fù)度高的區(qū)域，如PoIy

（A）OPlOO,第一段。

點(diǎn)矩陣（dotmatrix）：構(gòu)建一個(gè)二維矩陣，其X軸是一條序列，Y軸是另一個(gè)

序列，然后在2個(gè)序列相同堿基的對(duì)應(yīng)位置（x,y）加點(diǎn)，如果兩條序列完全相

同則會(huì)形成一條主對(duì)角線，如果兩條序列相似則會(huì)出現(xiàn)一條或者幾條直線；如果

完全沒(méi)有相似性則不能連成直線。P39-41o

多序列比對(duì)：通過(guò)序列的相似性檢索得到許多相似性序列，將這些序列做一個(gè)總

體的比對(duì)，以觀察它們?cè)诮Y(jié)構(gòu)上的異同，來(lái)回答大量的生物學(xué)問(wèn)題。P48,需要

概括。

分子鐘：認(rèn)為分子進(jìn)化速率是恒定的或者幾乎恒定的假說(shuō)，從而可以通過(guò)分子進(jìn)

化推斷出物種起源的時(shí)間。P112-113

系統(tǒng)發(fā)育分析：通過(guò)一組相關(guān)的基因或者蛋白質(zhì)的多序列比對(duì)或其他性狀，可以

研究推斷不同物種或基因之間的進(jìn)化關(guān)系。P112,第一段。

進(jìn)化樹(shù)的二歧分叉結(jié)構(gòu)：指在進(jìn)化樹(shù)上任何一個(gè)分支節(jié)點(diǎn)，一個(gè)父分支都只能被

分成兩個(gè)子分支。P113,最后一段。

系統(tǒng)發(fā)育圖：P114

直系同源：指由于物種形成事件來(lái)自一個(gè)共同祖先的不同物種中的同源序列，具

有相似或不同的功能。P28,P146

旁系（并系）同源：指同一個(gè)物種中具有共同祖先，通過(guò)基因重復(fù)產(chǎn)生的一組基

因，這些基因在功能上的可能發(fā)生了改變。P28,P147

外類(lèi)群：是進(jìn)化樹(shù)中處于一組被分析物種之外的，具有相近親緣關(guān)系的物種°P120

有根樹(shù)：能夠確定所有分析物種的共同祖先的進(jìn)化樹(shù)。PH3

除權(quán)配對(duì)算法（UPGMA）：最初，每個(gè)序列歸為一類(lèi)，然后找到距離最近的兩類(lèi)

將其歸為一類(lèi)，定義為一個(gè)節(jié)點(diǎn)，重復(fù)這個(gè)過(guò)程，直到所有的聚類(lèi)被加入，最終

產(chǎn)生樹(shù)根。P119

鄰接法（neighbor-joiningmethod）：是一種不僅僅計(jì)算兩兩比對(duì)距離，還對(duì)

整個(gè)樹(shù)的長(zhǎng)度進(jìn)行最小化，從而對(duì)樹(shù)的拓?fù)浣Y(jié)構(gòu)進(jìn)行限制，能夠克服UPGMA算法

要求進(jìn)化速率保持恒定的缺陷。P118o

最大簡(jiǎn)約法（MP）：在一系列能夠解釋序列差異的的進(jìn)化樹(shù)中找到具有最少核酸

或氨基酸替換的進(jìn)化樹(shù)。P120

最大似然法(ML)：它對(duì)每個(gè)可能的進(jìn)化位點(diǎn)分配一個(gè)概率，然后綜合所有位點(diǎn)，

找到概率最大的進(jìn)化樹(shù)。最大似然法允許采用不同的進(jìn)化模型對(duì)變異進(jìn)行分析評(píng)

估，并在此基礎(chǔ)上構(gòu)建系統(tǒng)發(fā)育樹(shù)。P122

一致樹(shù)(consensustree)：在同一算法中產(chǎn)生多個(gè)最優(yōu)樹(shù)，合并這些最優(yōu)樹(shù)得

到的樹(shù)即一致樹(shù)。P121

自舉法檢驗(yàn)(Bootstrap)：放回式抽樣統(tǒng)計(jì)法。通過(guò)對(duì)數(shù)據(jù)集多次重復(fù)取樣，

構(gòu)建多個(gè)進(jìn)化樹(shù)，用來(lái)檢查給定樹(shù)的分枝可信度。P122

開(kāi)放閱讀框(ORF)：開(kāi)放閱讀框是基因序列的一部分，包含一段可以編碼蛋白

的堿基序列。P131

密碼子偏好性(CodonbiaS)：氨基酸的同義密碼子的使用頻率與相應(yīng)的同功

tRNA的水平相一致，大多數(shù)高效表達(dá)的基因僅使用那些含量高的同功tRNA所對(duì)

應(yīng)的密碼子，這種效應(yīng)稱為密碼子偏好性。P133

基因預(yù)測(cè)的從頭分析：依據(jù)綜合利用基因的特征，如剪接位點(diǎn)，內(nèi)含子與外顯子

邊界，調(diào)控區(qū)，預(yù)測(cè)基因組序列中包含的基因。P134-145

簡(jiǎn)約信息位點(diǎn)：指基于DNA或蛋白質(zhì)序列，利用最大簡(jiǎn)約法構(gòu)建系統(tǒng)發(fā)育樹(shù)

時(shí)，如果每個(gè)位點(diǎn)的狀態(tài)至少存在兩種，每種狀態(tài)至少出現(xiàn)兩次的位點(diǎn)。

其它位點(diǎn)為都是非簡(jiǎn)約性信息位點(diǎn)。P121,第2行

結(jié)構(gòu)域(domain)：保守的結(jié)構(gòu)單元，包含獨(dú)特的二級(jí)結(jié)構(gòu)組合和疏水內(nèi)核，

可能單獨(dú)存在，也可能與其他結(jié)構(gòu)域組合。相同功能的同源結(jié)構(gòu)域具有序

列的相似性。P158

模體(motif)：短的保守的多肽段，含有相同模體的蛋白質(zhì)不一定是同源的，

一般10-20個(gè)殘基。P161,最后一行

PAM矩陣：PAM指可接受突變百分率。一個(gè)氨基酸在進(jìn)化中變成另一種氨基

酸的可能性，通過(guò)這種可能性可以鑒定蛋白質(zhì)之間的相似性，并產(chǎn)生蛋白

質(zhì)之間的比對(duì)。一個(gè)PAM單位是蛋白質(zhì)序列平均發(fā)生1%的替代量需要的進(jìn)

化時(shí)間。P30-31

BLOSUM矩陣：模塊替代矩陣。矩陣中的每個(gè)位點(diǎn)的分值來(lái)自蛋白比對(duì)的局部塊

中的替代頻率的觀察。每個(gè)矩陣適合特定的進(jìn)化距離。例如，在BLOSUM62矩陣

中，比對(duì)的分值來(lái)自不超過(guò)62%一致率的一組序列。P34

折疊子(Fold)：在兩個(gè)或更多的蛋白質(zhì)中具有相似二級(jí)結(jié)構(gòu)的大區(qū)域，這些大

區(qū)域具有特定的空間取向。P162

TrEMBL:是與SWlSS-PROT相關(guān)的一個(gè)數(shù)據(jù)庫(kù)。包含從EMBL核酸數(shù)據(jù)庫(kù)中根據(jù)編

碼序列(CDS)翻譯而得到的蛋白質(zhì)序列，并且這些序列尚未集成到swiss-PROT

數(shù)據(jù)庫(kù)中。P21

PDB(ProteinDataBank)：PDB中收錄了大量通過(guò)實(shí)驗(yàn)(X射線晶體衍射，核磁

共振NMR)測(cè)定的生物大分子的三維結(jié)構(gòu)，記錄有原子坐標(biāo)、配基的化學(xué)結(jié)構(gòu)和

晶體結(jié)構(gòu)的描述等。PDB數(shù)據(jù)庫(kù)的訪問(wèn)號(hào)由一個(gè)數(shù)字和三個(gè)字母組成(如，4HHB),

同時(shí)支持關(guān)鍵詞搜索，還可以FASTA程序進(jìn)行搜索。P22

MMDB(MolecularModelingDatabase)：是(NCBI)所開(kāi)發(fā)的生物信息數(shù)據(jù)庫(kù)集

成系統(tǒng)EntreZ的一個(gè)部分，數(shù)據(jù)庫(kù)的內(nèi)容包括來(lái)自于實(shí)驗(yàn)的生物大分子結(jié)構(gòu)數(shù)

據(jù)。與PDB相比，對(duì)于數(shù)據(jù)庫(kù)中的每一個(gè)生物大分子結(jié)構(gòu)，MMDB具有許多附加

的信息，如分子的生物學(xué)功能、產(chǎn)生功能的機(jī)制、分子的進(jìn)化歷史等，還提供

生物大分子三維結(jié)構(gòu)模型顯示、結(jié)構(gòu)分析和結(jié)構(gòu)比較工具。？

SCoP數(shù)據(jù)庫(kù)：提供關(guān)于已知結(jié)構(gòu)的蛋白質(zhì)之間結(jié)構(gòu)和進(jìn)化關(guān)系的詳細(xì)描述，包

括蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)PDB中的所有條目。SeOP數(shù)據(jù)庫(kù)除了提供蛋白質(zhì)結(jié)構(gòu)和進(jìn)

化關(guān)系信息外，對(duì)于每一個(gè)蛋白質(zhì)還包括下述信息：到PDB的連接，序列，參考

文獻(xiàn)，結(jié)構(gòu)的圖像等?？梢园唇Y(jié)構(gòu)和進(jìn)化關(guān)系對(duì)蛋白質(zhì)分類(lèi)，分類(lèi)結(jié)果是一個(gè)具

有層次結(jié)構(gòu)的樹(shù)，其主要的層次依次是類(lèi)（ClaSs）、折疊子（fold）、超家族（SUPer

family）,家族（family）,單個(gè)PDB蛋白結(jié)構(gòu)記錄。P23

PR0SITE：是蛋白質(zhì)家族和結(jié)構(gòu)域數(shù)據(jù)庫(kù)，包含具有生物學(xué)意義的位點(diǎn)、模式、

可幫助識(shí)別蛋白質(zhì)家族的統(tǒng)計(jì)特征。PR0SITE中涉及的序列模式包括酶的催化

位點(diǎn)、配體結(jié)合位點(diǎn)、與金屬離子結(jié)合的殘基、二硫鍵的半胱氨酸、與小分子或

其它蛋白質(zhì)結(jié)合的區(qū)域等；PROSrrE還包括根據(jù)多序列比對(duì)而構(gòu)建的序列統(tǒng)計(jì)特

征，能更敏感地發(fā)現(xiàn)一個(gè)序列是否具有相應(yīng)的特征。P22

RefSeq:給出了對(duì)應(yīng)于基因和蛋白質(zhì)的索引號(hào)碼，對(duì)應(yīng)于最穩(wěn)定、最被人承認(rèn)的

Genbank序列。?

PSI-BLAST:位點(diǎn)特異性迭代比對(duì)。是一種專(zhuān)門(mén)化的的比對(duì)，通過(guò)調(diào)節(jié)序列打分

矩陣（scoringmatrix）探測(cè)遠(yuǎn)緣相關(guān)的蛋白。P97

GeneOntology協(xié)會(huì)：編輯一組動(dòng)態(tài)的、可控的基因產(chǎn)物不同方面性質(zhì)的字匯的

協(xié)會(huì)。從3個(gè)方面描述基因產(chǎn)物的性質(zhì)，即，分子功能，生物過(guò)程，細(xì)胞區(qū)室。

表譜（PSSM）：指一張基于多序列比對(duì)的打分表，表示一個(gè)蛋白質(zhì)家族，可以用

來(lái)搜索序列數(shù)據(jù)庫(kù)。P97

比較基因組學(xué)：P148

二、問(wèn)答題

1.緒論

1）生物信息學(xué)的發(fā)展經(jīng)歷了那幾個(gè)階段

2）生物信息學(xué)步入后基因組時(shí)代后，其發(fā)展方向有哪幾個(gè)方面。

1）請(qǐng)列舉3個(gè)以上EntreZ系統(tǒng)可以檢索的數(shù)據(jù)庫(kù)。

答：P83

2）序列的相似性與同源性有什么區(qū)別與聯(lián)系？

答：相似性是指序列之間相關(guān)的一種量度，兩序列的的相似性可以基于序列的一

致性的百分比；而同源性是指序列所代表的物種具有共同的祖先，強(qiáng)調(diào)進(jìn)化上的

親緣關(guān)系。P147

3）BLAST套件的blastn、blastp,blastx、tblastn和tblaStX子工具的用途

什么？

答：blastn是將給定的核酸序列與核酸數(shù)據(jù)庫(kù)中的序列進(jìn)行比較；BlaStP是使

用蛋白質(zhì)序列與蛋白質(zhì)數(shù)據(jù)庫(kù)中的序列進(jìn)行比較，可以尋找較遠(yuǎn)的關(guān)系；Blastx

將給定的核酸序列按照六種閱讀框架將其翻譯成蛋白質(zhì)與蛋白質(zhì)數(shù)據(jù)庫(kù)中的序

列進(jìn)行比對(duì)，對(duì)分析新序列和EST很有用；TbIaStn將給定的氨基酸序列與核酸

數(shù)據(jù)庫(kù)中的序列（雙鏈）按不同的閱讀框進(jìn)行比對(duì)，對(duì)于尋找數(shù)據(jù)庫(kù)中序列沒(méi)有

標(biāo)注的新編碼區(qū)很有用；TbIaStX只在特殊情況下使用，它將DNA被檢索的序列

和核酸序列數(shù)據(jù)庫(kù)中的序列按不同的閱讀框全部翻譯成蛋白質(zhì)序列，然后進(jìn)行蛋

白質(zhì)序列比對(duì)。P97

4）簡(jiǎn)述BLAST搜索的算法思想。

答：BLAST是一種局部最優(yōu)比對(duì)搜索算法，將所查詢的序列打斷成許多小序列片

段，然后小序列逐步與數(shù)據(jù)庫(kù)中的序列進(jìn)行比對(duì)，這些小片段被叫做字''word”；

當(dāng)一定長(zhǎng)度的的字（W）與檢索序列的比對(duì)達(dá)到一個(gè)指定的最低分（T）后，初始

比對(duì)就結(jié)束了；一個(gè)序列的匹配度由各部分匹配分?jǐn)?shù)的總和決定，獲得高分的序

列叫做高分匹配片段（HSP）,程序?qū)⒆詈玫腍SP雙向擴(kuò)展進(jìn)行比對(duì)，直到序列結(jié)

束或者不再具有生物學(xué)顯著性，最后所得到的序列是那些在整體上具有最高分

的序列，即，最高分匹配片段（MSP）,這樣，BLAST既保持了整體的運(yùn)算速度，

也維持了比對(duì)的精度。P95

5）什么是物種的標(biāo)記序列？

答：指物種特有的一段核昔酸序列?？梢酝ㄟ^(guò)相似性查詢，得到某一序列在數(shù)據(jù)

庫(kù)中的某一物種中反復(fù)出現(xiàn)，且在其他物種中沒(méi)有的明顯相似的序列。

6）什么是多序列全局比對(duì)的累進(jìn)算法？

答：第一，所有的序列之間逐一比對(duì)（雙重比對(duì)）；第二，生成一個(gè)系統(tǒng)樹(shù)圖，

將序列按相似性大致分組；第三，使用系統(tǒng)樹(shù)圖作為引導(dǎo)，產(chǎn)生出最終的多序列

比對(duì)結(jié)果。P52

7）簡(jiǎn)述構(gòu)建進(jìn)化樹(shù)的步驟，每一步列舉1-2種使用的軟件或統(tǒng)計(jì)學(xué)方法。

答：（1）多序列比對(duì)：ClustalW

（2）校對(duì)比對(duì)結(jié)果：BIOEDIT

（3）建樹(shù)：MEGA

（4）評(píng)估系統(tǒng)發(fā)育信號(hào)和進(jìn)化樹(shù)的牢固度：自舉法（BOotStraP）PU4

8）簡(jiǎn)述除權(quán)配對(duì)法（UPGMA）的算法思想。

答：通過(guò)兩兩比對(duì)聚類(lèi)的方法進(jìn)行，在開(kāi)始時(shí)，每個(gè)序列分為一類(lèi)，分別作為一

個(gè)樹(shù)枝的生長(zhǎng)點(diǎn)，然后將最近的兩序列合并，從而定義出一個(gè)節(jié)點(diǎn)，將這個(gè)過(guò)程

不斷的重復(fù)，直到所有的序列都被加入，最后得到一棵進(jìn)化樹(shù)。P119

9）簡(jiǎn)述鄰接法（NJ）構(gòu)樹(shù)的算法思想。

答：鄰接法的思想不僅僅計(jì)算最小兩兩比對(duì)距離，還對(duì)整個(gè)樹(shù)的長(zhǎng)度進(jìn)行最小化,

從而對(duì)樹(shù)的拓?fù)浣Y(jié)構(gòu)進(jìn)行限制。這種算法由一棵星狀樹(shù)開(kāi)始，所有的物種都從一

個(gè)中心節(jié)點(diǎn)出發(fā)，然后通過(guò)計(jì)算最小分支長(zhǎng)度的和相繼尋找到近鄰的兩個(gè)序列，

每一輪過(guò)程中考慮所有可能的序列對(duì)，把能使樹(shù)的整個(gè)分支長(zhǎng)度最小的序列對(duì)一

組，從而產(chǎn)生新的距離矩陣，直到尋找所有的近鄰序列。PU7

10）簡(jiǎn)述最大簡(jiǎn)約法（MP）的算法思想。P68

答：是一種基于離散特征的進(jìn)化樹(shù)算法。生物演化應(yīng)該遵循簡(jiǎn)約性原則，所需變

異次數(shù)最少（演化步數(shù)最少）的演化樹(shù)可能為最符合自然情況的系統(tǒng)樹(shù)。在具體

的操作中，分為非加權(quán)最大簡(jiǎn)約分析（或稱為同等加權(quán)）和加權(quán)最大簡(jiǎn)約分析，

后者是根據(jù)性狀本身的演化規(guī)律（比如DNA不同位點(diǎn)進(jìn)化速率不同）而對(duì)其進(jìn)行

不同的加權(quán)處理。P120

11）簡(jiǎn)述最大似然法（ML）的算法思想。P69

答：是一種基于離散特征的進(jìn)化樹(shù)算法。該法首先選擇一個(gè)合適的進(jìn)化模型，然

后對(duì)所有可能的進(jìn)化樹(shù)進(jìn)行評(píng)估，通過(guò)對(duì)每個(gè)進(jìn)化位點(diǎn)的替代分配一個(gè)概率，最

后找出概率最大的進(jìn)化樹(shù)。P122

12）UPGMA構(gòu)樹(shù)法不精確的原因是什么？P69

答：由個(gè)于UPGMA假設(shè)在進(jìn)化過(guò)程中所有核昔酸/氨基酸都有相同的變異率，也

就是存在著一個(gè)分子鐘；這種算法當(dāng)所構(gòu)建的進(jìn)化樹(shù)的序列進(jìn)化速率明顯不一致

時(shí)，得到的進(jìn)化樹(shù)相對(duì)來(lái)說(shuō)不準(zhǔn)確的。P119,倒數(shù)第2段，前4行。

13）在MEGA2軟件中，提供了哪些堿基替換距離模型，試列舉其中3種，解釋

其含義。

答：堿基替換模型包括，No.ofdifferences、p-distance、Jukes-Cantor

distance、Tajima-Neidistance、Kimur2-parameterdistance^Tamura

3-parameterdistance,Tamura-Neidistance

p-distance：表示有差異的核昔酸位點(diǎn)在序列中所占比例，將有差異的核甘酸

位點(diǎn)數(shù)除已經(jīng)比對(duì)的總位點(diǎn)數(shù)就可以得到

Jukes-Cantor:模型假設(shè)ATCG的替換速率是一致的，然后給出兩個(gè)序列核

苜酸替換數(shù)的最大似然估計(jì)

Kimura2-parameter：模型考慮到了轉(zhuǎn)換很顛換隊(duì)多重?fù)糁械挠绊?，但假設(shè)整個(gè)

序列中4鐘核昔酸的頻率是相同哈德在不同位點(diǎn)上的堿基替換頻率是相同的

14）列舉5項(xiàng)DNA序列分析的內(nèi)容及代表性分析工具。

答：（1）尋找重復(fù)元件：RepeatMasker

（2）同源性檢索確定是否存在已知基因：BLASTn

（3）從頭開(kāi)始方法預(yù)測(cè)基因：Genscan

（4）分析各種調(diào)控序列：TRES/DRAGoNPROMOTORFINDER

（5）CPG島：CpGPlotP130,表格

15）如何獲取訪問(wèn)號(hào)為U49845的genbank文件？解釋如下genbank文件的LoCUS

行提供的信息：

LOCUSSCU498455028bpDNAlinearPLN21-JUNT999

答：（1）訪問(wèn)NCBl的EntreZ檢索系統(tǒng)，（2）選擇核酸數(shù)據(jù)庫(kù)，（3）輸入U(xiǎn)49845

序列訪問(wèn)號(hào)開(kāi)始檢索。

第一項(xiàng)是LoCUS名稱，前三個(gè)字母代表物種名

第二項(xiàng)是序列長(zhǎng)度

第三項(xiàng)是序列分子類(lèi)型

第四項(xiàng)是分子為線性的

第五項(xiàng)是GenBank分類(lèi)碼

第六項(xiàng)是最后修訂日期P13

16）利用EntreZ檢索系統(tǒng)對(duì)核酸數(shù)據(jù)搜索，輸入如下信息，將獲得什么結(jié)果：

AF114696：AF114714[ACCN]0P35

答：獲得序列訪問(wèn)號(hào)AFl14696到AF114714之間的連續(xù)編號(hào)的序列。

17）MEGA2如何將其它多序列比對(duì)格式文件轉(zhuǎn)化為MEGE格式的多序列比對(duì)文件？

答：（1）選擇菜單file,（2）選擇TeXtFiIeEditOrandFormatCc）Verter工

具，（3）調(diào)入需要轉(zhuǎn)換的序列和相應(yīng)的格式，（4）獲得轉(zhuǎn)換后的MEGA格式的

文件并保存。

18）為下面的序列比對(duì)確定比對(duì)得分：匹配得分=+1,失配得分=0,空位得分

=-Io

TGTACGGCTATA

TC--CGCCT-TA

答:

TT________________________________J______________________

GC一0一

T—-T一

A_―T一

CC一]一

GG一]一

GC_________________________________0_________________________________

CC-]一

π一]一

A--T-

TT一]一

AA-]一

最后得分1+0+(T)+(-1)+1+1+0+1+1+(T)+1+1-4

19)用UPGMA重建系統(tǒng)發(fā)生樹(shù)，距離矩陣如下：

物種_A_____________B_____________C_____________D___________

B9~

C8—U-

D12—15—10—

E15—18-[3-5一

答：用NeWiCk格式表示的樹(shù)圖：(((AC)B)(DE))o

分析過(guò)程：

(1)兩條序列間的最小距離是Ck,所以物種D和E聚到一組，如下圖。

(2)計(jì)算新的距離矩陣，其中復(fù)合物種(DE)替換D和E,如下表。其他物種

與新物種組之間的距離由它們與組中兩個(gè)物種(D和E)之間距離的平均值決定,

如，

(AME)

(3)將A和C合并，計(jì)算新的矩陣，如下表，最后一次聚類(lèi)((AC)B)將物種

B的分支點(diǎn)放在(AC)和(DE)的共同祖先之間。

物種_B____________AC___________

AC10

DE16.512.5—

20)畫(huà)出4個(gè)物種的3棵不同的無(wú)

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

生物信息學(xué)復(fù)習(xí)題及答案

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

生物信息學(xué)復(fù)習(xí)題及答案

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔