生物信息學(xué)復(fù)習(xí)題及答案(陶士珩)_第1頁(yè)
生物信息學(xué)復(fù)習(xí)題及答案(陶士珩)_第2頁(yè)
生物信息學(xué)復(fù)習(xí)題及答案(陶士珩)_第3頁(yè)
生物信息學(xué)復(fù)習(xí)題及答案(陶士珩)_第4頁(yè)
生物信息學(xué)復(fù)習(xí)題及答案(陶士珩)_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

-.z.生物信息學(xué)復(fù)習(xí)題名詞解釋生物信息學(xué),二級(jí)數(shù)據(jù)庫(kù),FASTA序列格式,genbank序列格式,Entrez,BLAST,查詢序列〔query〕,打分矩陣〔scoringmatri*〕,空位〔gap〕,空位罰分,E值,低復(fù)雜度區(qū)域,點(diǎn)矩陣〔dotmatri*〕,多序列比對(duì),分子鐘,系統(tǒng)發(fā)育〔phylogeny〕,進(jìn)化樹(shù)的二歧分叉構(gòu)造,直系同源,旁系同源,外類群,有根樹(shù),除權(quán)配對(duì)算法〔UPGMA〕,鄰接法構(gòu)樹(shù),最大簡(jiǎn)約法構(gòu)樹(shù),最大似然法構(gòu)樹(shù),一致樹(shù)〔consensustree〕,bootstrap,開(kāi)放閱讀框〔ORF〕,密碼子偏性〔codonbias〕,基因預(yù)測(cè)的從頭分析法,構(gòu)造域〔domain〕,超家族,模體〔motif〕,序列表譜〔profile〕,PAM矩陣,BLOSUM,PSI-BLAST,RefSeq,PDB數(shù)據(jù)庫(kù),GenPept,折疊子,TrEMBL,MMDB,SCOP,PROSITE,GeneOntologyConsortium,表譜〔profile〕。問(wèn)答題1〕生物信息學(xué)與計(jì)算生物學(xué)有什么區(qū)別與聯(lián)系?2〕試述生物信息學(xué)研究的根本方法。3〕試述生物學(xué)與生物信息學(xué)的相互關(guān)系。4〕美國(guó)國(guó)家生物技術(shù)信息中心〔NCBI〕的主要工作是什么?請(qǐng)列舉3個(gè)以上NCBI維護(hù)的數(shù)據(jù)庫(kù)。5〕序列的相似性與同源性有什么區(qū)別與聯(lián)系?6〕BLAST套件的blastn、blastp、blast*、tblastn和tblast*子工具的用途什么?7〕簡(jiǎn)述BLAST搜索的算法。8〕什么是物種的標(biāo)記序列?9〕什么是多序列比對(duì)過(guò)程的三個(gè)步驟?10〕簡(jiǎn)述構(gòu)建進(jìn)化樹(shù)的步驟。11〕簡(jiǎn)述除權(quán)配對(duì)法〔UPGMA〕的算法思想。12〕簡(jiǎn)述鄰接法〔NJ〕的算法思想。13〕簡(jiǎn)述最大簡(jiǎn)約法〔MP〕的算法思想。14〕簡(jiǎn)述最大似然法〔ML〕的算法思想。15〕UPGMA構(gòu)樹(shù)法不準(zhǔn)確的原因是什么?16〕在MEGA2軟件中,提供了多種堿基替換距離模型,試列舉其中2種,解釋其含義。17〕試述DNA序列分析的流程及代表性分析工具。18〕如何用BLAST發(fā)現(xiàn)新基因?19〕試述SCOP蛋白質(zhì)分類方案。20〕試述SWISS-PROT中的數(shù)據(jù)來(lái)源。21〕TrEMBL哪兩個(gè)局部?22〕試述PSI-BLAST搜索的5個(gè)步驟。操作與計(jì)算題如何獲取訪問(wèn)號(hào)為U49845的genbank文件?解釋如下genbank文件的LOCUS行提供的信息:LOCUSSCU498455028bpDNAlinearPLN21-JUN-1999利用Entrez檢索系統(tǒng),對(duì)核酸數(shù)據(jù)搜索,輸入如下信息,將獲得什么結(jié)果:AF114696:AF114714[ACCN]。3)相比使用BLAST套件搜索數(shù)據(jù)庫(kù),BLAST2工具在結(jié)果呈現(xiàn)上有什么優(yōu)點(diǎn)?MEGA2如何將其它多序列比對(duì)格式文件轉(zhuǎn)化為MEGE格式的多序列比對(duì)文件?什么簡(jiǎn)約信息位點(diǎn)Pi?以下軟件的主要用途是什么?RepeatMasker,CpGPlot,SpliceView,Genscan,ORFfinder,neuralnetworkpromoterprediction.7)為下面的序列比對(duì)確定比對(duì)得分:匹配得分=+1,失配得分=0,空位得分=-1。TGTACGGCTATA TC--CGCCT–TA8)用UPGMA重建系統(tǒng)發(fā)生樹(shù),距離矩陣如下:物種ABCDB9C811D121510E15181359〕畫出4個(gè)物種的3棵不同的無(wú)根樹(shù).這4個(gè)物種在*位置上的核苷酸分別是T,T,C和C,為每個(gè)內(nèi)部節(jié)點(diǎn)推斷的祖先序列標(biāo)出最可能的候選核苷酸,3棵可能的無(wú)根樹(shù)中有幾棵是一樣簡(jiǎn)約的(因?yàn)樗麄冇凶钚√鎿Q數(shù))"有幾棵樹(shù)的替換樹(shù)是2"有大于2個(gè)替換的樹(shù)嗎"10〕如何將所研究的蛋白質(zhì)與其他相關(guān)蛋白質(zhì)做構(gòu)造比對(duì)。答案局部一、名詞解釋:生物信息學(xué):研究大量生物數(shù)據(jù)復(fù)雜關(guān)系的學(xué)科,其特征是多學(xué)科穿插,以互聯(lián)網(wǎng)為媒介,數(shù)據(jù)庫(kù)為載體。利用數(shù)學(xué)知識(shí)建立各種數(shù)學(xué)模型;利用計(jì)算機(jī)為工具對(duì)實(shí)驗(yàn)所得大量生物學(xué)數(shù)據(jù)進(jìn)展儲(chǔ)存、檢索、處理及分析,并以生物學(xué)知識(shí)對(duì)結(jié)果進(jìn)展解釋。二級(jí)數(shù)據(jù)庫(kù):在一級(jí)數(shù)據(jù)庫(kù)、實(shí)驗(yàn)數(shù)據(jù)和理論分析的根底上針對(duì)特定目標(biāo)衍生而來(lái),是對(duì)生物學(xué)知識(shí)和信息的進(jìn)一步的整理。P11,第2段。FASTA序列格式:是將DNA或者蛋白質(zhì)序列表示為一個(gè)帶有一些標(biāo)記的核苷酸或者氨基酸字符串,大于號(hào)〔>〕表示一個(gè)新文件的開(kāi)場(chǎng),其他無(wú)特殊要求。genbank序列格式:是GenBank數(shù)據(jù)庫(kù)的根本信息單位,是最為廣泛的生物信息學(xué)序列格式之一。該文件格式按域劃分為4個(gè)局部:第一局部包含整個(gè)記錄的信息〔描述符〕;第二局部包含注釋;第三局部是引文區(qū),提供了這個(gè)記錄的科學(xué)依據(jù);第四局部是核苷酸序列本身,以"http://〞結(jié)尾。P13,第2段。Entrez檢索系統(tǒng):是NCBI開(kāi)發(fā)的核心檢索系統(tǒng),集成了NCBI的各種數(shù)據(jù)庫(kù),具有鏈接的數(shù)據(jù)庫(kù)多,使用方便,能夠進(jìn)展穿插索引等特點(diǎn)。P83-85。BLAST:根本局部比對(duì)搜索工具,用于相似性搜索的工具,對(duì)需要進(jìn)展檢索的序列與數(shù)據(jù)庫(kù)中的每個(gè)序列做相似性比擬。P94查詢序列〔querysequence〕:也稱被檢索序列,用來(lái)在數(shù)據(jù)庫(kù)中檢索并進(jìn)展相似性比擬的序列。P98,第1段。打分矩陣〔scoringmatri*〕:在相似性檢索中對(duì)序列兩兩比對(duì)的質(zhì)量評(píng)估方法。包括基于理論〔如考慮核酸和氨基酸之間的類似性〕和實(shí)際進(jìn)化距離〔如PAM〕兩類方法。P29,第2段。空位〔gap〕:在序列比對(duì)時(shí),由于序列長(zhǎng)度不同,需要插入一個(gè)或幾個(gè)位點(diǎn)以取得最正確比對(duì)結(jié)果,這樣在其中一序列上產(chǎn)生中斷現(xiàn)象,這些中斷的位點(diǎn)稱為空位。P29,第2段??瘴涣P分:空位罰分是為了補(bǔ)償插入和缺失對(duì)序列相似性的影響,序列中的空位的引入不代表真正的進(jìn)化事件,所以要對(duì)其進(jìn)展罰分,空位罰分的多少直接影響比照的結(jié)果。P37,倒數(shù)第2段。E值:衡量序列之間相似性是否顯著的期望值。E值大小說(shuō)明了可以找到與查詢序列〔query〕相匹配的隨機(jī)或無(wú)關(guān)序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味著序列的相似性偶然發(fā)生的時(shí)機(jī)越小,也即相似性越能反映真實(shí)的生物學(xué)意義。P95低復(fù)雜度區(qū)域:BLAST搜索的過(guò)濾選項(xiàng)。指序列中包含的重復(fù)度高的區(qū)域,如poly〔A〕。P100,第一段。點(diǎn)矩陣〔dotmatri*〕:構(gòu)建一個(gè)二維矩陣,其*軸是一條序列,Y軸是另一個(gè)序列,然后在2個(gè)序列一樣堿基的對(duì)應(yīng)位置〔*,y〕加點(diǎn),如果兩條序列完全一樣則會(huì)形成一條主對(duì)角線,如果兩條序列相似則會(huì)出現(xiàn)一條或者幾條直線;如果完全沒(méi)有相似性則不能連成直線。P39-41。多序列比對(duì):通過(guò)序列的相似性檢索得到許多相似性序列,將這些序列做一個(gè)總體的比對(duì),以觀察它們?cè)跇?gòu)造上的異同,來(lái)答復(fù)大量的生物學(xué)問(wèn)題。P48,需要概括。分子鐘:認(rèn)為分子進(jìn)化速率是恒定的或者幾乎恒定的假說(shuō),從而可以通過(guò)分子進(jìn)化推斷出物種起源的時(shí)間。P112-113系統(tǒng)發(fā)育分析:通過(guò)一組相關(guān)的基因或者蛋白質(zhì)的多序列比對(duì)或其他性狀,可以研究推斷不同物種或基因之間的進(jìn)化關(guān)系。P112,第一段。進(jìn)化樹(shù)的二歧分叉構(gòu)造:指在進(jìn)化樹(shù)上任何一個(gè)分支節(jié)點(diǎn),一個(gè)父分支都只能被分成兩個(gè)子分支。P113,最后一段。系統(tǒng)發(fā)育圖:P114直系同源:指由于物種形成事件來(lái)自一個(gè)共同祖先的不同物種中的同源序列,具有相似或不同的功能。P28,P146旁系〔并系〕同源:指同一個(gè)物種中具有共同祖先,通過(guò)基因重復(fù)產(chǎn)生的一組基因,這些基因在功能上的可能發(fā)生了改變。P28,P147外類群:是進(jìn)化樹(shù)中處于一組被分析物種之外的,具有相近親緣關(guān)系的物種。P120有根樹(shù):能夠確定所有分析物種的共同祖先的進(jìn)化樹(shù)。P113除權(quán)配對(duì)算法〔UPGMA〕:最初,每個(gè)序列歸為一類,然后找到距離最近的兩類將其歸為一類,定義為一個(gè)節(jié)點(diǎn),重復(fù)這個(gè)過(guò)程,直到所有的聚類被參加,最終產(chǎn)生樹(shù)根。P119鄰接法〔neighbor-joiningmethod〕:是一種不僅僅計(jì)算兩兩比對(duì)距離,還對(duì)整個(gè)樹(shù)的長(zhǎng)度進(jìn)展最小化,從而對(duì)樹(shù)的拓?fù)錁?gòu)造進(jìn)展限制,能夠克制UPGMA算法要求進(jìn)化速率保持恒定的缺陷。P118。最大簡(jiǎn)約法〔MP〕:在一系列能夠解釋序列差異的的進(jìn)化樹(shù)中找到具有最少核酸或氨基酸替換的進(jìn)化樹(shù)。P120最大似然法〔ML〕:它對(duì)每個(gè)可能的進(jìn)化位點(diǎn)分配一個(gè)概率,然后綜合所有位點(diǎn),找到概率最大的進(jìn)化樹(shù)。最大似然法允許采用不同的進(jìn)化模型對(duì)變異進(jìn)展分析評(píng)估,并在此根底上構(gòu)建系統(tǒng)發(fā)育樹(shù)。P122一致樹(shù)〔consensustree〕:在同一算法中產(chǎn)生多個(gè)最優(yōu)樹(shù),合并這些最優(yōu)樹(shù)得到的樹(shù)即一致樹(shù)。P121自舉法檢驗(yàn)〔Bootstrap〕:放回式抽樣統(tǒng)計(jì)法。通過(guò)對(duì)數(shù)據(jù)集屢次重復(fù)取樣,構(gòu)建多個(gè)進(jìn)化樹(shù),用來(lái)檢查給定樹(shù)的分枝可信度。P122開(kāi)放閱讀框〔ORF〕:開(kāi)放閱讀框是基因序列的一局部,包含一段可以編碼蛋白的堿基序列。P131密碼子偏好性〔codonbias〕:氨基酸的同義密碼子的使用頻率與相應(yīng)的同功tRNA的水平相一致,大多數(shù)高效表達(dá)的基因僅使用那些含量高的同功tRNA所對(duì)應(yīng)的密碼子,這種效應(yīng)稱為密碼子偏好性。P133基因預(yù)測(cè)的從頭分析:依據(jù)綜合利用基因的特征,如剪接位點(diǎn),內(nèi)含子與外顯子邊界,調(diào)控區(qū),預(yù)測(cè)基因組序列中包含的基因。P134-145簡(jiǎn)約信息位點(diǎn):指基于DNA或蛋白質(zhì)序列,利用最大簡(jiǎn)約法構(gòu)建系統(tǒng)發(fā)育樹(shù)時(shí),如果每個(gè)位點(diǎn)的狀態(tài)至少存在兩種,每種狀態(tài)至少出現(xiàn)兩次的位點(diǎn)。其它位點(diǎn)為都是非簡(jiǎn)約性信息位點(diǎn)。P121,第2行構(gòu)造域〔domain〕:保守的構(gòu)造單元,包含獨(dú)特的二級(jí)構(gòu)造組合和疏水內(nèi)核,可能單獨(dú)存在,也可能與其他構(gòu)造域組合。一樣功能的同源構(gòu)造域具有序列的相似性。P158模體〔motif〕:短的保守的多肽段,含有一樣模體的蛋白質(zhì)不一定是同源的,一般10-20個(gè)殘基。P161,最后一行PAM矩陣:PAM指可承受突變百分率。一個(gè)氨基酸在進(jìn)化中變成另一種氨基酸的可能性,通過(guò)這種可能性可以鑒定蛋白質(zhì)之間的相似性,并產(chǎn)生蛋白質(zhì)之間的比對(duì)。一個(gè)PAM單位是蛋白質(zhì)序列平均發(fā)生1%的替代量需要的進(jìn)化時(shí)間。P30-31BLOSUM矩陣:模塊替代矩陣。矩陣中的每個(gè)位點(diǎn)的分值來(lái)自蛋白比對(duì)的局部塊中的替代頻率的觀察。每個(gè)矩陣適合特定的進(jìn)化距離。例如,在BLOSUM62矩陣中,比對(duì)的分值來(lái)自不超過(guò)62%一致率的一組序列。P34折疊子〔Fold〕:在兩個(gè)或更多的蛋白質(zhì)中具有相似二級(jí)構(gòu)造的大區(qū)域,這些大區(qū)域具有特定的空間取向。P162TrEMBL:是與SWISS-PROT相關(guān)的一個(gè)數(shù)據(jù)庫(kù)。包含從EMBL核酸數(shù)據(jù)庫(kù)中根據(jù)編碼序列(CDS)翻譯而得到的蛋白質(zhì)序列,并且這些序列尚未集成到SWISS-PROT數(shù)據(jù)庫(kù)中。P21PDB〔ProteinDataBank〕:PDB中收錄了大量通過(guò)實(shí)驗(yàn)〔*射線晶體衍射,核磁共振NMR〕測(cè)定的生物大分子的三維構(gòu)造,記錄有原子坐標(biāo)、配基的化學(xué)構(gòu)造和晶體構(gòu)造的描述等。PDB數(shù)據(jù)庫(kù)的訪問(wèn)號(hào)由一個(gè)數(shù)字和三個(gè)字母組成〔如,4HHB〕,同時(shí)支持關(guān)鍵詞搜索,還可以FASTA程序進(jìn)展搜索。P22MMDB(MolecularModelingDatabase):是〔NCBI〕所開(kāi)發(fā)的生物信息數(shù)據(jù)庫(kù)集成系統(tǒng)Entrez的一個(gè)局部,數(shù)據(jù)庫(kù)的內(nèi)容包括來(lái)自于實(shí)驗(yàn)的生物大分子構(gòu)造數(shù)據(jù)。與PDB相比,對(duì)于數(shù)據(jù)庫(kù)中的每一個(gè)生物大分子構(gòu)造,MMDB具有許多附加的信息,如分子的生物學(xué)功能、產(chǎn)生功能的機(jī)制、分子的進(jìn)化歷史等,還提供生物大分子三維構(gòu)造模型顯示、構(gòu)造分析和構(gòu)造比擬工具。"SCOP數(shù)據(jù)庫(kù):提供關(guān)于構(gòu)造的蛋白質(zhì)之間構(gòu)造和進(jìn)化關(guān)系的詳細(xì)描述,包括蛋白質(zhì)構(gòu)造數(shù)據(jù)庫(kù)PDB中的所有條目。SCOP數(shù)據(jù)庫(kù)除了提供蛋白質(zhì)構(gòu)造和進(jìn)化關(guān)系信息外,對(duì)于每一個(gè)蛋白質(zhì)還包括下述信息:到PDB的連接,序列,參考文獻(xiàn),構(gòu)造的圖像等。可以按構(gòu)造和進(jìn)化關(guān)系對(duì)蛋白質(zhì)分類,分類結(jié)果是一個(gè)具有層次構(gòu)造的樹(shù),其主要的層次依次是類〔class〕、折疊子〔fold〕、超家族〔superfamily〕、家族〔family〕、單個(gè)PDB蛋白構(gòu)造記錄。P23PROSITE:是蛋白質(zhì)家族和構(gòu)造域數(shù)據(jù)庫(kù),包含具有生物學(xué)意義的位點(diǎn)、模式、可幫助識(shí)別蛋白質(zhì)家族的統(tǒng)計(jì)特征。PROSITE中涉及的序列模式包括酶的催化位點(diǎn)、配體結(jié)合位點(diǎn)、與金屬離子結(jié)合的殘基、二硫鍵的半胱氨酸、與小分子或其它蛋白質(zhì)結(jié)合的區(qū)域等;PROSITE還包括根據(jù)多序列比對(duì)而構(gòu)建的序列統(tǒng)計(jì)特征,能更敏感地發(fā)現(xiàn)一個(gè)序列是否具有相應(yīng)的特征。P22RefSeq:給出了對(duì)應(yīng)于基因和蛋白質(zhì)的索引號(hào)碼,對(duì)應(yīng)于最穩(wěn)定、最被人成認(rèn)的Genbank序列。"PSI-BLAST:位點(diǎn)特異性迭代比對(duì)。是一種專門化的的比對(duì),通過(guò)調(diào)節(jié)序列打分矩陣〔scoringmatri*〕探測(cè)遠(yuǎn)緣相關(guān)的蛋白。P97GeneOntology協(xié)會(huì):編輯一組動(dòng)態(tài)的、可控的基因產(chǎn)物不同方面性質(zhì)的字匯的協(xié)會(huì)。從3個(gè)方面描述基因產(chǎn)物的性質(zhì),即,分子功能,生物過(guò)程,細(xì)胞區(qū)室。表譜〔PSSM〕:指一張基于多序列比對(duì)的打分表,表示一個(gè)蛋白質(zhì)家族,可以用來(lái)搜索序列數(shù)據(jù)庫(kù)。P97比擬基因組學(xué):P148二、問(wèn)答題1.緒論生物信息學(xué)的開(kāi)展經(jīng)歷了那幾個(gè)階段生物信息學(xué)步入后基因組時(shí)代后,其開(kāi)展方向有哪幾個(gè)方面。1〕請(qǐng)列舉3個(gè)以上Entrez系統(tǒng)可以檢索的數(shù)據(jù)庫(kù)。答:P832〕序列的相似性與同源性有什么區(qū)別與聯(lián)系?答:相似性是指序列之間相關(guān)的一種量度,兩序列的的相似性可以基于序列的一致性的百分比;而同源性是指序列所代表的物種具有共同的祖先,強(qiáng)調(diào)進(jìn)化上的親緣關(guān)系。P1473〕BLAST套件的blastn、blastp、blast*、tblastn和tblast*子工具的用途什么?答:blastn是將給定的核酸序列與核酸數(shù)據(jù)庫(kù)中的序列進(jìn)展比擬;Blastp是使用蛋白質(zhì)序列與蛋白質(zhì)數(shù)據(jù)庫(kù)中的序列進(jìn)展比擬,可以尋找較遠(yuǎn)的關(guān)系;Blast*將給定的核酸序列按照六種閱讀框架將其翻譯成蛋白質(zhì)與蛋白質(zhì)數(shù)據(jù)庫(kù)中的序列進(jìn)展比對(duì),對(duì)分析新序列和EST很有用;Tblastn將給定的氨基酸序列與核酸數(shù)據(jù)庫(kù)中的序列〔雙鏈〕按不同的閱讀框進(jìn)展比對(duì),對(duì)于尋找數(shù)據(jù)庫(kù)中序列沒(méi)有標(biāo)注的新編碼區(qū)很有用;Tblast*只在特殊情況下使用,它將DNA被檢索的序列和核酸序列數(shù)據(jù)庫(kù)中的序列按不同的閱讀框全部翻譯成蛋白質(zhì)序列,然后進(jìn)展蛋白質(zhì)序列比對(duì)。P974〕簡(jiǎn)述BLAST搜索的算法思想。答:BLAST是一種局部最優(yōu)比對(duì)搜索算法,將所查詢的序列打斷成許多小序列片段,然后小序列逐步與數(shù)據(jù)庫(kù)中的序列進(jìn)展比對(duì),這些小片段被叫做字〞word〞;當(dāng)一定長(zhǎng)度的的字〔W〕與檢索序列的比對(duì)到達(dá)一個(gè)指定的最低分〔T〕后,初始比對(duì)就完畢了;一個(gè)序列的匹配度由各局部匹配分?jǐn)?shù)的總和決定,獲得高分的序列叫做高分匹配片段〔HSP〕,程序?qū)⒆詈玫腍SP雙向擴(kuò)展進(jìn)展比對(duì),直到序列完畢或者不再具有生物學(xué)顯著性,最后所得到的序列是那些在整體上具有最高分的序列,即,最高分匹配片段〔MSP〕,這樣,BLAST既保持了整體的運(yùn)算速度,也維持了比對(duì)的精度。P955〕什么是物種的標(biāo)記序列?答:指物種特有的一段核苷酸序列??梢酝ㄟ^(guò)相似性查詢,得到*一序列在數(shù)據(jù)庫(kù)中的*一物種中反復(fù)出現(xiàn),且在其他物種中沒(méi)有的明顯相似的序列。6〕什么是多序列全局比對(duì)的累進(jìn)算法?答:第一,所有的序列之間逐一比對(duì)〔雙重比對(duì)〕;第二,生成一個(gè)系統(tǒng)樹(shù)圖,將序列按相似性大致分組;第三,使用系統(tǒng)樹(shù)圖作為引導(dǎo),產(chǎn)生出最終的多序列比對(duì)結(jié)果。P527〕簡(jiǎn)述構(gòu)建進(jìn)化樹(shù)的步驟,每一步列舉1-2種使用的軟件或統(tǒng)計(jì)學(xué)方法。答:〔1〕多序列比對(duì):ClustalW〔2〕校比照對(duì)結(jié)果:BIOEDIT〔3〕建樹(shù):MEGA〔4〕評(píng)估系統(tǒng)發(fā)育信號(hào)和進(jìn)化樹(shù)的結(jié)實(shí)度:自舉法〔Bootstrap〕P1148〕簡(jiǎn)述除權(quán)配對(duì)法〔UPGMA〕的算法思想。答:通過(guò)兩兩比對(duì)聚類的方法進(jìn)展,在開(kāi)場(chǎng)時(shí),每個(gè)序列分為一類,分別作為一個(gè)樹(shù)枝的生長(zhǎng)點(diǎn),然后將最近的兩序列合并,從而定義出一個(gè)節(jié)點(diǎn),將這個(gè)過(guò)程不斷的重復(fù),直到所有的序列都被參加,最后得到一棵進(jìn)化樹(shù)。P1199〕簡(jiǎn)述鄰接法〔NJ〕構(gòu)樹(shù)的算法思想。答:鄰接法的思想不僅僅計(jì)算最小兩兩比對(duì)距離,還對(duì)整個(gè)樹(shù)的長(zhǎng)度進(jìn)展最小化,從而對(duì)樹(shù)的拓?fù)錁?gòu)造進(jìn)展限制。這種算法由一棵星狀樹(shù)開(kāi)場(chǎng),所有的物種都從一個(gè)中心節(jié)點(diǎn)出發(fā),然后通過(guò)計(jì)算最小分支長(zhǎng)度的和相繼尋找到近鄰的兩個(gè)序列,每一輪過(guò)程中考慮所有可能的序列對(duì),把能使樹(shù)的整個(gè)分支長(zhǎng)度最小的序列對(duì)一組,從而產(chǎn)生新的距離矩陣,直到尋找所有的近鄰序列。P11710〕簡(jiǎn)述最大簡(jiǎn)約法〔MP〕的算法思想。P68答:是一種基于離散特征的進(jìn)化樹(shù)算法。生物演化應(yīng)該遵循簡(jiǎn)約性原則,所需變異次數(shù)最少〔演化步數(shù)最少〕的演化樹(shù)可能為最符合自然情況的系統(tǒng)樹(shù)。在具體的操作中,分為非加權(quán)最大簡(jiǎn)約分析〔或稱為同等加權(quán)〕和加權(quán)最大簡(jiǎn)約分析,后者是根據(jù)性狀本身的演化規(guī)律〔比方DNA不同位點(diǎn)進(jìn)化速率不同〕而對(duì)其進(jìn)展不同的加權(quán)處理。P12011〕簡(jiǎn)述最大似然法〔ML〕的算法思想。P69答:是一種基于離散特征的進(jìn)化樹(shù)算法。該法首先選擇一個(gè)適宜的進(jìn)化模型,然后對(duì)所有可能的進(jìn)化樹(shù)進(jìn)展評(píng)估,通過(guò)對(duì)每個(gè)進(jìn)化位點(diǎn)的替代分配一個(gè)概率,最后找出概率最大的進(jìn)化樹(shù)。P12212〕UPGMA構(gòu)樹(shù)法不準(zhǔn)確的原因是什么?P69答:由個(gè)于UPGMA假設(shè)在進(jìn)化過(guò)程中所有核苷酸/氨基酸都有一樣的變異率,也就是存在著一個(gè)分子鐘;這種算法當(dāng)所構(gòu)建的進(jìn)化樹(shù)的序列進(jìn)化速率明顯不一致時(shí),得到的進(jìn)化樹(shù)相對(duì)來(lái)說(shuō)不準(zhǔn)確的。P119,倒數(shù)第2段,前4行。13)在MEGA2軟件中,提供了哪些堿基替換距離模型,試列舉其中3種,解釋其含義。答:堿基替換模型包括,No.ofdifferences、p-distance、Jukes-Cantordistance、Tajima-Neidistance、Kimur2-parameterdistance、Tamura3-parameterdistance、Tamura-Neidistancep-distance:表示有差異的核苷酸位點(diǎn)在序列中所占比例,將有差異的核苷酸位點(diǎn)數(shù)除已經(jīng)比對(duì)的總位點(diǎn)數(shù)就可以得到Jukes-Cantor:模型假設(shè)ATCG的替換速率是一致的,然后給出兩個(gè)序列核苷酸替換數(shù)的最大似然估計(jì)Kimura2-parameter:模型考慮到了轉(zhuǎn)換很顛換隊(duì)多重?fù)糁械挠绊?,但假設(shè)整個(gè)序列中4鐘核苷酸的頻率是一樣哈德在不同位點(diǎn)上的堿基替換頻率是一樣的14〕列舉5項(xiàng)DNA序列分析的內(nèi)容及代表性分析工具。答:〔1〕尋找重復(fù)元件:RepeatMasker〔2〕同源性檢索確定是否存在基因:BLASTn〔3〕從頭開(kāi)場(chǎng)方法預(yù)測(cè)基因:Genscan〔4〕分析各種調(diào)控序列:TRES/DRAGONPROMOTORFINDER(5)CpG島:CpGPlotP130,表格15〕如何獲取訪問(wèn)號(hào)為U49845的genbank文件?解釋如下genbank文件的LOCUS行提供的信息:LOCUSSCU498455028bpDNAlinearPLN21-JUN-1999答:〔1〕訪問(wèn)NCBI的Entrez檢索系統(tǒng),〔2〕選擇核酸數(shù)據(jù)庫(kù),〔3〕輸入U(xiǎn)49845序列訪問(wèn)號(hào)開(kāi)場(chǎng)檢索。第一項(xiàng)為哪一項(xiàng)LOCUS名稱,前三個(gè)字母代表物種名第二項(xiàng)是序列長(zhǎng)度第三項(xiàng)是序列分子類型第四項(xiàng)是分子為線性的第五項(xiàng)是GenBank分類碼第六項(xiàng)是最后修訂日期P1316〕利用Entrez檢索系統(tǒng)對(duì)核酸數(shù)據(jù)搜索,輸入如下信息,將獲得什么結(jié)果:AF114696:AF114714[ACCN]。P35答:獲得序列訪問(wèn)號(hào)AF114696到AF114714之間的連續(xù)編號(hào)的序列。17〕MEGA2如何將其它多序列比對(duì)格式文件轉(zhuǎn)化為MEGE格式的多序列比對(duì)文件?答:〔1〕選擇菜單file,〔2〕選擇Te*tFileEditorandFormatCoverter工具,〔3〕調(diào)入需要轉(zhuǎn)換的序列和相應(yīng)的格式,〔4〕獲得轉(zhuǎn)換后的MEGA格式的文件并保存。18〕為下面的序列比對(duì)確定比對(duì)得分:匹配得分=+1,失配得分=0,空位得分=-1。TGTACGGCTATA TC--CGCCT-TA答:TT1GC0T--1A--1CC1GG1GC0CC1TT1A--1TT1AA1最后得分1+0+〔-1〕+〔-1〕+1+1+0+1+1+〔-1〕+1+1=419)用UPGMA重建系統(tǒng)發(fā)生樹(shù),距離矩陣如下:物種ABCDB9C811D121510

E1518135答:用Newick格式表示的樹(shù)圖:〔〔〔AC〕B〕〔DE〕〕。分析過(guò)程:〔1〕兩條序列間的最小距離是dDE,所以物種D和E聚到一組,如下列圖。EDEDDEDE(2)計(jì)算新的距離矩陣,其中復(fù)合物種〔DE〕替換D和E,如下表。其他物種與新物種組之間的距離由它們與組中兩個(gè)物種〔D和E〕之間距離的平均值決定,如,d〔DE〕A=1/2〔dAD+dAE〕=1/2(12+15)=13.5物種ABCB9

C811

DE13.516.511.5第二次聚類在A和C之間,組成AC類。如下列圖,CAEDCAED(AC)(DE)(AC)(DE)(3)將A和C合并,計(jì)算新的矩陣,如下表,最后一次聚類〔〔AC〕B〕將物種B的分支點(diǎn)放在〔AC〕和〔DE〕的共同祖先之間。物種BACAC10

DE16.512.5BCAEDBCAED((AC)B)(DE)((AC)B)(DE)20)畫出4個(gè)物種的3棵不同的無(wú)根樹(shù).這4個(gè)物種在*位置上的核苷酸分別是T,T,C和C,為每個(gè)內(nèi)部節(jié)點(diǎn)推斷的祖先序列,標(biāo)出最可能的候選核苷酸.3棵可能的無(wú)根樹(shù)中有幾棵是一樣簡(jiǎn)約的(因?yàn)樗麄冇凶钚√鎿Q數(shù))"有幾棵

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論