




免費預(yù)覽已結(jié)束,剩余34頁可下載查看
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
生物序列的相似性搜索blast簡介及其應(yīng)用,2,生物序列的相似性,相似性(similarity):是指一種很直接的數(shù)量關(guān)系,比如部分相同或相似的百分比或其它一些合適的度量。比如說,A序列和B序列的相似性是80,或者4/5。這是個量化的關(guān)系。當(dāng)然可進行自身局部比較。,3,同源性(homology):指從一些數(shù)據(jù)中推斷出的兩個基因或蛋白質(zhì)序列具而共同祖先的結(jié)論,屬于質(zhì)的判斷。就是說A和B的關(guān)系上,只有是同源序列,或者非同源序列兩種關(guān)系。而說A和B的同源性為80都是不科學(xué)的。,生物序列的同源性,4,相似性和同源性關(guān)系,序列的相似性和序列的同源性有一定的關(guān)系,一般來說序列間的相似性越高的話,它們是同源序列的可能性就更高,所以經(jīng)??梢酝ㄟ^序列的相似性來推測序列是否同源。正因為存在這樣的關(guān)系,很多時候?qū)π蛄械南嗨菩院屯葱跃蜎]有做很明顯的區(qū)分,造成經(jīng)常等價混用兩個名詞。所以有出現(xiàn)A序列和B序列的同源性為80一說。,5,數(shù)據(jù)庫搜索目的,確定特定的蛋白質(zhì)或核酸序列有哪些已知的直系同源或旁系同源序列。確定哪些蛋白質(zhì)和基因在特定的物種中出現(xiàn)。確定一個DNA或蛋白質(zhì)序列身份。發(fā)現(xiàn)新基因。尋找對于一個蛋白質(zhì)的功能或結(jié)構(gòu)起關(guān)鍵作用的氨基酸殘基。,6,Blast簡介(一),BLAST是由美國國立生物技術(shù)信息中心(NCBI)開發(fā)的一個基于序列相似性的數(shù)據(jù)庫搜索程序。BLAST是“局部相似性基本查詢工具”(BasicLocalAlignmentSearchTool)的縮寫。,7,Blast是一個序列相似性搜索的程序包,其中包含了很多個獨立的程序,這些程序是根據(jù)查詢的對象和數(shù)據(jù)庫的不同來定義的。比如說查詢的序列為核酸,查詢數(shù)據(jù)庫亦為核酸序列數(shù)據(jù)庫,那么就應(yīng)該選擇blastn程序。下表列出了主要的blast程序。,Blast簡介(二),8,9,ProgramInputDatabase,10,11,Blast程序評價序列相似性的兩個數(shù)據(jù),Score:使用打分矩陣對匹配的片段進行打分,這是對各對氨基酸殘基(或堿基)打分求和的結(jié)果,一般來說,匹配片段越長、相似性越高則Score值越大。Evalue:在相同長度的情況下,兩個氨基酸殘基(或堿基)隨機排列的序列進行打分,得到上述Score值的概率的大小。E值越小表示隨機情況下得到該Score值的可能性越低。,12,NCBI提供的Blast服務(wù),登陸ncbi的blast主頁,核酸序列,蛋白序列,翻譯序列,底下有其他一些針對特殊數(shù)據(jù)庫的和查看以往的比對結(jié)果等,13,Blast任務(wù)提交表單(一),1.序列信息部分,填入查詢(query)的序列,序列范圍(默認全部),選擇搜索數(shù)據(jù)庫,如果接受其他參數(shù)默認設(shè)置,點擊開始搜索,14,Blast任務(wù)提交表單(二),設(shè)置搜索的范圍,entrez關(guān)鍵詞,或者選擇特定物種,2.設(shè)置各種參數(shù)部分,一些過濾選項,包括簡單重復(fù)序列,人類基因組中的重復(fù)序列等,E值上限,窗口大小,如果你對blast的命令行選項熟悉的話,可以在這里加入更多的參數(shù),15,Blast任務(wù)提交表單(三),3.設(shè)置結(jié)果輸出顯示格式,選擇需要顯示的選項以及顯示的文件格式,顯示數(shù)目,Alignment的顯示方式,篩選結(jié)果,E值范圍,其他一些顯示格式參數(shù),點擊開始搜索,16,提交任務(wù),返回查詢號(requestid),可以修改顯示結(jié)果格式,修改完顯示格式后點擊進入結(jié)果界面,17,結(jié)果頁面(一),圖形示意結(jié)果,18,結(jié)果頁面(二),目標(biāo)序列描述部分,帶有g(shù)enbank的鏈接,點擊可以進入相應(yīng)的genbank序列,匹配情況,分值,e值,19,結(jié)果頁面(三),詳細的比對上的序列的排列情況,查詢序列和目標(biāo)序列之間的字母表示兩個氨基酸相同,加號+表示兩個氨基酸相似。空白表示既不相同也不相似。,20,一個具體的例子(blastp),假設(shè)以下為一未知蛋白序列query_seqMSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTASWFTALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDGKMKELSPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATVLQLPQGTTLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPGSSRGNSPARMASGGGETALALLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFGRRGPEQTQGNFGDQDLIRQGTDYKHWPQIAQFAPSASAFFGMSRIGMEVTPSGTWLTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDKKKKTDEAQPLPQRQKKQPTVTLLPAADMDDFSRQLQNSMSGASADSTQA我們通過blast搜索來獲取一些這個序列的信息。,21,具體步驟,1.登陸blast主頁/BLAST/2.根據(jù)數(shù)據(jù)類型,選擇合適的程序3.填寫表單信息4.提交任務(wù)5.查看和分析結(jié)果,22,分析過程(一),1.登陸ncbi的blast主頁,2.選擇程序,因為查詢序列是蛋白序列可以選擇blastp,點擊進入,也可以選擇tblastn,作為演示,我們這里選blastp,23,分析過程(二),3.填入序列(copypaste)Fasta格式,或者純序列,4.選擇搜索區(qū)域,這里我們要搜索整個序列,不填,5.選擇搜索數(shù)據(jù)庫,這里我們選nr(非冗余的蛋白序列庫)。,是否搜索保守區(qū)域數(shù)據(jù)庫(cdd),蛋白序列搜索才有。我們選上,24,分析過程(三),6.限制條件,我們限制在病毒里面找。,7.其他選項保持默認值,打分矩陣,25,分析過程(四),8.輸出格式選項保持默認值,9.點擊開始搜索,26,分析過程(五),10.查詢序列的一些相關(guān)信息,在cdd庫里面找到兩個保守區(qū)域,點擊可以進入,27,分析過程(六),圖形結(jié)果,28,分析過程(七),匹配序列列表,29,序列同源性的判斷方法:,搜索結(jié)果是否顯著查看E值列表,是否顯著.如果是核酸序列,E10-6為顯著;如果是蛋白質(zhì)序列,E10-3為顯著查看同一性分值如果是核酸序列,Identity70%為顯著;如果是蛋白質(zhì)序列,Identity25%為顯著兩個蛋白是否具有近似的大小,30,兩個蛋白是否有共同的模體或信號序列.兩個蛋白質(zhì)是不是一個合理的多序列比對的一部分兩個蛋白質(zhì)是否共有一個相似的生物學(xué)功能.兩個蛋白質(zhì)是否具有相似的三維結(jié)構(gòu).PSI-BLAST搜索,31,BLAST搜索策略調(diào)整,搜索結(jié)果過多情況加Entrez限制條件利用序列的一部分進行搜索調(diào)整記分矩陣調(diào)整期望值搜索結(jié)果過少情況去掉Entrez限制提高期望值使用更高PAM值或更低BLOSUM值的記分矩陣高級BLAST搜索,32,進一步深入Blast,1.blast22.Megablast3.Psi-blast4.PHI-blast5.其他(rpsblast,blastclust等),33,Blast2,兩個序列的blast比對,給定兩個序列,相互進行blast比對。能快速檢查兩個序列是否存在相似性片斷或者是否一致。這比起全序列比對要快很多。,34,Megablast,megablast采用了貪婪算法(greedyalgorithm),它連接了多個查詢序列進行一次搜索比對,這樣節(jié)省了很多搜索數(shù)據(jù)庫的時間。主要針對核酸序列。是blast經(jīng)過優(yōu)化后,適用于由于測序或者其他原因形成的輕微的差別的序列之間的比較,比一般的相似性搜索程序要快10倍,可以很快的完成兩組大數(shù)據(jù)的比對。,35,PSI-blast,PositionspecificiterativeBLAST(PSI-BLAST)位點特異的迭代blast搜索,主要針對蛋白序列。第一次blast搜索后,結(jié)果中最相似的序列重新構(gòu)建PSSM(位點特異性打分矩陣),然后再使用該矩陣進行第二輪blast搜索,再調(diào)整矩陣,搜索,如此迭代。最終高度保守的區(qū)域就會得到比較高的分值,而不保守的區(qū)域則分?jǐn)?shù)降低,趨近0。這樣可以提高blast搜索的靈敏度,有助于尋找遠源相關(guān)的蛋白。,36,PHI-BLAST,模式識別BLAST(PatternhitintiatedBLAST)PHI-BLAST能找到與查詢序列相似的符合某種模式(pattern)的蛋白質(zhì)序列,37,Blast的算法基礎(chǔ),基本思想是:通過產(chǎn)生
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 北京公司勞動勞動合同
- 自然語言處理驅(qū)動的精準(zhǔn)策略制定-洞察闡釋
- 2025年中國油漆辦公家具市場競爭格局及投資戰(zhàn)略規(guī)劃報告
- 2025年中國皮帶針扣行業(yè)市場發(fā)展前景及發(fā)展趨勢與投資戰(zhàn)略研究報告
- 2025年中國尼古丁水楊酸鹽行業(yè)市場發(fā)展前景及發(fā)展趨勢與投資戰(zhàn)略研究報告
- 2025年中國童帶行業(yè)市場發(fā)展前景及發(fā)展趨勢與投資戰(zhàn)略研究報告
- 2025年中國OA設(shè)備行業(yè)市場深度分析及發(fā)展前景預(yù)測報告
- 教冇心理學(xué)助力職場培訓(xùn)的新模式探索
- 【完整版】甲醇可行性研究報告-正文
- 中國晶體加工設(shè)備行業(yè)市場發(fā)展現(xiàn)狀及前景趨勢與投資分析研究報告(2024-2030)
- 高墩柱墩身施工方案
- 2023年甘肅蘭州大學(xué)網(wǎng)絡(luò)與繼續(xù)教育學(xué)院人員招聘2人高頻考點題庫(共500題含答案解析)模擬練習(xí)試卷
- 肝內(nèi)膽管結(jié)石詳解
- 發(fā)電機勵磁系統(tǒng)檢修與維護
- 2023-2024學(xué)年福建省泉州市小學(xué)語文六年級期末自測模擬試卷
- GB 29541-2013熱泵熱水機(器)能效限定值及能效等級
- 控規(guī)用地代碼
- 2023年上杭縣社區(qū)工作者招聘考試筆試題庫及答案解析
- 2021年曹楊二中自招數(shù)學(xué)試卷
- 新能源汽車底盤檢修全套課件
- 幼兒園大班數(shù)學(xué)口算練習(xí)題可打印
評論
0/150
提交評論