第二講 文獻(xiàn)、核酸序列、蛋白質(zhì)序列查詢_第1頁(yè)
第二講 文獻(xiàn)、核酸序列、蛋白質(zhì)序列查詢_第2頁(yè)
第二講 文獻(xiàn)、核酸序列、蛋白質(zhì)序列查詢_第3頁(yè)
第二講 文獻(xiàn)、核酸序列、蛋白質(zhì)序列查詢_第4頁(yè)
第二講 文獻(xiàn)、核酸序列、蛋白質(zhì)序列查詢_第5頁(yè)
已閱讀5頁(yè),還剩92頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第二講文獻(xiàn)、核酸序列、蛋白質(zhì)序列的搜索2014/9/13李永海副教授遺傳與基因工程教研室生命科學(xué)技術(shù)學(xué)院第一節(jié)文獻(xiàn)及核酸蛋白序列的搜索NIH?美國(guó)Department

of

Health

&

Human

Services

的下屬機(jī)構(gòu)?NIH=NationalInstitute

of

HealthNIH

Mark

O.

Hatfield

Clinical

Research

Center,

Bethesda,

Maryland,

USNIH?美國(guó)生物醫(yī)學(xué)界科研經(jīng)費(fèi)的主要來(lái)源之一–2013年預(yù)算為308.6億美元–2013年NSF(NationalScience

Foundation)預(yù)算為73.73億美元–2012年國(guó)家自然基金委預(yù)算為124.8億元–2012年科技部預(yù)算為286.78億元(包括行政支出)–(124.8+286.78)/6.2=66.38億美元0

NIH?27個(gè)下屬機(jī)構(gòu),1200個(gè)PI,4000多個(gè)博士后Career

levelYears

of

experienceStipendPostdoctoral1234567

or

more$39,264$41,364$44,340$46,092$47,820$49,884$51,582$54,180NCBI?世界上最大,最全,最常用,也是最完備的生物信息數(shù)據(jù)庫(kù)?世界上生物醫(yī)學(xué)的文獻(xiàn)集中營(yíng)?生物研究者最常用的網(wǎng)站利用NCBI進(jìn)行文獻(xiàn)查詢?Non‐redundant?大致按照時(shí)間排序?條件寬松?舉例:查詢有關(guān)Methanosarcinaacetivorans(乙酸甲烷八疊球菌)的論文????常用使用技巧多添加關(guān)鍵詞可以減少搜出的文獻(xiàn)數(shù)量作者+關(guān)鍵詞是一種好辦法作者的名字:Ferry

JG使用好Advanced?郵件通知可以將某一個(gè)領(lǐng)域的新論文每天都發(fā)給你ISIWebofKnowledge?ThomsoScientific公司開(kāi)發(fā)的信息檢索平臺(tái),通過(guò)這個(gè)平臺(tái)用戶可以檢索關(guān)于自然科學(xué)、社會(huì)科學(xué)、藝術(shù)與人文學(xué)科的文獻(xiàn)信息,包括國(guó)際期刊、免費(fèi)開(kāi)放資源、圖書(shū)、專利、會(huì)議錄、網(wǎng)絡(luò)資源等,可以同時(shí)對(duì)多個(gè)數(shù)據(jù)庫(kù)(包括專業(yè)數(shù)據(jù)庫(kù)和多學(xué)科綜合數(shù)據(jù)庫(kù))進(jìn)行單庫(kù)或跨庫(kù)檢索,可以使用分析工具,可以利用書(shū)目信息管理軟件。?提供了精確的,無(wú)冗余的文獻(xiàn)搜索服務(wù)?更重要的,Web

of

knowledge提供了引用分析?Web

of

knowledge具有無(wú)可辯駁的權(quán)威性SCI?SCI=Science

Citation

Index?JCR=Journal

Citation

Report–每年六月份發(fā)布上一年的影響因子結(jié)果?什么叫做引用–自引–他引?影響因子:近兩年的總引用數(shù)除以近兩年的

總論文數(shù)影響因子的問(wèn)題?領(lǐng)域之間不一致;?Open

access可以提高影響因子;?雜志的種類(review,綜合性等)影響很大;?編輯政策有很大影響;?以影響因子為綱很容易使得科研工作者急功近利.中科院分區(qū)?一區(qū):第一流雜志?二區(qū):主流雜志?三區(qū):灌水雜志?四區(qū):垃圾雜志h‐index?一個(gè)科研工作者的h-index意味著他發(fā)表過(guò)被引用h次以上的論文共h篇。?在物理學(xué)界–h=12:副教授–h=18:正教授–h=15‐20:美國(guó)物理學(xué)會(huì)的fellowship–h=45:美國(guó)院士ESI數(shù)據(jù)庫(kù)是一個(gè)衡量科學(xué)研究績(jī)效、跟蹤科學(xué)發(fā)展趨勢(shì)的基本分析評(píng)價(jià)工具,是基于ISI引文索引數(shù)據(jù)庫(kù)ScienceCitationIndex(簡(jiǎn)稱SCI)和SocialScienceCitationIndex(簡(jiǎn)稱SSCI)所收錄的全球8500多種學(xué)術(shù)期刊的900萬(wàn)多條文獻(xiàn)紀(jì)錄而建立的計(jì)量分析數(shù)據(jù)庫(kù)。ESI在農(nóng)學(xué)、生物學(xué)、化學(xué)等22個(gè)專業(yè)領(lǐng)域內(nèi)分別對(duì)國(guó)家、研究機(jī)構(gòu)、期刊、論文、科學(xué)家進(jìn)行統(tǒng)計(jì)分析和排序,幫助用戶了解在一定排名范圍內(nèi)的科學(xué)家、研究機(jī)構(gòu)(大學(xué))、國(guó)家(城市)和學(xué)術(shù)期刊在某一學(xué)科領(lǐng)域的發(fā)展和影響力。ESIESI?按照工作的重要性對(duì)人/單位/論文排名?重要性的主要評(píng)價(jià)標(biāo)準(zhǔn)是總引用次數(shù)和平均引用率?????Google

scholar不但可以搜索論文,而且可以搜索專利。絕無(wú)漏網(wǎng)之魚(yú);可以搜索全文;按照相關(guān)性排序;查找“最相關(guān)”論文的時(shí)候有用;?搜索很寬松;?不適合用來(lái)做“l(fā)iterature

survey”

新鄉(xiāng)醫(yī)學(xué)院圖書(shū)館資源學(xué)術(shù)搜索與全文遞送系統(tǒng)

Pubmed檢索平臺(tái)

Ovid-Medline醫(yī)學(xué)文獻(xiàn)庫(kù)

Ovid-LWW醫(yī)學(xué)期刊全文數(shù)據(jù)庫(kù)

SpringLINK全文數(shù)據(jù)庫(kù)

新鄉(xiāng)醫(yī)學(xué)院館藏外文期刊全文數(shù)據(jù)庫(kù)

外文博碩士論文服務(wù)系統(tǒng)(FDTS)

NSTL外文回溯期刊全文數(shù)據(jù)庫(kù)

NSTL國(guó)外網(wǎng)絡(luò)版期刊跨庫(kù)檢索平臺(tái)

CNPLINKER中圖在線

OpenAccessLibrary開(kāi)放存取資源ScienceDirect數(shù)據(jù)庫(kù)

DIALOG國(guó)際聯(lián)機(jī)檢索系統(tǒng)

中國(guó)科學(xué)文獻(xiàn)服務(wù)系統(tǒng)

萬(wàn)方數(shù)據(jù)知識(shí)服務(wù)平臺(tái)

萬(wàn)方醫(yī)學(xué)網(wǎng)中國(guó)期刊全文數(shù)據(jù)庫(kù)(本地)

中國(guó)知識(shí)資源總庫(kù)(本地)

中國(guó)專利全文數(shù)據(jù)庫(kù)

中文科技期刊數(shù)據(jù)庫(kù)

維普期刊資源整合服務(wù)平臺(tái)

中國(guó)生物醫(yī)學(xué)文獻(xiàn)服務(wù)系統(tǒng)

TIGR數(shù)據(jù)庫(kù)?TIGR數(shù)據(jù)庫(kù)是Craig

Venter

Institute建立并

維護(hù)的微生物數(shù)據(jù)庫(kù)。?TIGR數(shù)據(jù)庫(kù)比NCBI數(shù)據(jù)庫(kù)注釋更加精確,也

更加易于查詢相應(yīng)基因上下游的情況?三天兩頭罷工特定基因的上下游序列?利用各數(shù)據(jù)庫(kù)均可以查詢?各數(shù)據(jù)庫(kù)之間均可互相印證?舉例:Trichoderma

reesei

的tmk3基因的上

下游基因基因的預(yù)測(cè)?整體上來(lái)說(shuō),基因預(yù)測(cè)目前并不十分準(zhǔn)確?基因預(yù)測(cè)的必要性不大?可以利用GENSCAN來(lái)預(yù)測(cè)基因?/GENSCAN.html利用NCBI對(duì)蛋白質(zhì)的查詢?利用NCBI對(duì)蛋白質(zhì)的查詢和對(duì)基因的查詢類似?蛋白質(zhì)也有相似的Accession

No.和GI

number?注意蛋白質(zhì)和核酸的序列并不是一一對(duì)應(yīng)的。?FASTA格式通過(guò)NCBI鑒定蛋白質(zhì)的結(jié)構(gòu)域進(jìn)行序列相似性搜索:blast和FASTA第二節(jié)基于blast的序列搜索數(shù)據(jù)庫(kù)搜索的基礎(chǔ)是序列的相似性比對(duì)及雙序列對(duì)比。實(shí)際工作中我們經(jīng)常遇到的兩種情況開(kāi)始序列已知嗎?數(shù)據(jù)庫(kù)搜索Y數(shù)據(jù)庫(kù)檢索(SRS/Entrez)N數(shù)據(jù)庫(kù)中有與之相似的序列嗎?

數(shù)據(jù)庫(kù)查詢?yōu)樯飳W(xué)研究提供了一個(gè)重要工具,在實(shí)際工作中經(jīng)常使用。然而,在分子生物學(xué)研究中,對(duì)于新測(cè)定的堿基序列或由此翻譯得到的氨基酸序列,往往需要通過(guò)數(shù)據(jù)庫(kù)搜索,找出具有一定相似性的同源序列,以推測(cè)該未知序列可能屬于哪個(gè)基因家族,具有哪些生物學(xué)功能。對(duì)于氨基酸序列來(lái)說(shuō),有可能找到已知三維結(jié)構(gòu)的同源蛋白質(zhì)而推測(cè)其可能的空間結(jié)構(gòu)。因此,數(shù)據(jù)庫(kù)搜索與數(shù)據(jù)庫(kù)查詢一樣,是生物信息學(xué)研究中的一個(gè)重要工具。數(shù)據(jù)庫(kù)搜索的基礎(chǔ)是序列的相似性比對(duì),即雙序列比對(duì)(pairwisealignment)。新測(cè)定的、希望通過(guò)數(shù)據(jù)庫(kù)搜索確定其性質(zhì)或功能的序列稱作檢測(cè)序列(probesequence);通過(guò)數(shù)據(jù)庫(kù)搜索得到的和檢測(cè)序列具有一定相似性的序列稱目標(biāo)序列(subjectsequence)。為了確定檢測(cè)序列和一個(gè)已知基因家族之間的進(jìn)化關(guān)系,在通過(guò)數(shù)據(jù)庫(kù)搜索得到某些相似序列后,還需要判斷其序列相似性程度。如果檢測(cè)序列和目標(biāo)序列的相似性程度很低,還必須通過(guò)其它方法或?qū)嶒?yàn)手段才能確定其是否屬于同一基因家族。對(duì)統(tǒng)計(jì)學(xué)意義的評(píng)價(jià)--E值(E-Value)P值(P-Value)(概率值)

BLAST程序中使用了E值而非P值,這主要是從直觀和便于理解的角度考慮。比如E值等于5和10,總比P值等于0.993和0.99995更直觀。但是當(dāng)E<0.01時(shí),P值與E值接近相同。E值就是S值可靠性的評(píng)價(jià)。它表明在隨機(jī)的情況下,其它序列與目標(biāo)序列相似度要大于這條顯示的序列的可能性。所以它的分值越低越好。表6數(shù)據(jù)庫(kù)相似性搜索程序BLAST和FASTA程序清單注:n:核酸序列或核酸序列庫(kù);p:蛋白質(zhì)序列或蛋白質(zhì)序列庫(kù)

FastA和BLAST程序是目前最常用的基于局部相似性的數(shù)據(jù)庫(kù)搜索程序,它們都基于查找完全匹配的短小序列片段,并將它們延伸得到較長(zhǎng)的相似性匹配。它們的優(yōu)勢(shì)在于可以在普通的計(jì)算機(jī)系統(tǒng)上運(yùn)行,而不必依賴計(jì)算機(jī)硬件系統(tǒng)而解決運(yùn)行速度問(wèn)題。

BLAST是目前常用的數(shù)據(jù)庫(kù)搜索程序,它是BasicLocalAlignmentSearchTool的縮寫(xiě),意為“基本局部相似性比對(duì)搜索工具”[Altschul,1990,1997]。國(guó)際著名生物信息中心都提供基于Web的BLAST服務(wù)器。BLAST程序之所以使用廣泛,主要因?yàn)槠溥\(yùn)行速度比FastA等其它數(shù)據(jù)庫(kù)搜索程序快,而改進(jìn)后的BLAST程序允許空位的插入??梢栽L問(wèn)NCBI的網(wǎng)站在線進(jìn)行BLAST和FastA的搜索表7BLAST程序檢測(cè)序列和數(shù)據(jù)庫(kù)類型程序名檢測(cè)序列數(shù)據(jù)庫(kù)類型方法Blastp蛋白質(zhì)蛋白質(zhì)用檢測(cè)序列蛋白質(zhì)搜索蛋白質(zhì)序列數(shù)據(jù)庫(kù)Blastn核酸核酸用檢測(cè)序列核酸搜索核酸序列數(shù)據(jù)庫(kù)Blastx核酸蛋白質(zhì)將核酸序列按6條鏈翻譯成蛋白質(zhì)序列后搜索蛋白質(zhì)序列數(shù)據(jù)庫(kù)Tblastn蛋白質(zhì)核酸用檢測(cè)序列蛋白質(zhì)搜索由核酸序列數(shù)據(jù)庫(kù)按6條鏈翻譯成的蛋白質(zhì)序列數(shù)據(jù)庫(kù)Tblastx核酸核酸將核酸序列按6條鏈翻譯成蛋白質(zhì)序列后搜索由核酸序列數(shù)據(jù)庫(kù)按6條鏈翻譯成的蛋白質(zhì)序列數(shù)據(jù)庫(kù)

BLAST程序是免費(fèi)軟件,可以從美國(guó)國(guó)家生物技術(shù)信息中心NCBI等文件下載服務(wù)器上獲得,安裝在本地計(jì)算機(jī)上,包括UNIX系統(tǒng)和WINDOWS系統(tǒng)的各種版本。但必須有BLAST格式的數(shù)據(jù)庫(kù),可以從NCBI下載,也可以利用該系統(tǒng)提供的格式轉(zhuǎn)換工具由其它格式的核酸或蛋白質(zhì)序列數(shù)據(jù)庫(kù)經(jīng)轉(zhuǎn)換后得到。對(duì)核酸序列數(shù)據(jù)庫(kù)而言,不論用哪種方式,都需要很大的磁盤(pán)空間;而程序運(yùn)行時(shí),需要有較大的內(nèi)存和較快的運(yùn)算速度,因此必須使用高性能的服務(wù)器。

歐洲生物信息研究所BLAST服務(wù)器的用戶界面(圖4)比較簡(jiǎn)潔,提供的數(shù)據(jù)庫(kù)和參數(shù)很多,用戶可以根據(jù)不同要求,選擇不同的數(shù)據(jù)庫(kù)和各種參數(shù)。一般情況下,可以先按照系統(tǒng)給定的缺省參數(shù)進(jìn)行初步搜索,對(duì)結(jié)果進(jìn)行分析后再適當(dāng)調(diào)整參數(shù),如改變相似性矩陣、增加或減少空位罰分值、調(diào)節(jié)檢測(cè)序列滑動(dòng)窗口大小等。對(duì)于核酸序列數(shù)據(jù)庫(kù),一般選擇重復(fù)序列屏蔽功能,而對(duì)于蛋白質(zhì)序列,特別是球蛋白,通常不必選擇重復(fù)序列屏蔽功能。圖4歐洲生物信息學(xué)研究所的BLAST服務(wù)器的用戶界面BLAST結(jié)果的評(píng)價(jià)比對(duì)好壞的評(píng)價(jià):Bit分值;考慮了比對(duì)中相同和相似基團(tuán)、gap、替代矩陣,并經(jīng)過(guò)標(biāo)化;

Bit分值越高,比對(duì)越好;比對(duì)統(tǒng)計(jì)學(xué)意義的評(píng)價(jià):E值(E-value)

E值越低,則比對(duì)就更有可能具有顯著性;其他:比對(duì)的長(zhǎng)度也是一個(gè)關(guān)鍵因素。BLAST程序的選擇蛋白:BLASTP-tBLASTN核酸:blastn-blastx-tblastx數(shù)據(jù)庫(kù)的選擇:nr最為常用;month跟蹤每個(gè)月新增數(shù)據(jù);Swissprot蛋白庫(kù)注釋詳盡。比對(duì)結(jié)果是否有意義的判定統(tǒng)計(jì)學(xué)顯著性;一致性:蛋白序列>25%,核酸序列>70%(參考);長(zhǎng)度。BasicLocalAlignmentSearchTool,BLAST

(基本的局部比對(duì)搜索工具)UsingNCBI-BLAST1.ChoosingtheBLASTProgram2.EnteringtheQuerySequenceTherearethreeoptionsforthis:pasteinthebaresequence,pasteinafileinFASTAformat,orenteravalidNCBIidentifier.>gi|11611818|gb|AF287139.1|AF287139LatimeriachalumnaeHoxa-11gene,partialcdsTACTTGCCAAGTTGCACCTACTACGTTTCGGGTCCCGATTTCTCCAGCCTCCCTTCTTTTTTGCCCCAGACCCCGTCTTCTCGCCCCATGACATACTCCTATTCGTCTAATCTACCCCAAGTTCAACCTGTGAGAGAAGTTACCTTCAGGGACTATGCCATTGATACATCCAATAAATGGCATCCCAGAAGCAATTTACCCCATTGCTACTCAACAGAGGAGATTCTGCACAGGGACTGCCTAGCAACCACCACCGCTTCAAGCATAGGAGAAATCTTTGGGAAAGGCAACGCTAACGTCTACCATCCTGGCTCCAGCACCTCTTCTAATTTCTATAACACAGTGGGTAGAAACGGGGTCCTACCGCAAGCCTTTGACCAGTTTTTCGAGACGGCTTATGGCACAACAGAAAACCACTCTTCTGACTACTCTGCAGACAAGAATTCCGACAAAATACCTTCGGCAGCAACTTCAAGGTCGGAGACTTGCAGGGAGACAGACGAGAAGGAGAGACGGGAAGAAAGCAGTAGCCCAGAGTCTTCTTCCGGCAACAATGAGGAGAAATCAAGCAGTTCCAGTGGTCAACGTACAAGGAAGAAGAGGTGC

3.ChoosingtheDatabasetoSearchDatabases:Proteindatabases(1)nonredundant(非冗余數(shù)據(jù)庫(kù))Theproteindatabaseisconstructedfrom:-SwissProt,-SwissProtupdates,-SwissProtsplicevariants,-TrEMBL,-TrEMBLupdates,-TrEMBLsplicevariants,-Genpept,-Genpeptupdates,-andasmallsubsectionofPIRcontainingsequencesnotintheotherdatabases(usuallyforgoodreasons).Updatedweekly,usuallyonweekends.Databases:Proteindatabases(2)SwissProt

ThemostrecentfullreleaseofSwissProt.Doesincludeweeklyupdatesandsplicevariants.SwissProt/TrEMBL/TrEMBL_NEW

AcombinationofSwissProtandTrEMBL(includingupdatesandsplicevariantsbutnotREM-TrEMBL).ThisdatabasecontainsallconsolidatedproteinsandORFs(updatedweekly).TrEMBL/TrEMBL_NEW

Sameasabove,butwithoutSwissProt.Databases:Proteindatabases(3)GenPept(由GenBank編碼序列自動(dòng)翻譯而成的數(shù)據(jù)庫(kù))

ThemostrecentreleaseofGenPeptfile.Doesnotincludeupdates(updatedweekly).GenPeptupdates

ThemostrecentGenPeptupdatefile.Usefulforlimitingthesearchtonewsequences(updatedweekly).Databases:Proteindatabases(4)Worm(C.elegans)TheproteindatabasecontainsallannotatedC.elegansORFs(updatedoccasionally).Yeast(S.cerevisiae)TheproteindatabasecontainsallannotatedyeastORFs(updatedoccasionally).Non-redundant3DstructureAnon-redundantdatabaseofallthesequencesfoundinPDB(updatedoccasionally).Allmicrobialgenomes

Acollectionofallavailablemicrobial(archaeandeubacteria)genomesfromtheHAMAPproject(updatedweekly).Databases:DNAdatabases(1)EMBLisnowprovidedinthedifferentsubdivisions(Updatedweekly,usuallyonweekends.):Bacteriophage(phg)Fungi(fun)GSS(gss)STS(sts)HTG(htg)Human(hum)Invertebrate(inv)Organelles(org)OtherMammals(mam)OtherVertegrates(vrt)Patents(patent)Plants(pln)Prokaryotes(pro)Rodents(rod)Synthetic(syn)Other(unclassified)(unc)Viruses(vrl)YoucanselectthemostrecentfullreleaseoftheEMBLdatabasesorthecumulativeweeklyupdates(updatedweekly).

DoesnotcontaintheESTsections.Databases:DNAdatabases(2)dbESTisnowprovidedinsubdivisions(updatedweekly):Human(est_hum)Mouse(est_mus)Rat(est_rat)Rodent(est_rod)Cow(est_cow)Plants(est_pln)OtherMammals(est_mam)Zebrafish(est_dan)OtherVertebrates(est_vrt)Arabidopsis(est_ara)Drosophila(est_dro)Invertebrates(est_inv)Fungi(est_fun)Prokaryotes(est_pro)4.ChoosingtheParametersofthe

Search/Blast.cgi?PROGRAM=blastn&BLAST_PROGRAMS=megaBlast&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome5.SubmittingtheSearch6.ViewingtheResults7.ChoosingtheFormatHeaderofaBLASTreportThebody:graphicaloverviewThebody:one-linedescriptionsThebody:al

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論