版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、蛋白質(zhì)組學(xué)的數(shù)據(jù)分析1復(fù)習(xí)蛋白質(zhì)組的定義,蛋白質(zhì)組學(xué)和基因組學(xué)的區(qū)別?由一個(gè)基因組,或一個(gè)細(xì)胞、組織表達(dá)的所有蛋白質(zhì)。蛋白質(zhì)組的概念與基因組的概念有許多差別,它隨著組織、甚至環(huán)境狀態(tài)的不同而改變。 在轉(zhuǎn)錄時(shí),一個(gè)基因可以多種mRNA形式剪接,一個(gè)蛋白質(zhì)組不是一個(gè)基因組的直接產(chǎn)物,蛋白質(zhì)組中蛋白質(zhì)的數(shù)目有時(shí)可以超過(guò)基因組的數(shù)目。2Key advantage of proteomics Researchers work on the level of gene products and deal with genes that are really expressed to give a dete
2、ctable PRODUCT and are not just expressed“ which only says they produce a detectable mRNA but it is not clear whether there is a gene product or not.Key limitation of proteomicsUsually, only a fraction of the proteins synthesized can be detected in a proteomics experiment, whereas the expression of
3、ALL genes can be monitored in a whole-genome array experiment.Key prerequisite of proteomicsA genome sequence for the investigated organism or at least a collection of many cDNA sequences is required.From Yogita Mantri & Arvind Gopus presentation in 2003 3蛋白質(zhì)組學(xué)研究的目標(biāo)蛋白質(zhì)鑒定蛋白質(zhì)特性-如翻譯后修飾蛋白質(zhì)定量-相對(duì)定量、絕對(duì)定量樣品
4、間比較定性-不同樣品間含有的蛋白類型的差異定量-不同樣品間含有的蛋白濃度/含量的差異翻譯后修飾-不同樣品間是否存在不同的翻譯后修飾形式蛋白質(zhì)功能4把單個(gè)蛋白/多肽從復(fù)雜樣品中分離出來(lái)非常困難,在“組學(xué)”實(shí)驗(yàn)中一般達(dá)不到這個(gè)效果56Ionization methodsElectrospray mass spectrometry (ESI-MS)Liquid containing analyte is forced through a steel capillary at high voltage to electrostatically disperse analyte. Charge impa
5、rted from rapidly evaporating liquid. Matrix-assisted laser desorption ionization (MALDI)Analyte (protein) is mixed with large excess of matrix (small organic molecule)Irradiated with short pulse of laser light. Wavelength of laser is the same as absorbance max of matrix.78MALDI m/z spectrum of a pe
6、ptide mixture9The QuadrupoleThe quadrupole consists of four parallel metal rods. Ions travel down the quadropole in between the rods. Only ions of a certain m/q will reach the detector for a given ratio of voltages: other ions have unstable trajectories and will collide with the rods.This allows sel
7、ection of a particular ion, or scanning by varying the voltages. sourcedetectorVoltageFilters out all m/z values except the ones it is set to passObtains a mass spectrum by sweeping across the entire mass range1011Collects and store ions in order to perform MS-MS analyses on them.Ion Trap Mass Analy
8、zerTrapped ionsIons inIons outThe trap consists of a top and a bottom electrode and a ring electrode around the middle.Ions are ejected on the basis of their m/z values.To monitor the ions coming from the source, the trap continuoulsy repeats a cylcle of filling the trap with ions and scanning the i
9、ons according to their m/z values.Separates the mass analysis and ion isolation events in time (using a single mass analyzer)Ionizationion transfer/trappingparent ion isolation/ fragmentationdaughter ion detection12A mass analyzer for determining the mass-to-charge ratio (m/z) of ions based on the c
10、yclotron frequency of the ions in a fixed magnetic field.All ions are detected simultaneously over some given period of timeIons are injected into a magnetic field , that causes them to travel in circular paths. Excitation with oscillating electrical field increases the radius and enables a frequenc
11、y measurement Fourier Transform MS Fourier transform ion cyclotron resonance mass spectrometry, FTICMSICR can be used with different ionization methods, ESI, MALDIA short sweep of frequencies is used to excite all ions.The complex spectrum of intensity/time is analyzed with Fourier Transform to extr
12、act the m/z componetsHigh resolutionHigh accuracyVery sensitive (the minimal quantity for detection is in order of several hundered ionsNon destructive the ions dont hit the detection plate so they can be selected for further fragmentation13Orbitrap靜電軌道阱質(zhì)譜傅里葉變換原理 Mass Spectrometry Reviews,Volume 27,
13、 Issue 614蛋白質(zhì)組學(xué)研究的目標(biāo)蛋白質(zhì)鑒定Top-down策略(質(zhì)量紋方法,MS譜圖)Bottom-up策略(de novo測(cè)序和數(shù)據(jù)庫(kù)檢索,MS/MS譜圖)蛋白質(zhì)修飾蛋白質(zhì)定量-相對(duì)定量、絕對(duì)定量樣品間比較蛋白質(zhì)功能15Top-down proteomics16一級(jí)質(zhì)譜圖指紋數(shù)據(jù)庫(kù)17多肽質(zhì)量紋鑒定多肽質(zhì)量紋(Peptide Mass Fingerprinting,PMF)是從一級(jí)質(zhì)譜(MS)中鑒定多肽的主要方法。多肽質(zhì)量紋一般都用于分析2DE-MS的結(jié)果,不適宜分析多個(gè)蛋白質(zhì)的混合物。18多肽質(zhì)量紋鑒定蛋白質(zhì)經(jīng)過(guò)酶解后,送入質(zhì)譜儀,得到一級(jí)質(zhì)譜,即多肽離子的m/z。從一級(jí)質(zhì)譜鑒定蛋
14、白質(zhì)的算法主要用在MALDI-TOF產(chǎn)生的質(zhì)譜圖上。目前來(lái)說(shuō),由MALDI-TOF質(zhì)譜儀產(chǎn)生的質(zhì)譜圖精度較高。另一個(gè)問(wèn)題是,ESI產(chǎn)生的質(zhì)譜圖中的離子通常帶有很多電荷,而MALDI質(zhì)譜圖中的離子一般只帶一個(gè)電荷,比較容易計(jì)算。19蛋白序列數(shù)據(jù)庫(kù)質(zhì)量紋算法的核心是將實(shí)驗(yàn)獲得的蛋白指紋與數(shù)據(jù)庫(kù)中的蛋白指紋進(jìn)行匹配,為此,必須首先找到一個(gè)合適的蛋白質(zhì)序列數(shù)據(jù)庫(kù)在網(wǎng)上可以查詢到最新的蛋白序列數(shù)據(jù)庫(kù),如NCBI,UniProt, SwissProt等等下載FASTA格式20Protein sequence database21Uniprot(包含Swissprot和Tremble)22Integr823
15、FASTA格式的數(shù)據(jù)庫(kù)FASTA格式包含蛋白的名稱和氨基酸序列。24虛擬酶解有了蛋白序列的信息,我們就可以進(jìn)行鑒定。對(duì)應(yīng)于送進(jìn)質(zhì)譜儀的樣品,首先找到數(shù)據(jù)庫(kù)里的序列的酶切位點(diǎn)。25質(zhì)量排列這樣可以產(chǎn)生一系列的多肽,我們可以計(jì)算每個(gè)多肽的分子量。最后一個(gè)R的質(zhì)量多加了18,這是因?yàn)槲覀儗懺谙旅娴氖菤埢姆肿恿俊?6肽和肽鍵27質(zhì)量排列把所有多肽的分子量排序。28質(zhì)量紋如此,質(zhì)譜圖上的質(zhì)量就可以與多肽上的質(zhì)量相匹配。29質(zhì)量紋這就是多肽質(zhì)量紋(PMF)的最基礎(chǔ)的思路。質(zhì)量紋算法成立的基礎(chǔ),在于酶切的特異性以及多肽離子質(zhì)量的精確測(cè)定問(wèn)題?30PMF中的問(wèn)題第一個(gè)問(wèn)題:質(zhì)量相近的多肽怎么處理?在現(xiàn)實(shí)的蛋
16、白數(shù)據(jù)庫(kù)中,多肽的數(shù)量是很龐大的。這里面難保不會(huì)有質(zhì)量非常相近的多肽。這樣,就造成了質(zhì)譜圖上的一個(gè)峰可能匹配不止一個(gè)多肽,于是我們就難以知曉這張質(zhì)譜圖究竟代表哪個(gè)蛋白。31質(zhì)量相近的多肽多肽M+H+DGAPLESSSR1019.0490REGESTPSR1019.0520DFPIANGER1019.0940DPLASSSWR1019.0940YVPLKDQR1019.1800HLQLPAPSR1019.1830VLFLNGIDK1019.2200Peak m/z: 1019.0832解決方案第一個(gè)解決的辦法是限制用來(lái)搜索的數(shù)據(jù)庫(kù)。比如,你如果做的試驗(yàn)用的是小鼠的組織,那么你可以只在小鼠的數(shù)據(jù)庫(kù)
17、中搜索,這樣就可以減低出現(xiàn)這種情況的可能性。第二個(gè)解決的辦法是要求必須有多個(gè)多肽和數(shù)據(jù)庫(kù)相匹配,才做出最后的蛋白質(zhì)鑒定。33多匹配DFPIANGER 1019.09EPISVSSQQMLK 1347.56VLDALDSIK 974.13Carbonic anhydrase II SHHWGYGKHBGPZHWHKDFPIANGERQSPVNIDTKAVVQDPALKPLALVYGEATSRRMVNNGHSFNVEYDDSQDKAVLKDGPLTGTYRLVQFHFHWGSSBBQGSEHTVDRKKYAAELHLVHWNTKYGDFGTAAQQPDGLAVVGVFLKVGDANPALQKVLD
18、ALDSIKTKGKSTDFPNFDPGSLLPNVLDYWTYPGSLTTPPLLESVTWIVLKEPISVSSQQMLKFRTLNFNAEGEPELLMLANWRPAQPLKNRQVRGFPK多匹配可以大大降低隨機(jī)匹配的概率,從而增加結(jié)果的可信度34長(zhǎng)蛋白和短蛋白第二個(gè)問(wèn)題:長(zhǎng)蛋白可能會(huì)更容易的被匹配。因?yàn)殚L(zhǎng)蛋白里的多肽數(shù)目較多,以概率來(lái)算,匹配上的幾率也會(huì)比較大。質(zhì)量紋算法必須考慮這個(gè)問(wèn)題,給短蛋白一定的補(bǔ)償。35多個(gè)蛋白的情況第三個(gè)問(wèn)題就是在一張質(zhì)譜圖中可能有多個(gè)蛋白存在。通常,MALDI-TOF是與雙向電泳連接使用。雙向電泳的一個(gè)電泳點(diǎn)上可能有2-3個(gè)蛋白,這樣就增加了鑒定的難度。
19、由于無(wú)法預(yù)知一個(gè)電泳點(diǎn)上有多少蛋白質(zhì),PMF的效果可能會(huì)受到很大的影響。36多肽質(zhì)量紋:小結(jié)質(zhì)量紋算法是用一級(jí)質(zhì)譜鑒定蛋白質(zhì)的經(jīng)典方法。質(zhì)量紋算法的效果受到很多方面的限制,首先是儀器精度的限制,其次是樣品中可能有多個(gè)蛋白的限制。這使得質(zhì)量紋算法不是理想的分析復(fù)雜混合物中蛋白成分的方法。37蛋白質(zhì)組學(xué)研究的目標(biāo)蛋白質(zhì)鑒定Top-down策略(質(zhì)量紋方法,MS譜圖)Bottom-up策略(de novo測(cè)序和數(shù)據(jù)庫(kù)檢索,MS/MS譜圖)蛋白質(zhì)修飾蛋白質(zhì)定量-相對(duì)定量、絕對(duì)定量樣品間比較蛋白質(zhì)功能38利用二級(jí)質(zhì)譜圖我們剛才談到了,多肽質(zhì)量紋有其先天的不足。其中,最糟糕的是它不能處理多個(gè)蛋白的混合物。
20、如果我們能夠處理混合物,就可以減少很多用于純化上的時(shí)間和精力。那么,怎么才能從混合物中鑒定蛋白呢?這就要用到二級(jí)質(zhì)譜。39From Nesvizhskiis lecture at ISB40Mol Cell Proteomics. 2011 Nov;10(11):R111.009522.41From Jimmy Engs lecture at ISB 42利用二級(jí)質(zhì)譜圖在一級(jí)質(zhì)譜圖中,選擇其中的一個(gè)峰(母離子),再把這個(gè)離子打碎(CID,ECD),檢測(cè)碎片離子的m/z,就得到一張二級(jí)質(zhì)譜圖。這里的假設(shè)是一級(jí)質(zhì)譜中的一個(gè)峰就對(duì)應(yīng)了一個(gè)多肽。對(duì)于一張一級(jí)質(zhì)譜圖,可以選擇多個(gè)峰進(jìn)行二級(jí)質(zhì)譜的操作。這
21、樣就可以適應(yīng)樣品里有多個(gè)蛋白的情況。43典型二級(jí)質(zhì)譜圖44轉(zhuǎn)換成MGF文件譜圖名稱母離子電荷多肽質(zhì)量左列:子離子m/z右列:子離子峰強(qiáng)度45母離子的碎裂過(guò)程CID,即Collision-induced Dissociation,是通過(guò)撞擊使得多肽的肽鍵斷裂的過(guò)程。在做二級(jí)質(zhì)譜的試驗(yàn)時(shí),質(zhì)譜儀選擇一級(jí)質(zhì)譜中的一個(gè)峰,也就是對(duì)應(yīng)質(zhì)荷比的這些離子,讓這些離子高速撞擊質(zhì)譜儀中的惰性氣體,使其肽鍵斷裂,這就是CID?,F(xiàn)在逐漸被HCD (High-energy C-trap Dissociation)所取代。HCD的碎裂規(guī)律與CID相似,但碎裂的能量更高。46From Jimmy Engs lecture
22、 at ISB a,b,y系列離子最常見(jiàn)47b1b2b3y1y2y3LFGKRelative Intensitym/zFLGK+FLGK+FLGK+CIDFLGK+FLGK+FLGK+b1b2b3y3y2y1FLGK+FLGK+Theoretical CID of a Tryptic PeptideKGLFMS/MSSpectrumParentions(464.29)Daughter ionsNon-dissociatedParent ions48如何計(jì)算子離子的m/z當(dāng)子離子電荷為z時(shí),b離子=(氨基酸殘基分子量+H*z)/zY離子=(氨基酸殘基+H2O+H*z)/zbi+yn-i=多肽分子
23、量(M)+2*z*H49小練習(xí)給定多肽序列FDTK,畫出其理論二級(jí)質(zhì)譜圖,包括+1電荷的b/y離子和+1電荷的母離子,假設(shè)所有離子的強(qiáng)度相等氨基酸殘基的分子量為F 147, D 115, T 101,K 12850答案M+H=510148263364147248363Relative Intensitym/z51051一些常見(jiàn)的其它離子Neutral loss: 某些酸性氨基酸可能會(huì)在CID中丟失一個(gè)水分子(H2O),而堿性氨基酸會(huì)在CID中丟失一個(gè)氨分子(NH3)。148263364147248363Relative Intensitym/z508FDTK,D是酸性氨基酸,有可能b2,b3,
24、y3發(fā)生中性丟失,假設(shè)是b3其它氨基酸也可能發(fā)生中性丟失34652Immonium ions: 氨基酸在CID過(guò)程中可能產(chǎn)生形如H2N=CHR+的Immonium ions(亞胺離子)。根據(jù)immonium ions可以判斷哪些氨基酸在多肽中存在。53From Jimmy Engs lecture at ISB a,b,y系列離子最常見(jiàn)54Neutral Loss和Immonium Ions表Amino AcidNeutral LossImmonium IonsA44G30S1860P70V72T1874C3476L/I86N1787D1888Q17101K17101E18102M48104H
25、110F120R17129Y136W159Amino AcidNeutral LossImmonium Ions55148263364147248363Relative Intensitym/z508FDTK,假設(shè)產(chǎn)生了T的亞胺離子3467456多肽的修飾有時(shí),二級(jí)質(zhì)譜中需要考慮某些氨基酸可能被修飾(磷酸化、糖基化等),這些修飾可能改變殘基的分子量。質(zhì)譜儀并不能直接鑒定修飾基團(tuán),只能檢測(cè)到氨基酸殘基分子量的變化,再與已知的修飾相對(duì)照57Unimod58小練習(xí)2給定多肽序列FDTK,畫出其理論二級(jí)質(zhì)譜圖,包括+1電荷的b/y離子和+1電荷的母離子,假設(shè)所有離子的強(qiáng)度相等,其中氨基酸殘基T上有磷酸
26、化修飾(質(zhì)量加80)。氨基酸殘基的分子量為F 147, D 115, T 101,K 12859答案M+H=510+8060其它可能的離子a離子,CID和HCD譜圖中也很常見(jiàn) a ion=b ion-CO 中間片段 (internal fragments), 多肽骨架同時(shí)進(jìn)行了b和y類型的碎裂的產(chǎn)物,最多可達(dá)5個(gè)氨基酸殘基側(cè)鏈碎裂產(chǎn)物,可用來(lái)區(qū)分亮氨酸和異亮氨酸另外,子離子可能帶不只一個(gè)電荷,如母離子為+3電荷,子離子有可能為+1,+2,+3電61理論質(zhì)譜圖與實(shí)驗(yàn)質(zhì)譜圖實(shí)驗(yàn)譜圖遠(yuǎn)遠(yuǎn)比理論質(zhì)譜圖復(fù)雜,給多肽鑒定帶來(lái)了很大的難度。即使是b/y離子,也不一定能全部被檢測(cè)到(y離子更容易被鑒定)存在噪
27、聲峰和質(zhì)量誤差罕見(jiàn)、未知的碎裂離子類型,很難被識(shí)別62通過(guò)de novo方法手工鑒定以下二級(jí)質(zhì)譜圖代表的多肽序列M+2H = 1295.0 Da質(zhì)量誤差0.5Da63九步鑒定法1。尋找immonium ions。2。尋找b2 ion。3。尋找y1 ion。記住bn+yn-1=多肽分子量(M)+2H4。尋找yn-1 ion。先找y,后找b5。順著yn-1, yn-2, 的順序繼續(xù)尋找y系列的離子。6。順著b2, b3, 的順序繼續(xù)尋找b系列的離子。64九步鑒定法7。計(jì)算多肽的分子量。8。檢查鑒定的結(jié)果。9。試著解釋更多的峰。65氨基酸質(zhì)量速查表注意我們給出的是殘基的分子量CodeResidue
28、MassG57A71S87P97V99T101C103L/I113N114D115K/Q128E129M131H137F147R156Y163W186CodeResidue Mass66b2離子的m/z表GASPVTCL/INDQ/KEMHFRYWG115A129143S145159175P155169185195V157171187197199T159173189199201203C161175191201203205207L/I171185201211213215217227N172186202212214216218228229D17318720321321521721922923023
29、1QK186200216226228230232242243244257E187201217227229231233243244245258259M189203219229231233235245246247260261263H195209225235237239241251252253266267269275F205219235245247249251260262263276277279285295R214228244254256258260270271272285286288294304313Y221235251261263265267277278279292293295301311320
30、324W24425827428428628829030030130231531631832433434334737367手工鑒定二級(jí)質(zhì)譜圖1。尋找Immonium ions:沒(méi)有找到。2。尋找b2 ion:261.8。由于有234.0的a2 ion和1033.3的yn-2 ion,故肯定b2 ion為261.8。3。尋找y1 ion:由于已知多肽是由胰酶(Trypsin)酶解,故而C末端只能是K或R,所以雖然找不到y(tǒng)1 ion,但是可以在1148.8處找到對(duì)應(yīng)于K的bn-1 ion。CID68鑒定4。尋找yn-1 ion:已經(jīng)找到了。5。繼續(xù)尋找y系列的離子:從1033開(kāi)始,可以分別找到934
31、,748,633,532和461作為y系列的離子,把它們寫出來(lái):69鑒定6。繼續(xù)尋找b系列的離子:從834.9開(kāi)始,似乎只有1019.7一個(gè)離子沒(méi)有鑒定了,它與1148.8之間形成一個(gè)氨基酸E,但與834.9之間相差185Da??梢酝ㄟ^(guò)b2離子的m/z表查到對(duì)應(yīng)的氨基酸序列:有AN, NA, QG, GQ四種序列都滿足185Da的條件(這樣用的時(shí)候注意要減1)。70鑒定7。計(jì)算多肽的分子量:經(jīng)計(jì)算,多肽的分子量約為1294.6Da,接近測(cè)得的分子量1295.0Da。8。檢查鑒定的結(jié)果:由于沒(méi)有觀測(cè)到immonium ions,我們暫時(shí)沒(méi)有輔助信息來(lái)幫助我們檢查這一鑒定結(jié)果。9。試著解釋更多的峰
32、:發(fā)現(xiàn)817位置的峰是834位置的峰的neutral loss。71De novo Sequencing這種僅通過(guò)二級(jí)質(zhì)譜圖來(lái)鑒定多肽的方法又稱為De novo Sequencing??梢杂糜?jì)算機(jī)程序使得鑒定問(wèn)題自動(dòng)化,計(jì)算機(jī)程序的鑒定流程與上面的九步鑒定法略有區(qū)別。當(dāng)我們擁有近乎完美的二級(jí)質(zhì)譜圖時(shí),我們可以采用這種De novo Sequencing的辦法。但是,實(shí)際情況中,我們并沒(méi)有完美的二級(jí)質(zhì)譜圖。我們已經(jīng)從例子中看到,單從質(zhì)譜圖不一定能得到全序列。72鑒定多肽的流程多肽混合物酶解分離質(zhì)譜儀一級(jí)質(zhì)譜質(zhì)量紋選擇高峰鑒定多肽質(zhì)譜儀二級(jí)質(zhì)譜手工鑒定數(shù)據(jù)庫(kù)搜索鑒定多肽73二級(jí)質(zhì)譜圖的數(shù)據(jù)庫(kù)檢索算
33、法實(shí)際情況中,單從質(zhì)譜圖不一定能得到全序列。 但是,幸運(yùn)的是,我們還有蛋白序列數(shù)據(jù)庫(kù)。所以我們可以從數(shù)據(jù)庫(kù)里搜索最好的匹配質(zhì)譜圖的多肽,這樣就有了二級(jí)質(zhì)譜的數(shù)據(jù)庫(kù)搜索算法。74數(shù)據(jù)庫(kù)搜索的思路數(shù)據(jù)庫(kù)搜索的基礎(chǔ)很簡(jiǎn)單,就是理論質(zhì)譜圖和實(shí)驗(yàn)質(zhì)譜圖之間的一個(gè)比對(duì)。數(shù)據(jù)庫(kù)檢索的思路與指紋圖譜方法相似,在這里,每個(gè)多肽的“指紋”就是它們通過(guò)CID等裂解過(guò)程得到的特征子離子列表。75數(shù)據(jù)庫(kù)搜索的流程在一個(gè)蛋白序列數(shù)據(jù)庫(kù)中,可以找出來(lái)的,落在質(zhì)譜儀檢測(cè)范圍以內(nèi)的多肽,多達(dá)數(shù)百至數(shù)千萬(wàn),如果每個(gè)多肽都拿來(lái)和實(shí)驗(yàn)質(zhì)譜圖做比對(duì)的話,需要花費(fèi)的時(shí)間是難以接受的。提高搜索速度的關(guān)鍵就是減少搜索的對(duì)象數(shù)。76數(shù)據(jù)庫(kù)搜索
34、的流程所以,基本上,所有的數(shù)據(jù)庫(kù)搜索算法都包括兩個(gè)步驟。第一個(gè)步驟是篩選數(shù)據(jù)庫(kù)里的多肽,根據(jù)其分子量找出所有有可能與質(zhì)譜圖匹配的多肽。第二個(gè)步驟就是拿這些選出來(lái)的多肽去和質(zhì)譜圖進(jìn)行比對(duì),進(jìn)行打分輸出最高分值的多肽作為一個(gè)PSM(Peptide-Spectral Match)7778這張譜圖質(zhì)量如何?79還不錯(cuò)的匹配?80同一張質(zhì)譜圖,不同的PSM81評(píng)價(jià)標(biāo)準(zhǔn)理論子離子匹配的數(shù)量、比例高強(qiáng)度的峰是否被匹配y離子連續(xù)性82隨機(jī)匹配即使是一些看起來(lái)還不錯(cuò)的實(shí)驗(yàn)和理論譜圖的匹配,也可能只是隨機(jī)現(xiàn)象而已。隨機(jī)匹配的現(xiàn)象在數(shù)據(jù)庫(kù)檢索的過(guò)程中非常常見(jiàn)。做一個(gè)扔硬幣的游戲,有多大的概率連續(xù)扔出10次硬幣的正面
35、? 這取決于扔硬幣的次數(shù)。10次還是10000次? 實(shí)驗(yàn)和理論譜圖的匹配,與后一種情況更相似83MASCOT scoreMASCOT軟件計(jì)算多肽與譜圖隨機(jī)匹配的概率,并根據(jù)這個(gè)概率給出打分-10log10(P)隨機(jī)匹配的概率P,取決于候選多肽的數(shù)量和匹配上的子離子的比例等。質(zhì)譜儀的質(zhì)量誤差越小,隨機(jī)匹配的可能性越低。MASCOT對(duì)質(zhì)量紋法的蛋白匹配采取了類似的打分方法84如何理解MASCOT score對(duì)一張質(zhì)譜圖,得分最高的多肽匹配并不一定就是正確的匹配,嚴(yán)謹(jǐn)?shù)恼f(shuō)法是在所有數(shù)據(jù)庫(kù)收錄的多肽中,這個(gè)匹配是隨機(jī)匹配的概率最低。有可能這張譜圖所代表的肽未被收錄在數(shù)據(jù)庫(kù)中。除非已知樣品里有哪些蛋白,
36、不然我們無(wú)法得知哪些匹配是正確的。所以需要給定一個(gè)分?jǐn)?shù)的閾值,只留下得分在這個(gè)閾值之上的匹配85如何理解MASCOT scoremascot打分僅僅對(duì)匹配是否是隨機(jī)現(xiàn)象打分,并不評(píng)價(jià)譜圖質(zhì)量,即使匹配的質(zhì)量很好,仍然有可能是隨機(jī)匹配86其它的打分方式除了MASCOT軟件采用隨機(jī)匹配的概率區(qū)分正確和錯(cuò)誤的匹配以外,其它軟件采用其它的打分方式打分方程是數(shù)據(jù)庫(kù)搜索算法的核心,不同的軟件采取的打分方法不同,相互之間沒(méi)有可比性。87SEQUESTXcorr實(shí)驗(yàn)譜圖和理論譜圖比對(duì)的交互相關(guān)性(cross-correlation)打分DeltaCn每張實(shí)驗(yàn)譜圖匹配的最好的前兩名多肽的Xcorr差距88匹配的
37、假陽(yáng)性率如果我們的目的是評(píng)價(jià)單張或少數(shù)幾張譜圖,那么任務(wù)就已經(jīng)完成了。但在蛋白質(zhì)組學(xué)的實(shí)驗(yàn)中,往往要同時(shí)鑒定成千上萬(wàn)張譜圖,這里引入假陽(yáng)性率(False Discover Rate)的概念。FDR,指在所有高于給定閾值的多肽-譜圖匹配(PSM)中,隨機(jī)匹配所占的比例。89發(fā)表蛋白質(zhì)組學(xué)數(shù)據(jù)必須報(bào)告FDR90為什么FDR如此重要?組學(xué)的特有的“總體”概念假設(shè)共鑒定到100個(gè)PSM,每個(gè)PSM是隨機(jī)匹配的概率僅為0.01,則這100個(gè)PSM中至少有一個(gè)隨機(jī)匹配的概率為1使通過(guò)不同軟件、檢索條件、閾值設(shè)定等獲得的鑒定結(jié)果具有可比性91采用反相數(shù)據(jù)庫(kù)法估計(jì)FDR構(gòu)建反相數(shù)據(jù)庫(kù) (decoy datab
38、ase) 將原數(shù)據(jù)庫(kù)(target database)中的所有蛋白序列逐條反轉(zhuǎn),或隨機(jī)打亂順序。 反相數(shù)據(jù)庫(kù)中的蛋白數(shù)目,長(zhǎng)度,酶切后獲得的多肽的數(shù)目,氨基酸組成均與原數(shù)據(jù)庫(kù)相同。 不同的是,這些多肽序列是虛構(gòu)的,不可能在樣品中存在92采用反相數(shù)據(jù)庫(kù)法估計(jì)FDR檢索反相數(shù)據(jù)庫(kù) 采用相同的條件檢索反相數(shù)據(jù)庫(kù),或者將兩個(gè)數(shù)據(jù)庫(kù)合并檢索,用來(lái)模擬隨機(jī)匹配的過(guò)程。FDR估計(jì) FDR=decoy/target or FDR=2*decoy/(target+decoy) 通常要求結(jié)果的FDR在1%以內(nèi)。93數(shù)據(jù)庫(kù)搜索:小結(jié)數(shù)據(jù)庫(kù)搜索算法的目標(biāo)是在數(shù)據(jù)庫(kù)中尋找與二級(jí)質(zhì)譜圖最好匹配的多肽 (兩個(gè)步驟)。但是實(shí)
39、際的二級(jí)質(zhì)譜并不是那么完美的,存在很多隨機(jī)匹配的可能 (打分)估計(jì)FDR是鑒定多肽過(guò)程中非常重要的一步通過(guò)數(shù)據(jù)庫(kù)檢索進(jìn)行多肽鑒定后,還要根據(jù)多肽序列進(jìn)行蛋白鑒定94小練習(xí)3一次實(shí)驗(yàn)共鑒定到了13個(gè)多肽,蛋白A-J包含這些多肽序列,請(qǐng)問(wèn)樣品中包含哪些蛋白95Molecular & Cellular Proteomics 4:1419-1440, 2005 96Protein inference problem in shotgun proteomics97Protein isoforms are usually not distinguishable98奧卡姆剃刀原理如果你有兩個(gè)理論,它們都能解
40、釋觀測(cè)到的事實(shí),那么你應(yīng)該使用簡(jiǎn)單的那個(gè),直到發(fā)現(xiàn)有直接的證據(jù)支持更為復(fù)雜的那個(gè)理論。找到最少的一組蛋白,包含鑒定到的全部多肽序列事實(shí)是,樣品中的蛋白介于可推斷出的最少和最多的兩個(gè)蛋白list之間99100Usually,proteins are reported in groups and families101蛋白鑒定的可信度擁有更多高可信度多肽的蛋白的可信度最高選擇至少有兩個(gè)肽的蛋白,或者保留單肽鑒定的蛋白,但要求這個(gè)肽具有極高的可信度可用反相數(shù)據(jù)庫(kù)方法估計(jì)Protein FDR,也可用其它基于概率的方法,Protein FDR通常大于peptide FDR102蛋白質(zhì)鑒定:小結(jié)目的:高
41、可信地鑒定出樣品中存在的蛋白/多肽,并估計(jì)其FDR對(duì)未知的蛋白質(zhì)樣品,沒(méi)有標(biāo)準(zhǔn)答案不同軟件給出的結(jié)果差別很大,F(xiàn)DR是一個(gè)客觀的標(biāo)準(zhǔn)103不同搜索引擎的比較Molecular & Cellular Proteomics,12,2383-2393. 104合并多個(gè)軟件的結(jié)果可獲得更多的鑒定105蛋白質(zhì)組學(xué)研究的目標(biāo)蛋白質(zhì)鑒定Top-down策略(質(zhì)量紋方法,MS譜圖)Bottom-up策略(de novo測(cè)序和數(shù)據(jù)庫(kù)檢索,MS/MS譜圖)蛋白質(zhì)修飾蛋白質(zhì)定量-相對(duì)定量、絕對(duì)定量樣品間比較蛋白質(zhì)功能106多肽的修飾有生物學(xué)的意義修飾,如磷酸化實(shí)驗(yàn)過(guò)程引入的修飾 解釋更多的譜圖,提高鑒定率定量蛋白質(zhì)組學(xué)采
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版勞動(dòng)者勞動(dòng)社會(huì)保險(xiǎn)合同(特殊工種)3篇
- 二零二五版水溝施工與承包勞務(wù)合同范本2篇
- 二零二五版家政服務(wù)公司家政服務(wù)與品牌建設(shè)合同3篇
- 二零二五版宅基地使用權(quán)轉(zhuǎn)讓與房屋租賃一攬子合同2篇
- 二零二五版遠(yuǎn)程辦公勞動(dòng)合同簽訂與工作質(zhì)量監(jiān)控3篇
- 二零二五版辦公用品耗材行業(yè)聯(lián)盟采購(gòu)合同2篇
- 二零二五版旅游租車服務(wù)合同范本2篇
- 2025年草原草原生態(tài)保護(hù)與資源合理利用合同3篇
- 二零二五版家具原料采購(gòu)合同與供應(yīng)鏈管理協(xié)議3篇
- 展會(huì)市場(chǎng)調(diào)研服務(wù)合同(2篇)
- 非ST段抬高型急性冠脈綜合征診斷和治療指南(2024)解讀
- 產(chǎn)品共同研發(fā)合作協(xié)議范本5篇
- 風(fēng)水學(xué)的基礎(chǔ)知識(shí)培訓(xùn)
- 吸入療法在呼吸康復(fù)應(yīng)用中的中國(guó)專家共識(shí)2022版
- 1-35kV電纜技術(shù)參數(shù)表
- 信息科技課程標(biāo)準(zhǔn)測(cè)(2022版)考試題庫(kù)及答案
- 施工組織設(shè)計(jì)方案針對(duì)性、完整性
- 2002版干部履歷表(貴州省)
- DL∕T 1909-2018 -48V電力通信直流電源系統(tǒng)技術(shù)規(guī)范
- 2024年服裝制版師(高級(jí))職業(yè)鑒定考試復(fù)習(xí)題庫(kù)(含答案)
評(píng)論
0/150
提交評(píng)論