![蛋白質(zhì)組海量質(zhì)譜數(shù)據(jù)的解析及其在人類基因組注釋中的應(yīng)用_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/22/f602c683-0323-4aa1-8c86-c5855fbb0fc5/f602c683-0323-4aa1-8c86-c5855fbb0fc51.gif)
![蛋白質(zhì)組海量質(zhì)譜數(shù)據(jù)的解析及其在人類基因組注釋中的應(yīng)用_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/22/f602c683-0323-4aa1-8c86-c5855fbb0fc5/f602c683-0323-4aa1-8c86-c5855fbb0fc52.gif)
![蛋白質(zhì)組海量質(zhì)譜數(shù)據(jù)的解析及其在人類基因組注釋中的應(yīng)用_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/22/f602c683-0323-4aa1-8c86-c5855fbb0fc5/f602c683-0323-4aa1-8c86-c5855fbb0fc53.gif)
![蛋白質(zhì)組海量質(zhì)譜數(shù)據(jù)的解析及其在人類基因組注釋中的應(yīng)用_第4頁](http://file3.renrendoc.com/fileroot_temp3/2022-3/22/f602c683-0323-4aa1-8c86-c5855fbb0fc5/f602c683-0323-4aa1-8c86-c5855fbb0fc54.gif)
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、精品文檔項目名稱:蛋白質(zhì)組海量質(zhì)譜數(shù)據(jù)的解析及其在人類基因組注釋中的應(yīng)用首席科學(xué)家:劉斯奇中國科學(xué)院北京基因組研究所起止年限:2010 年 1 月-2014 年 8 月依托部門:中國科學(xué)院。1歡迎下載精品文檔一、研究內(nèi)容關(guān)鍵科學(xué)問題本項目將以我國蛋白質(zhì)組學(xué)界產(chǎn)生的海量 MS/MS質(zhì)譜數(shù)據(jù)為基本分析材料,重點放在解析這些數(shù)據(jù)中的新的蛋白質(zhì)編碼基因和蛋白質(zhì)組定量信息。 我們將運用計算化學(xué)、 工程方法學(xué)、 生物信息學(xué)、 質(zhì)譜學(xué)和生物分析化學(xué)等研究手段深入探討如何準(zhǔn)確地將 MS/MS質(zhì)譜數(shù)據(jù)轉(zhuǎn)化為相對應(yīng)的肽段信息, 如何利用這些肽段補充和修訂基因組的蛋白質(zhì)編碼基因, 如何發(fā)掘這些肽段所賦予的定量信息,
2、 并建立兼有定性和定量信息的新型蛋白質(zhì)表達譜。 簡言之,本項目擬解決的關(guān)鍵科學(xué)問題是, 如何發(fā)掘高精度 MS/MS質(zhì)譜鑒定的肽段中所蘊含的大量生物學(xué)信息。主要研究內(nèi)容1. 海量質(zhì)譜數(shù)據(jù)的深度解析技術(shù)研究從高精度 MS/MS數(shù)據(jù)出發(fā),通過新一代蛋白質(zhì)數(shù)據(jù)庫搜索引擎技術(shù)、 De Novo 技術(shù)、基因組數(shù)據(jù)庫搜索技術(shù)三個途徑來實現(xiàn)海量質(zhì)譜數(shù)據(jù)的深度解析, 具體研究:? 通過嚴(yán)格的對照實驗確定質(zhì)譜數(shù)據(jù)可解析率, 優(yōu)化和規(guī)范實驗操作流程;? 研究新一代蛋白質(zhì)鑒定搜索引擎,提高鑒定可信度、靈敏度和速度;?綜合利用實驗、儀器和計算手段發(fā)展肽序列De Novo 分析技術(shù);? 利用基因組數(shù)據(jù)庫搜索進一步提高質(zhì)譜
3、數(shù)據(jù)解析率。2高精度 MS/MS數(shù)據(jù)對基因組蛋白質(zhì)編碼基因的補充和修訂采用 De Novo 方法獨立演繹所測定肽段的氨基酸順序,進一步反轉(zhuǎn)肽段信息至基因組,試圖補充和修訂基因組的蛋白質(zhì)編碼基因,具體研究:? 構(gòu)建綜合性蛋白質(zhì)序列數(shù)據(jù)庫;? 建立基于肽段信息注釋基因組的方法流程;? 利用 MS/MS所鑒定的肽段補充和修訂基因組蛋白質(zhì)編碼基因。3 基于高精度質(zhì)譜數(shù)據(jù)的蛋白質(zhì)表達譜定量計算方法的研究及應(yīng)用以鑒定的肽段頻率為基礎(chǔ),發(fā)展兼顧準(zhǔn)確度與規(guī)模化的非標(biāo)記定量蛋白質(zhì)學(xué)方法,同時開發(fā)以多肽質(zhì)譜數(shù)據(jù)為基礎(chǔ)的蛋白質(zhì)編碼基因的可視化標(biāo)識技術(shù),實現(xiàn)蛋白質(zhì)表達譜的定量化,具體研究:。2歡迎下載精品文檔? 蛋白
4、質(zhì)表達譜定量算法研究;? 蛋白質(zhì)組表達譜定量分析及可視化研究;? 建立以基因為中心的定量蛋白質(zhì)數(shù)據(jù)庫及分析平臺。4 基于質(zhì)譜數(shù)據(jù)的預(yù)測結(jié)論的實驗驗證研究運用質(zhì)譜 學(xué)、生物化學(xué)、分子生物學(xué)和免疫學(xué)等手段系統(tǒng)驗證基于 MS/MS 數(shù)據(jù)所分析的生物信息學(xué)結(jié)論, 同時為生物信息學(xué)的理論模型提供嚴(yán)格設(shè)計和控制的實驗數(shù)據(jù),具體研究:? 建立先進的 MRM技術(shù)平臺實現(xiàn)對蛋白質(zhì)定性和定量的高通量驗證,發(fā)現(xiàn)和驗證新的蛋白編碼基因,并提供相應(yīng)的定量蛋白質(zhì)組信息;? 利用先進的質(zhì)譜技術(shù)平臺獲取高精度 MS/MS數(shù)據(jù)服務(wù)于質(zhì)譜譜圖的深度解析;? 建立通用技術(shù)平臺從核酸和蛋白質(zhì)水平上驗證通過 MS/MS所鑒定的新基因;
5、? 建立通用技術(shù)平臺從不同技術(shù)角度上驗證定量蛋白質(zhì)組。3歡迎下載精品文檔二、預(yù)期目標(biāo)1總體目標(biāo)本項目研究的總體目標(biāo)是, 發(fā)掘 MS/MS數(shù)據(jù)中的肽段信息, 開拓生物信息學(xué)在質(zhì)譜數(shù)據(jù)分析中的研究領(lǐng)域, 促進高精度質(zhì)譜數(shù)據(jù)在基因組學(xué)和蛋白質(zhì)組學(xué)的應(yīng)用。本項目將通過高精度 MS/MS數(shù)據(jù)和 De Novo 方法獲取一系列與基因組注釋基因不相匹配的肽段, 并利用這些信息補充和修訂基因組蛋白質(zhì)編碼基因; 將采用肽段頻率為定量蛋白質(zhì)組計算的基本數(shù)據(jù), 通過蛋白質(zhì)定量參數(shù)、 數(shù)學(xué)模型和可視化標(biāo)示等技術(shù)來建立定量蛋白質(zhì)表達譜, 并闡明其生物學(xué)意義。 通過本項目的執(zhí)行,我們將顯著提高 MS/MS數(shù)據(jù)的利用率,具
6、體回答若干相關(guān)的生物學(xué)問題,拓展生物信息學(xué)應(yīng)用于蛋白質(zhì)組學(xué)的思路和方法。 因此,本項目將促進我國在蛋白質(zhì)組學(xué)、基因組學(xué)和生物信息學(xué)交叉領(lǐng)域的研究。2五年目標(biāo)1)發(fā)展一套針對高精度MS/MS數(shù)據(jù)的分析策略以及相應(yīng)的數(shù)據(jù)庫和計算方法;2)顯著提高海量 MS/MS數(shù)據(jù)的利用率,深入揭示高精度質(zhì)譜數(shù)據(jù)所蘊含的物理化學(xué)和生物學(xué)意義;3)提升我國在質(zhì)譜信號解析和蛋白質(zhì)組生物信息學(xué)研究方面的水平。4)在國際主流雜志發(fā)表論文30 篇左右,并爭取 Nature 及其它國際知名科學(xué)期刊發(fā)表 10 篇論文。申請發(fā)明專利5 10 項。5)造就一支生物信息學(xué)和蛋白質(zhì)組領(lǐng)域中的高水平的科研隊伍,培養(yǎng)一批博士研究生 (10
7、-15 人 ) ,碩士研究生 (20-25 人) ,博士后研究人員 (5 10 人 ) 。4歡迎下載精品文檔三、研究方案1. 總體學(xué)術(shù)思路在蛋白質(zhì)組學(xué)誕生的短短幾年內(nèi), 這個學(xué)科已經(jīng)取得了重大進展: 蛋白質(zhì)表達譜的建立,修飾蛋白質(zhì)的測定,和蛋白質(zhì)相互作用的分析等。但是,作為一門年輕的學(xué)科,蛋白質(zhì)組的分析技術(shù)還遠未成熟。 其中一個主要的原因是人們在蛋白質(zhì)鑒定和定量分析上仍遭遇較大的技術(shù)困難。 近年來,高精度質(zhì)譜儀的出現(xiàn)給蛋白質(zhì)組學(xué)發(fā)展創(chuàng)造了一個新的發(fā)展契機。 如何深入解析高精度 MS/MS數(shù)據(jù)所蘊含的豐富的生物學(xué)信息, 是擺在蛋白質(zhì)組生物信息學(xué)面前的重要課題。 本項目立足于我國蛋白質(zhì)組學(xué)界已產(chǎn)生
8、的海量 MS/MS數(shù)據(jù),運用一系列的計算化學(xué)和生物信息學(xué)的方法,試圖發(fā)展一套針對高精度 MS/MS數(shù)據(jù)的分析策略以及相應(yīng)的數(shù)據(jù)庫和計算方法;并以此為基礎(chǔ)集中解決兩個在基因組學(xué)和蛋白質(zhì)組學(xué)亟需解決的問題,即利用肽段信息補充和修訂基因組蛋白質(zhì)編碼基因和以肽段頻率為基礎(chǔ)計算定量蛋白質(zhì)表達譜。 本研究項目需要生物信息學(xué)、 蛋白質(zhì)組學(xué)和基因組學(xué)各交叉學(xué)科團隊的通力合作,而她產(chǎn)生的科研成果又將施惠于各個研究領(lǐng)域。2. 技術(shù)途徑本項目的技術(shù)途徑包括海量 MS/MS數(shù)據(jù)的產(chǎn)生、生物信息軟件的設(shè)計和應(yīng)用、以及實驗驗證等 3 個層面的多種途徑。1) 海量 MS/MS數(shù)據(jù)的產(chǎn)生技術(shù) :LTQ、Orbitrap 、
9、FTMS 質(zhì)譜在蛋白質(zhì)組測定中的應(yīng)用, 多維高效液相層析, 高效蛋白質(zhì)提取技術(shù)平臺,SDS-PAGE/LC串聯(lián)分析技術(shù),多重蛋白質(zhì)酶消化技術(shù)等。2 ) 生物信息軟件的設(shè)計和應(yīng)用技術(shù) :樣品處理和儀器操作流程控制,MS/MS譜圖的計算機識別,蛋白質(zhì)搜索引擎,De Novo 分析軟件,各種數(shù)據(jù)庫的構(gòu)建技術(shù)等。3) 實驗驗證技術(shù) :MRM技術(shù),穩(wěn)定同位素標(biāo)記定量技術(shù),化學(xué)修飾輔助蛋白質(zhì)末端序列測定技術(shù) , ELISA ,Western blot,基因克隆,重組蛋白質(zhì)制備技術(shù),單克隆抗體制備, Real-Time PCR,5-RACE等。本項目研究已具備了較好的技術(shù)平臺支撐,承擔(dān)單位擁有 2 個國家重
10、點實驗室, 3 個部級重點實驗室,項目所需的絕大部分實驗儀器和實驗手段均已具備,各承擔(dān)單位間有著長期的良好合作關(guān)系和基礎(chǔ)。本項目具有豐富的前期工作積累。5歡迎下載精品文檔與相關(guān)研究成果及多學(xué)科背景的研究隊伍,已經(jīng)建立起成熟的研究手段和方法,有能力完成所計劃的研究任務(wù)。3. 創(chuàng)新性和特色本項目的創(chuàng)新之處集中表現(xiàn)在: 一整套針對于高精度 MS/MS數(shù)據(jù)的分析策略以及相應(yīng)的數(shù)據(jù)庫和計算方法; 利用 MS/MS和 DeNovo 技術(shù)補充或修訂基因組蛋白質(zhì)編碼基因;建立兼有定性和定量數(shù)據(jù)的蛋白質(zhì)表達譜;和 Gene-centric 方法標(biāo)示組織或細胞蛋白質(zhì)表達譜。本項目的特色在于:問題明確、方法新穎、課
11、題間環(huán)環(huán)相扣。 我們立足于建立高精度串連質(zhì)譜數(shù)據(jù)解析的分析策略、 數(shù)據(jù)庫和算法,著眼于這些研究成果在具體生物學(xué)問題上的應(yīng)用, 結(jié)論于實驗科學(xué)對理論分析結(jié)果的嚴(yán)格驗證。同時,我們將最大程度地發(fā)揮 “集體效應(yīng) ”優(yōu)勢,整合我國在生物信息學(xué)、 蛋白質(zhì)學(xué)和基因組學(xué)優(yōu)秀團隊, 根據(jù)各團隊的專長來展開相關(guān)研究。4. 取得重大突破的可行性分析本項目瞄準(zhǔn)了當(dāng)前蛋白質(zhì)組學(xué)研究的熱點和重點,試圖揭示高精度MS/MS數(shù)據(jù)所蘊含的豐富的生物學(xué)信號。 在項目執(zhí)行過程中, 我們有信心在 MS/MS數(shù)據(jù)的有效利用率、 肽段信息對基因組蛋白質(zhì)編碼基因的補充和修訂、 質(zhì)譜譜圖在定量蛋白質(zhì)組中應(yīng)用、 定量蛋白質(zhì)組的圖形標(biāo)示技術(shù)等
12、方面取得突破。 我們的信心植根于: 1) 本項目計劃解決的幾個問題在國際間仍然懸而未決,我們和其他的競爭者正處在同一起跑線上; 2)參與本項目的各個團隊在相關(guān)的領(lǐng)域處在先進水平,某些課題已取得了進展; 3)在我國政府的支持下,在過去幾年中我國蛋白質(zhì)學(xué)界已積累了海量的 MS/MS數(shù)據(jù),無論在數(shù)據(jù)的質(zhì)量還是數(shù)量上,我國的MS/MS數(shù)據(jù)庫領(lǐng)先于其他國家; 4)參與的團隊與國際優(yōu)秀的蛋白質(zhì)組學(xué)家形成了較好的合作關(guān)系,尤其在 MS/MS數(shù)據(jù)的共同開發(fā)上已取得重大進展。同時,項目首席科學(xué)家和課題組長在科研項目的組織和協(xié)調(diào)方面具有豐富的經(jīng)驗,均承擔(dān)完成多項國內(nèi)或國外的重要科研項目。 本項目計劃是基于研究團隊
13、的研究基礎(chǔ)和前期工作而提出的, 在本項目的申報過程中, 項目專家組及研究骨干多次研討,圍繞本研究計劃擬解決的重大科技問題, 制定了合理可行的研究方案和技術(shù)路線。 相信通過學(xué)科交叉、 集成多種研究方法, 我們研究團隊完全有可能在本領(lǐng)域取得突破性進展。6歡迎下載精品文檔5. 課題設(shè)置課題設(shè)置思路本項目擬在高精度MS/MS數(shù)據(jù)基礎(chǔ)上,采用各種數(shù)據(jù)分析手段, 從基因組蛋白質(zhì)編碼基因和蛋白質(zhì)組定量兩個生物學(xué)問題著手,深入地了解和認(rèn)識MS/MS數(shù)據(jù)所蘊含的肽段信息的生物學(xué)意義,為蛋白質(zhì)組的功能性研究提供新的方法和思路。本項目將設(shè)置四個課題, 分別為, 1)海量質(zhì)譜數(shù)據(jù)的深度解析技術(shù)研究; 2)高精度 MS
14、/MS數(shù)據(jù)對基因組蛋白質(zhì)編碼基因的補充和修訂; 3)基于高精度 MS/MS 質(zhì)譜數(shù)據(jù)的蛋白質(zhì)表達譜定量計算方法的研究及應(yīng)用; 4)基于質(zhì)譜數(shù)據(jù)的預(yù)測結(jié)論的實驗驗證研究。 建立質(zhì)譜數(shù)據(jù)的統(tǒng)計數(shù)學(xué)模型分析有賴于實驗數(shù)據(jù)的精度和重現(xiàn)性。目前的質(zhì)譜數(shù)據(jù)廣泛存在兩個基本問題,一是缺乏不同的質(zhì)譜儀所產(chǎn)生的質(zhì)譜圖譜的共享標(biāo)準(zhǔn), 二是譜圖解讀和肽段判斷的標(biāo)準(zhǔn)沒有達到共識。因此,我們把質(zhì)譜數(shù)據(jù)分析的標(biāo)準(zhǔn)化放在本項目頭等重要的位置。在深度解析MS/MS數(shù)據(jù)的基礎(chǔ)上,我們設(shè)定兩個課題組具體研究如何發(fā)掘MS/MS信號所蘊含的生物信息,即補充和修訂基因組蛋白質(zhì)編碼基因及定量表達蛋白質(zhì)組。前者注重于剖析 MS/MS數(shù)據(jù),
15、通過 De Novo 方法直接分析與數(shù)據(jù)庫搜索獲得 MS/MS所含有的肽段序列信息,然后建立 MS/MS對應(yīng)的肽段數(shù)據(jù)庫, 并以此數(shù)據(jù)庫為基點開展基因組的相關(guān)研究;后者則集中于研究 MS/MS所產(chǎn)生的肽段頻率與蛋白質(zhì)豐度之間的相關(guān)性,試圖建立基于非標(biāo)記性肽段頻率的蛋白質(zhì)定量判據(jù), 并應(yīng)用于估算蛋白質(zhì)定量表達譜,同時還要開發(fā)具備定性和定量信息的蛋白質(zhì)表達譜的可視化標(biāo)示方法。本項目聚焦于如何運用生物信息學(xué)方法處理高精度 MS/MS數(shù)據(jù),抽象和演繹出蛋白質(zhì)組相關(guān)的生物學(xué)信息。 與傳統(tǒng)的生物信息學(xué)研究項目不同的是, 我們還充分意識到,生物信息學(xué)的理論分析離不開對蛋白質(zhì)或肽段化學(xué)性質(zhì)的知識水平和實驗數(shù)據(jù)
16、的支持, 為此設(shè)定了第四課題組, 專職與生物信息課題相配合, 對理論預(yù)測的結(jié)果進行實驗驗證, 同時也通過方法學(xué)的探索為生物信息理論分析提供具有針對性的實驗數(shù)據(jù),特別是高精度的 MS/MS數(shù)據(jù)。課題的關(guān)聯(lián)本項目的四個課題中,一個課題注重 MS/MS數(shù)據(jù)的標(biāo)準(zhǔn)化分析,為蛋白質(zhì)生物信息學(xué)研究提供可靠的肽段信息和計算工具; 兩個課題集中于肽段信息在具。7歡迎下載精品文檔體生物學(xué)問題中應(yīng)用研究; 另一個課題則從實驗技術(shù)層面上對生物信息學(xué)的預(yù)測結(jié)果進行系統(tǒng)的驗證, 并為理論分析提供和補充相應(yīng)的實驗數(shù)據(jù)。 本項目的各個課題之間既存在學(xué)術(shù)邏輯上必然聯(lián)系, 又有研究內(nèi)容上的互為補充, 還有研究成果的相互驗證。這
17、樣如圖一所示,四個課題之間形成了較為完整的研究關(guān)聯(lián)網(wǎng)絡(luò),在不同的層次和角度上共同發(fā)掘高精度 MS/MS數(shù)據(jù)在蛋白質(zhì)組學(xué)中的應(yīng)用以及它們的生物學(xué)意義。圖一:課題設(shè)置及各子課題之間的相關(guān)性課題 1.海量質(zhì)譜數(shù)據(jù)的深度解析技術(shù)研究課題背景海量質(zhì)譜數(shù)據(jù)的解析是蛋白質(zhì)組研究的基礎(chǔ),而自動化的數(shù)據(jù)分析軟件是海量質(zhì)譜數(shù)據(jù)解析的基本工具。 蛋白質(zhì)組過去十年的研究歷程,主要依靠蛋白質(zhì)鑒定兩大商業(yè)軟件Mascot 和 SEQUEST來實現(xiàn)海量質(zhì)譜數(shù)據(jù)的基本解析,其最大的。8歡迎下載精品文檔問題在于:僅僅有 10%左右的質(zhì)譜數(shù)據(jù)可以得到肽鑒定結(jié)果, 其余數(shù)據(jù)無法解析,因而其中所蘊涵的信息無法利用。造成這種局面的原因
18、是多方面的。 首先,對于分子生物學(xué)的規(guī)律, 比如基因水平上的基因預(yù)測、 基因突變、可變剪接及蛋白質(zhì)水平上的氨基酸突變、 翻譯后修飾等,目前還沒有完整、準(zhǔn)確的認(rèn)識。其次,對于包括樣品制備和質(zhì)譜儀操作在內(nèi)的質(zhì)譜數(shù)據(jù)生成過程的設(shè)計和規(guī)范化控制缺乏系統(tǒng)的研究, 加上質(zhì)譜儀的分辨率和準(zhǔn)確度不足, 造成原始數(shù)據(jù)質(zhì)量不高。 再次,數(shù)據(jù)分析方法和軟件發(fā)展滯后,表現(xiàn)在兩大商業(yè)軟件核心鑒定算法多年來沒有大的改進, 鑒定可信度評價方法沒有達到共識和規(guī)范化, 鑒定靈敏度研究長期缺乏關(guān)注, 而鑒定速度不夠高則直接限制了對于海量質(zhì)譜數(shù)據(jù)的全面探索性分析, 比如非特異酶切、 可變翻譯后修飾的鑒定。近年來,質(zhì)譜技術(shù)發(fā)展迅速,
19、高精度質(zhì)譜儀 ( 如 FTMS、Orbitrap) ,配以基于電子的離子裂解新方式 ( 如電子捕獲裂解 ECD、電子轉(zhuǎn)運裂解 ETD),已經(jīng)開始在國內(nèi)外和本項目申請單位安裝和應(yīng)用,因此質(zhì)譜數(shù)據(jù)質(zhì)量近期將會大大提高。同時,由于認(rèn)識到基于數(shù)據(jù)庫搜索的質(zhì)譜數(shù)據(jù)解析與蛋白質(zhì)鑒定本質(zhì)上是一種特殊的信息檢索,而信息檢索領(lǐng)域的搜索引擎技術(shù)經(jīng)過了十多年的成功發(fā)展, 因此,海量質(zhì)譜數(shù)據(jù)的專用搜索引擎設(shè)計可以從中獲得充分的借鑒, 數(shù)據(jù)分析的速度和質(zhì)量有望大大提高。 本項目申請單位在過去幾年中參加過人類肝臟蛋白質(zhì)組表達譜的完整實驗和數(shù)據(jù)分析,對于海量質(zhì)譜數(shù)據(jù)的解析積累了比較豐富的一手經(jīng)驗,而獨立自主開發(fā)蛋白質(zhì)鑒定軟
20、件系統(tǒng) pFind 則為進一步設(shè)計新的搜索引擎奠定了基礎(chǔ)。這都為深度解析海量質(zhì)譜數(shù)據(jù)提供了希望。深度解析海量質(zhì)譜數(shù)據(jù), 首先要在嚴(yán)格對照實驗的條件下認(rèn)識質(zhì)譜數(shù)據(jù)的規(guī)律,特別是質(zhì)譜數(shù)據(jù)有多大比例可以解析, 有多大比例可以得到可信的肽鑒定結(jié)果,在這個基礎(chǔ)上設(shè)計新一代搜索引擎并確立合理的解析率指標(biāo)。 新一代搜索引擎的設(shè)計,立足于在現(xiàn)有蛋白質(zhì)數(shù)據(jù)庫的基礎(chǔ)上充分解析質(zhì)譜數(shù)據(jù), 從而把現(xiàn)有蛋白質(zhì)數(shù)據(jù)庫中沒有包含的新肽段的鑒定限定在未鑒定的質(zhì)譜數(shù)據(jù)上, 這是對基因組注釋最可能有意義的地方。 新肽段的鑒定分為兩種途徑, 一是不依賴蛋白質(zhì)數(shù)據(jù)庫,直接從串聯(lián)質(zhì)譜圖中提取肽段完整序列或者序列片段, 即所謂的 De
21、Novo 技術(shù);二是將搜索數(shù)據(jù)庫的范圍從蛋白質(zhì)組擴展到基因組, 獲得更多的肽段序列。9歡迎下載精品文檔來達到鑒定更多質(zhì)譜數(shù)據(jù)的目的。通過新一代蛋白質(zhì)數(shù)據(jù)庫搜索引擎技術(shù)、DeNovo 技術(shù)、基因組數(shù)據(jù)庫搜索技術(shù)三個途徑來實現(xiàn)海量質(zhì)譜數(shù)據(jù)的深度解析,提高解析率,并進一步利用控制實驗來驗證。研究目標(biāo)本課題的研究目標(biāo)是發(fā)展海量 MS/MS數(shù)據(jù)的深度解析技術(shù), 顯著提高數(shù)據(jù)解析率。具體分為四點:一) 通過嚴(yán)格的對照實驗確定質(zhì)譜數(shù)據(jù)可解析率,優(yōu)化和規(guī)范實驗操作流程;二)研究新一代蛋白質(zhì)鑒定搜索引擎,提高鑒定可信度、靈敏度和速度;三)綜合利用實驗、儀器和計算手段發(fā)展肽序列De Novo 分析技術(shù);四)利用基
22、因組數(shù)據(jù)庫搜索進一步提高質(zhì)譜數(shù)據(jù)解析率。研究內(nèi)容一)通過嚴(yán)格的對照實驗確定質(zhì)譜數(shù)據(jù)可解析率,優(yōu)化和規(guī)范實驗操作流程MS/MS質(zhì)譜數(shù)據(jù)的鑒定成功率約為5%-15%,無鑒定結(jié)果的MS/MS質(zhì)譜數(shù)據(jù)中可能蘊含著許多蛋白質(zhì)或肽段信息,如基因組數(shù)據(jù)庫中不存在的新蛋白質(zhì)或蛋白質(zhì)剪切體,或可能存在的錯誤的注釋信息等。所以,確定無鑒定結(jié)果的MS/MS質(zhì)譜數(shù)據(jù)的產(chǎn)生原因并發(fā)掘其隱含信息極其必要和迫切。 此外,在蛋白質(zhì)表達譜中所普遍采用的 Shotgun 路線中,蛋白質(zhì)鑒定覆蓋率往往很低, 其原因也需要探索。計劃以高純度標(biāo)準(zhǔn)蛋白質(zhì)為樣本, 在優(yōu)化和規(guī)范化實驗操作流程的基礎(chǔ)上,獲取蛋白酶切肽段 MS/MS數(shù)據(jù),明確
23、每一張串聯(lián)質(zhì)譜圖歸屬, 分析圖譜鑒定或未鑒定原因。合成若干類, 每類若干條具有代表性理化性質(zhì)肽段, 分析其單獨質(zhì)譜行為和在復(fù)雜體系中的質(zhì)譜行為和鑒定成功率, 找出未鑒定原因, 為發(fā)展新的數(shù)據(jù)分析算法 / 軟件和檢索工具提供依據(jù)。同時研究實驗設(shè)計、樣品處理和儀器操作流程對于質(zhì)譜數(shù)據(jù)質(zhì)量及其解析的影響,在此基礎(chǔ)上優(yōu)化和規(guī)范實驗操作流程。更具體地,計劃選取高純度標(biāo)注蛋白質(zhì)若干種作為初步研究分析對象。其中蛋白選取將主要考慮蛋白分子量、酶切肽段理化性質(zhì)等因素。采用Shotgun策略,首先分別對單個蛋白進行質(zhì)譜數(shù)據(jù)采集,并將全部串聯(lián)圖譜進行多搜索引。10歡迎下載精品文檔擎檢索和手工平行分析, 以確定全部圖
24、譜的身份和發(fā)現(xiàn)方法及其比例。 目前考慮到可能的原因包括:非肽段信號、未知修飾、碎片信息過差、非規(guī)則酶切肽段、混合碎片、非數(shù)據(jù)庫包含序列、檢索算法問題、未知因素等。在整合產(chǎn)生這些結(jié)果原因的基礎(chǔ)上初步設(shè)計相應(yīng)檢索分析軟件。之后將標(biāo)準(zhǔn)蛋白混合, 用于檢驗分析效果,并進行調(diào)整。進一步選取簡單模式生物標(biāo)本,如 E.Coli 、Yeast 等,采用軟件自動分析結(jié)合手工分析, 完成全部串聯(lián)圖譜身份分析, 并再次調(diào)整分析策略和軟件。二)研究新一代蛋白質(zhì)鑒定搜索引擎,提高鑒定可信度、靈敏度和速度基于蛋白質(zhì)序列庫搜索的蛋白質(zhì)鑒定軟件,本質(zhì)上是一個信息檢索系統(tǒng),其核心是搜索引擎。 現(xiàn)有的蛋白質(zhì)鑒定搜索引擎, 在質(zhì)譜
25、數(shù)據(jù)分析上面臨著很多挑戰(zhàn)和困難,比如質(zhì)譜圖解析率低、 鑒定結(jié)果可信度低、 數(shù)據(jù)庫搜索速度慢, 等。除了由于我們對肽段離子碎裂和串聯(lián)質(zhì)譜圖生成機制的認(rèn)識有限之外, 很重要的原因在于,目前廣泛應(yīng)用的蛋白質(zhì)鑒定搜索引擎沒有及時集成新方法和新技術(shù),從預(yù)處理到打分排序和可信度評價都普遍存在缺陷,比如沒有深入挖掘肽 - 譜匹配的特征,沒有利用機器學(xué)習(xí)和搜索引擎的新技術(shù)。 為此,我們將開展如下方面的研究。1) 提高蛋白質(zhì)鑒定搜索引擎的可信度通過對數(shù)據(jù)進行深入的分析, 考察隨機匹配產(chǎn)生的原因, 在此基礎(chǔ)上提取特征,對隨機匹配的搜庫結(jié)果進行分類處理, 建立理論性比較強的模型; 整合搜索引擎提供的多個匹配打分參數(shù)
26、, 建立適當(dāng)?shù)臄?shù)學(xué)模型, 為每個非冗余鑒定肽段賦予一個適當(dāng)?shù)呐袆e分值, 實現(xiàn)肽段水平的可信度控制; 利用隨機數(shù)據(jù)庫搜索等對單個搜索引擎和數(shù)據(jù)集肽段可信度控制結(jié)果, 構(gòu)建合適的算法模型, 實現(xiàn)對不同搜索引擎、不同數(shù)據(jù)集數(shù)據(jù)的整合; 考慮基于圖譜計數(shù)的半定量、 蛋白質(zhì)序列長度、數(shù)據(jù)庫大小、蛋白質(zhì)的酶切肽段和鑒定肽段等信息構(gòu)建基于超幾何分布的蛋白質(zhì)鑒定可信度評估概率模型。2) 提高蛋白質(zhì)鑒定搜索引擎的靈敏度融合多種信息源, 提取和篩選有效的肽譜匹配特征, 基于機器學(xué)習(xí)技術(shù), 將肽打分函數(shù)構(gòu)造問題, 轉(zhuǎn)化為排序?qū)W習(xí)或者分類問題, 通過迭代搜索或者迭代打分,動態(tài)地、自適應(yīng)地更新肽打分函數(shù), 從而使之能夠
27、更好地適應(yīng)不同特點的質(zhì)。11歡迎下載精品文檔譜數(shù)據(jù),在保證足夠可信度的條件下, 顯著提高肽鑒定的靈敏度和譜圖的解析率。對串聯(lián)質(zhì)譜數(shù)據(jù)進行聚類研究,揭示譜圖間的相互關(guān)系, 建立譜圖數(shù)據(jù)的內(nèi)部結(jié)構(gòu)。通過限制性譜圖聚類識別冗余譜圖,生成代表譜,改善譜圖的質(zhì)量,提高譜圖解析的精度。 通過非限制性聚類識別相關(guān)譜圖,發(fā)現(xiàn)含有修飾、 氨基酸突變的譜圖、以及由非特異酶切肽段產(chǎn)生的譜圖,以進一步提高譜圖解析率。3) 提高蛋白質(zhì)鑒定搜索引擎的速度采用高效的數(shù)據(jù)索引技術(shù)及與之相配合的高效搜索流程設(shè)計,以加速候選肽查詢的過程。 優(yōu)化肽譜匹配打分算法的實現(xiàn), 使之適應(yīng)多種翻譯后修飾以及非限定修飾、非特異性酶切等帶來的候
28、選肽規(guī)模膨脹問題。 采用以序列標(biāo)簽手段為主,對數(shù)據(jù)庫候選肽進行過濾的方式, 突破傳統(tǒng)的搜索引擎框架。 通過實際典型數(shù)據(jù)的運行時間測量, 確定搜索引擎流程模塊的運行熱點, 研究任務(wù)級并行的靜態(tài)和動態(tài)負載均衡算法, 在此基礎(chǔ)上進一步研究算法級負載均衡算法, 將鑒定流程中的熱點模塊分配到多個節(jié)點進行運算,以進一步提高蛋白質(zhì)搜索引擎的速度,實現(xiàn) 12 個量級的加速。三)綜合利用實驗、儀器和計算手段發(fā)展肽序列De Novo 測序技術(shù)蛋白質(zhì)鑒定從頭測序算法的主要思想是只利用串聯(lián)質(zhì)譜中的譜峰信息推斷肽段序列。 De Novo 方法不依賴于蛋白質(zhì)數(shù)據(jù)庫,在數(shù)據(jù)庫信息不完整的情況下 De Novo 比數(shù)據(jù)庫搜索
29、具有一定的優(yōu)勢。然而, De Novo 算法的應(yīng)用范圍有比較大的局限性, 它可以處理的數(shù)據(jù)通常為 CID 碎裂方式下的高質(zhì)量譜圖, 而且,DeNovo 方法的譜圖鑒定率相對比較低,通常情況下,對于質(zhì)量比較好的 MS/MS譜圖,利用從頭測序算法僅可以得到約 30%的正確鑒定結(jié)果。隨著質(zhì)譜儀精度的逐漸提高, 利用高精度譜圖的一系列優(yōu)勢,提高鑒定序列的準(zhǔn)確性,越來越受到人們的關(guān)注。 另外,利用同一肽段不同碎裂方式等方法產(chǎn)生的多張譜圖的內(nèi)在聯(lián)系進行從頭測序的方法也逐漸成為蛋白質(zhì)鑒定問題中的研究熱點。利用特殊化學(xué)修飾,如磺酸化修飾等,可以為De Novo提供更豐富的技術(shù)路線。為此,本課題將與課題4 密切
30、合作開展如下方面的研究。1) 利用高精度 MS/MS數(shù)據(jù)進行 De Novo 測序利用課題 4 提供的 LTQ-Orbitrap高精度質(zhì)譜數(shù)據(jù),可以更有效地進行從頭測序。首先,高度精確的母離子及碎片離子質(zhì)量使得不同氨基酸殘基的區(qū)分度更。12歡迎下載精品文檔好,提高了氨基酸殘基識別的可靠性; 利用離子峰同位素模式的差異, 可以進一步區(qū)分質(zhì)量相似的氨基酸, 如谷氨酸與賴氨酸等。 其次,低精度質(zhì)譜儀下不同離子類型的碎片質(zhì)量可能重疊的現(xiàn)象, 在高精度情況下可能性大大降低, 從而可以進一步提高從頭測序算法的精度。 此外,利用高精度的有效離子峰, 可以計算出離子的理論氨基酸組成,從而更有效地過濾候選肽序列
31、。2) 利用譜圖相關(guān)性信息進行 De Novo 測序CID 與 EXD(如電子捕獲裂解ECD、電子轉(zhuǎn)運裂解ETD等) 是蛋白質(zhì)或多肽在質(zhì)譜儀中的不同碎裂方式,通常 EXD碎裂方式可以更好地保存完整的修飾信息,而且碎裂譜峰有較好的連續(xù)性, 與 CID 的特性形成很好的互補。 利用課題 4 提供的同一肽段的 CID/ETD碎裂形成的譜圖,我們可以利用不同譜圖間的譜峰信息相互驗證,區(qū)分有效峰與噪音峰, 進而將不同碎裂方式下的譜峰進行聚合, 可以提高譜圖的信噪比; 通過不同碎裂方式下相關(guān)離子的質(zhì)量差值, 可以識別譜峰所屬的離子類型;結(jié)合基于譜峰圖的從頭測序方法, 不僅可以提高鑒定肽段的置信度,而且可以
32、鑒定到單一碎裂方式下難以鑒定到的肽段。3) 利用化學(xué)修飾方法輔助 De Novo 測序近年來很多研究都通過各種化學(xué)小分子修飾策略來輔助肽段的裂解與質(zhì)譜測序。例如,通過磺酸化修飾在肽段上引入磺酸基, 不僅可以提高肽段的碎裂效率,還可以抑制其它離子的產(chǎn)生, 得到以 y 系列離子為主的 MS/MS數(shù)據(jù);利用嘧啶化合物修飾多肽羧基可以有效增強修飾譜譜峰的信號強度。因此,利用課題 4 提供的高清晰串聯(lián)質(zhì)譜數(shù)據(jù), 基于譜峰圖的方法進行從頭測序, 不僅可以更準(zhǔn)確地挑選有效峰, 而且減少了單個譜峰匹配多種可能離子類型的風(fēng)險, 從而提高從頭測序算法的精度。四)利用基因組數(shù)據(jù)庫搜索進一步提高質(zhì)譜數(shù)據(jù)解析率基于蛋白
33、質(zhì)數(shù)據(jù)庫搜索的質(zhì)譜數(shù)據(jù)解析與蛋白質(zhì)鑒定方法的成敗, 強烈依賴蛋白質(zhì)數(shù)據(jù)庫是否完整, 如果不存在相應(yīng)的條目, 即使是質(zhì)量很好的譜圖, 也無法得到鑒定。因此,在常規(guī)鑒定方法的基礎(chǔ)上擴大搜索范圍,對更全面的 EST 或基因組數(shù)據(jù)庫進行搜索,就成為提高質(zhì)譜鑒定率的另一種有效方法。目前存在各種不同的基因組學(xué)相關(guān)的數(shù)據(jù)庫: 原始基因組數(shù)據(jù),信息最全面,但數(shù)據(jù)量巨大,沒有可變剪接信息,所以目前一般只進行原核生物的直接搜索;。13歡迎下載精品文檔表達序列標(biāo)簽 EST( Expressed Sequence Tag)庫,是指從不同組織來源的 cDNA 片段序列積累得到的數(shù)據(jù)庫, 可確定是轉(zhuǎn)錄水平的數(shù)據(jù), 且基本
34、覆蓋整個基因組;可變剪接數(shù)據(jù)庫,通過選取有可變剪接注釋的肽序列,進行搜索、序列比對、篩選和分類構(gòu)建而成,可以看作基因組數(shù)據(jù)庫和蛋白質(zhì)數(shù)據(jù)庫的橋梁。針對不同層次的數(shù)據(jù)庫,可以對質(zhì)譜數(shù)據(jù)進行多步驟、多策略的迭代搜索:先對常規(guī)蛋白質(zhì)數(shù)據(jù)庫進行搜索鑒定; 沒有得到解釋的質(zhì)譜數(shù)據(jù)再利用 EST庫和可變剪接數(shù)據(jù)庫進行搜索; 對于仍然無法解釋的質(zhì)譜, 采用直接搜索六個開放閱讀框翻譯的氨基酸序列的方法進行鑒定; 或通過譜圖解析得到肽片段信息, 再對基因進行序列比對。最終鑒定出常規(guī)方法無法解釋的譜圖數(shù)據(jù)?;驇焖阉髅媾R的主要挑戰(zhàn)包括: 如何構(gòu)建面向多層次海量基因數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)?如何加快鑒定速度, 應(yīng)對劇烈膨脹
35、的數(shù)據(jù)庫搜索量?如何有效估計和控制譜圖解析的錯誤率?為此本課題將與課題2 密切合作開展如下方面的研究。1)構(gòu)建多層次的、相互關(guān)聯(lián)的、海量的基因組- 蛋白質(zhì)組數(shù)據(jù)庫基因組數(shù)據(jù)非常龐大復(fù)雜, 如何有效設(shè)計數(shù)據(jù)結(jié)構(gòu)予以存儲和表達,是非常關(guān)鍵的問題。本項目的課題 2 將構(gòu)建一個基于基因組序列的, 比當(dāng)前公共蛋白質(zhì)數(shù)據(jù)庫包含序列種類更多、 數(shù)量更大的蛋白質(zhì)數(shù)據(jù)庫; 而我們將通過設(shè)計索引數(shù)據(jù)格式和讀取接口, 解決海量規(guī)模數(shù)據(jù)庫的存儲和快速檢索問題。 借鑒現(xiàn)有成熟的蛋白質(zhì)和肽數(shù)據(jù)索引技術(shù)方案, 設(shè)計合理的數(shù)據(jù)結(jié)構(gòu), 便于系統(tǒng)內(nèi)數(shù)據(jù)的讀取、存儲、壓縮、表達,查詢和關(guān)聯(lián)。2)提高蛋白質(zhì)鑒定引擎的搜索速度基因組或
36、 EST數(shù)據(jù)庫相對于傳統(tǒng)的蛋白質(zhì)數(shù)據(jù)庫, 規(guī)模擴大了不止一個數(shù)量級,面臨著搜索速度上的挑戰(zhàn)。除了利用各種常規(guī)思路對搜素引擎進行加速外,重點利用基因和蛋白質(zhì)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,將常規(guī)蛋白數(shù)據(jù)庫搜索或者DeNovo測序鑒定出的肽段 / 蛋白質(zhì)映射到對應(yīng)的核酸序列上,然后枚舉出該基因區(qū)域經(jīng)過突變、 可變剪接、 翻譯等種種變化得到的所有可能的氨基酸序列,對沒有得到鑒定結(jié)果的譜圖進行二次搜索,既可能提高譜圖解析率, 同時又可以大大減小基因組數(shù)據(jù)庫產(chǎn)生的候選肽規(guī)模,從而加速鑒定。3)研究搜索結(jié)果可靠性問題,有效估計和控制譜圖解析的錯誤率。數(shù)據(jù)庫規(guī)模的擴大, 不僅僅帶來速度問題: 基因組數(shù)據(jù)或 EST數(shù)據(jù)庫
37、遠大于蛋白質(zhì)數(shù)據(jù)庫, 同時含有一定的測序誤差, 發(fā)生隨機匹配的概率更大; 并且因為。14歡迎下載精品文檔預(yù)測錯誤的開放閱讀框和低質(zhì)量的 EST序列,以及串聯(lián)質(zhì)譜數(shù)據(jù)本身帶有的噪音和復(fù)雜性,將導(dǎo)致更多錯誤的隨機匹配。 因此需要深入分析傳統(tǒng)方式下隨機誤匹配產(chǎn)生的原因,構(gòu)建模型提取特征,進一步建立完善的估計檢驗算法。課題承擔(dān)單位:中國科學(xué)院計算技術(shù)研究所課題參加單位:復(fù)旦大學(xué)課題負責(zé)人 :賀思敏科研骨干:孫瑞祥、趙屹、張揚經(jīng)費比例: 23%課題 2.高精度 MS/MS數(shù)據(jù)對基因組蛋白質(zhì)編碼基因的補充和修訂課題背景:基因組DNA序列的測定標(biāo)志著人類在探索生命之謎的征程中邁出了關(guān)鍵一步。 但是,解讀基因
38、組中所富含的遺傳秘密和生物功能信息的研究工作還剛剛開始。根據(jù) 2007 年在 PNAS上發(fā)表的研究表明, 人類基因組中的蛋白質(zhì)編碼基因數(shù)量可能會少于24,500; 而 Broad 研究所的研究指出,人類基因數(shù)據(jù)庫如Ensembl、RefSeq 和 Vega 包括了許多任意出現(xiàn)的而非蛋白質(zhì)編碼區(qū)域的開放閱讀框,實際上人類基因組中的蛋白質(zhì)編碼基因數(shù)目可能只有20,500 左右。 2007年康奈爾大學(xué)的研究人員發(fā)表在 GenomeResearch 的研究工作, 通過利用超級計算機比較人類、 小鼠、大鼠和雞的基因組部分, 發(fā)現(xiàn)了 300 個之前沒有確定的人類基因,還確定了幾百個已知基因的范圍。 這意味
39、著,有許多基因會在目前的生物分析方法下被漏掉。 傳統(tǒng)的基因注釋方法對廣泛表達基因的發(fā)現(xiàn)非常有效, 卻會遺漏只在特定器官表達或在胚胎發(fā)育早期表達的基因。傳統(tǒng)上,開放閱讀框( open reading frame , ORF)的一些原則正在受到大量實驗數(shù)據(jù)的挑戰(zhàn),尤其是對于內(nèi)含子的可變剪切豐富的真核生物基因組而言, 基因組的注釋的缺陷尤其明顯。例如,即使是研究較透徹的模式生物果蠅,大概 30%的轉(zhuǎn)錄本都沒有被注釋。通過比對人的 EST和基因組, 產(chǎn)生了約 62000 個不相重疊的聚類, 但大多數(shù)。15歡迎下載精品文檔都不包含 ORF的 5端區(qū)域,提示了僅依靠測序cDNA來完整注釋動物基因組是不切實
40、際的。普遍使用的基因預(yù)測軟件GENSCAN在對小鼠和人的ORF預(yù)測上正確率僅為 15%和 10%;在哺乳動物基因預(yù)測方面表現(xiàn)最好的CONTRAST算法,對人的ORF預(yù)測也只有 58%的正確率。近年來,高精度質(zhì)譜儀( FT、Orbit-Trap)的發(fā)展以及肽段解析技術(shù)的進步為基因組的蛋白質(zhì)編碼注釋開辟了新的研究方向。 采用 MS/MS數(shù)據(jù)注釋基因組有其獨到的技術(shù)優(yōu)勢。 首先,肽段反映的是基因最終表達的產(chǎn)物, 它比 RNA分子更為直接地傳遞了基因的編碼信息。 其次,大規(guī)模 MS/MS數(shù)據(jù)庫的建立, 使得傳統(tǒng)的一個基因一個 cDNA一次測序的觀念受到?jīng)_擊,利用 De Novo 技術(shù)分析 MS/MS
41、數(shù)據(jù)庫,可能極大地豐富肽段信息。蛋白質(zhì)組基因組學(xué)是近幾年誕生的一門用蛋白質(zhì)組信息解構(gòu)基因組的新興學(xué)科。 MS/MS質(zhì)譜實驗輔助基因組注釋已經(jīng)在多種物種中(原核生物,酵母,植物和人等)使用,涉及到基因組注釋的多個研究內(nèi)容,如:確認(rèn)預(yù)測基因、發(fā)現(xiàn)新基因、判斷假基因、證實可變剪切等。此外,串聯(lián)質(zhì)譜數(shù)據(jù)還和基因預(yù)測算法整合,提高了基因預(yù)測準(zhǔn)確率。 然而必須認(rèn)識到, 蛋白質(zhì)組基因組學(xué)領(lǐng)域還存在很多技術(shù)上的挑戰(zhàn), 目前研究還大多局限于低等生物, 結(jié)果局限在對基因組注釋的補充與修訂,離全基因組水平基因注釋還相距很遠。據(jù)估計約 40-60%的人類基因存在可變剪切, 但 Tanner 等從一千八百萬張 MS/M
42、S質(zhì)譜里只找到了 40 多個可變剪切。造成這樣結(jié)果的原因主要有: 1)質(zhì)譜鑒定肽段的過程一般利用數(shù)據(jù)庫搜索法,只有數(shù)據(jù)庫中存在的蛋白質(zhì)才可能被預(yù)測到; 2)肽段和蛋白質(zhì)的鑒定有一定的假陽性,錯誤率隨著數(shù)據(jù)庫的增大而增大; 3)只有 10% 20%的質(zhì)譜能匹配到肽段, 絕大多數(shù)的質(zhì)譜都沒有被解讀。 課題 1 已就這些問題提出了一系列解決方案,著重解決公共蛋白質(zhì)數(shù)據(jù)庫局限性問題以及肽段鑒定算法覆蓋率和重復(fù)率低的問題。 本課題將密切與課題 1 合作,利用課題 1 剖析 MS/MS數(shù)據(jù)的研究成果,通過 De Novo 方法直接分析和改善數(shù)據(jù)庫搜索效率以獲得盡可能多的肽段序列信息,然后建立 MS/MS數(shù)
43、據(jù)所對應(yīng)的肽段數(shù)據(jù)庫, 基于此數(shù)據(jù)庫進一步開展補充和修訂基因組蛋白質(zhì)編碼基因的研究工作。研究目標(biāo)一) 構(gòu)建綜合性蛋白質(zhì)序列數(shù)據(jù)庫;。16歡迎下載精品文檔二) 建立基于肽段信息注釋基因組的方法流程;三) 利用 MS/MS所鑒定的肽段補充和修訂基因組蛋白質(zhì)編碼基因。研究內(nèi)容一)蛋白質(zhì)序列數(shù)據(jù)庫的構(gòu)建為適應(yīng)蛋白質(zhì)數(shù)據(jù)庫搜索鑒定, 構(gòu)建一個基于基因組序列的, 比當(dāng)前公共蛋白質(zhì)數(shù)據(jù)庫包含序列種類更多、 數(shù)量更大的蛋白質(zhì)數(shù)據(jù)庫, 能使我們更有效地利用高通量蛋白質(zhì)組學(xué)質(zhì)譜數(shù)據(jù)。 在這個方面, 我們和課題 1 既有密切合作, 又有各自專攻方向。 課題 1 通過設(shè)計索引數(shù)據(jù)格式和讀取接口, 提高蛋白質(zhì)鑒定引擎的
44、搜索速度,有效估計和控制譜圖解析的錯誤率以解決海量規(guī)模數(shù)據(jù)庫的存儲和快速檢索問題,而本課題組則從如下幾個方面提供構(gòu)建綜合數(shù)據(jù)庫的策略:1) 整合現(xiàn)有的蛋白質(zhì)公共數(shù)據(jù)庫當(dāng)前蛋白質(zhì)序列公共數(shù)據(jù)庫,如 NCBI 蛋白質(zhì)數(shù)據(jù)庫, Uniprot 蛋白質(zhì)數(shù)據(jù)庫,以及 EMBL-EBI的 IPI 蛋白質(zhì)數(shù)據(jù)庫等囊括了絕大多數(shù)已知蛋白質(zhì)的序列信息。整理這些數(shù)據(jù)庫中的人類蛋白質(zhì)數(shù)據(jù), 包括不同庫間數(shù)據(jù)進行相互補充和驗證、通過 Blast 方法去除冗余蛋白質(zhì)、 統(tǒng)一蛋白質(zhì)編號、 使用 FASTA格式存儲包含對應(yīng)基因組定位信息在內(nèi)的蛋白質(zhì)序列信息, 從而構(gòu)建一個含有絕大多數(shù)已知人類蛋白質(zhì)序列的數(shù)據(jù)集合。2) 使用
45、 “六位移碼翻譯 ”方法得到全基因組 ORF數(shù)據(jù)集使用 “六位移碼翻譯 ”方法從基因序列中尋找潛在的 ORF,能最大范圍地覆蓋所有基因可能的轉(zhuǎn)錄本。從 NCBI基因組數(shù)據(jù)庫, Ensembl 基因組數(shù)據(jù)庫和 UCSC 基因組數(shù)據(jù)庫搜集到完整的基因組序列信息。 潛在的 ORF起始位點開始于每一個染色體的第一個堿基,每翻譯到終止密碼子時即為 ORF的終止位點。下一個 ORF 的起始位點定為上一個 ORF終止位點的下一個堿基。 基因組中不明確的堿基使用隨機方式以一種堿基代替。 這種方法應(yīng)用于基因組 DNA雙鏈的各三個閱讀框, 即“六位移碼翻譯 ”。每一個 ORF均標(biāo)示出基因組的坐標(biāo)與方向, 便于將肽
46、段信息匹配到基因組上。從每一個染色體得到的氨基酸序列以 FASTA格式保存。3) 構(gòu)建可變剪切數(shù)據(jù)庫可變剪切是單個基因編碼眾多蛋白質(zhì)亞型的重要機制。通過多種方法構(gòu)建可變剪切數(shù)據(jù)庫對于驗證已有的及發(fā)現(xiàn)新的可變剪切方式、發(fā)現(xiàn)新 ORF與新基因。17歡迎下載精品文檔具有重要意義。我們整合已有的(如 Ensembl 數(shù)據(jù)庫)和預(yù)測軟件(如 “AUGUSTUS”)預(yù)測的外顯子與內(nèi)含子信息, 構(gòu)建含有基因多種可變剪切模型的數(shù)據(jù)庫。具體步驟包括: 1)將基因(正鏈)的同一個轉(zhuǎn)錄本內(nèi)的已知與預(yù)測的外顯子按5' 至 3'順序排列后,依次按順序選取外顯子序列拼合組成所有可能的剪切方式;2)對于每一
47、種拼接結(jié)果,截取拼接點左右各90 個堿基序列(如果外顯子堿基數(shù)少于90,則取其全部序列,截取過程中保留拼接點位置信息),從該序列 5' 端每次移動一個堿基共移動三次分別按通用密碼子翻譯成含有近60 個氨基酸的肽段序列;3)去除不連續(xù)的無意義的蛋白質(zhì)序列; 4)位于反鏈上的基因?qū)⑵滢D(zhuǎn)錄本反轉(zhuǎn)成相應(yīng)的正鏈堿基序列后按照前三個步驟構(gòu)建可變剪切序列。為了應(yīng)對MS/MS搜索后續(xù)的結(jié)果評估,上述三個數(shù)據(jù)庫還會與一個將靶序列打亂( shuffle)生成的 “誘餌 ”(decoy )庫相結(jié)合,生成最終用于搜索的大型數(shù)據(jù)庫。任何一個在靶序列庫和誘餌序列庫中同時出現(xiàn)的8 氨基酸以上的序列都會被重新打亂 (
48、re-shuffled),以保證靶序列與誘餌序列之間的重合度最小,方便后續(xù)鑒定結(jié)果假陽性率(false-discovery rate, FDR)的估算。二)建立基于肽段信息注釋基因組的方法流程通過 De Novo方法直接分析和改善數(shù)據(jù)庫搜索效率, 我們將盡可能從高精度MS/MS數(shù)據(jù)獲得豐富的肽段序列,并建立 MS/MS對應(yīng)的肽段數(shù)據(jù)庫。以此數(shù)據(jù)庫為基點可通過與對應(yīng)的蛋白質(zhì)信息聯(lián)配( alignment )至基因組上,將這些肽段延伸成開放閱讀框(ORF),最終生成一個“蛋白質(zhì)組基因組學(xué)圖譜”( proteogenomic map)。這些基于肽段序列的基因組注釋方法學(xué)將主要包括下列七個方面:1)
49、鑒定已知蛋白質(zhì)的診斷( diagnostic )肽段結(jié)合完全匹配文本搜索和本地序列聯(lián)配方法 (如 Perl 編寫的正則表達式),可鑒定出映射到已知編碼區(qū)域的基因內(nèi)診斷肽段。由這種方法無法鑒定的肽段,運用 TBLASTN(使用 PAM30矩陣)對它們親本( parent )基因的蛋白質(zhì)產(chǎn)物進行聯(lián)配,只考慮 100%匹配的鑒定結(jié)果。2) 分類已知基因內(nèi)的新診斷肽段將不能聯(lián)配于任意已知蛋白質(zhì)的基因內(nèi)診斷肽段聯(lián)配到從 UCSC基因組網(wǎng)站上獲得的人類 ESTs庫,MEGABLAST使用步長 12。新肽段完全包含在已注釋外顯。18歡迎下載精品文檔子之內(nèi)定義為IE ( intronic exon),肽段與已
50、注釋外顯子部分重疊分類為OE( overlappingexon ),而 完全 未處于已 注釋外顯 子中 的肽段定 義為NE( non-overlapping exon )。3) 定義新編碼區(qū)域?qū)υ\斷肽段 NE和 OE編碼區(qū)域兩側(cè)延伸 1000堿基對由 BLASTN聯(lián)配到 ESTs,只接受匹配重疊于肽段編碼區(qū)域且E 值小于 1e-6 的結(jié)果。新編碼區(qū)域的相應(yīng)基因位置來自于從重疊ESTs生成的最長鄰近聯(lián)配窗。4)鑒定蛋白質(zhì)結(jié)構(gòu)域( domain)分類為 OE的診斷肽段以BLASTP聯(lián)配到他們的親本基因??赡馨码亩蔚南鄳?yīng)蛋白質(zhì)隨后被計算確定。 每個蛋白質(zhì)序列使用UNIPROT和 PROSITE搜
51、索其蛋白質(zhì)結(jié)構(gòu)域。從數(shù)據(jù)庫中挑出重疊到新肽段區(qū)域的蛋白質(zhì)結(jié)構(gòu)域。包括新OE肽段序列的理論蛋白質(zhì)亦基于如上所述的BLASTP相應(yīng)產(chǎn)物生成。這些理論蛋白質(zhì)也由 PROSITE分析,并與原始蛋白質(zhì)相比較, 以額外氨基酸殘基的存在確定引入蛋白質(zhì)結(jié)構(gòu)域的變化。5)校正開放閱讀框在當(dāng)前基因模型之外發(fā)現(xiàn)的新肽段中,當(dāng)有些新肽段位于已知的基因座( gene locus )時,這些與基因座的編碼區(qū)域重合的肽段將位于一個新閱讀框內(nèi)。為了(至少在一定程度上) 證實這些被錯誤預(yù)測的基因的存在, 我們用幾個特征篩選這些新肽段: 位于已知閱讀框外的新肽段要多次出現(xiàn), 超出閱讀框外的氨基酸個數(shù)至少為 3,與已知數(shù)據(jù)庫中的序
52、列沒有沖突。6) 分析基因的可變剪切可采用兩種策略,篩選跨越基因組上剪切位點邊界的肽段,對已知的基因可變剪切模式進行注釋或發(fā)現(xiàn)基因的新剪切方式: 1)利用整合的現(xiàn)有的蛋白質(zhì)公共數(shù)據(jù)庫與使用 “六位移碼翻譯 ”方法得到全基因組ORF數(shù)據(jù)集,將高通量質(zhì)譜鑒定到的肽段以無間隙(no gap)方式匹配到這些蛋白質(zhì)序列。將匹配到的蛋白質(zhì)重新比對到基因組后得到這些肽段在基因組上的位置信息。2)直接利用構(gòu)建的 “可變剪切庫 ”及其保留的可變剪切位置信息,合并入一個競爭性數(shù)據(jù)庫。 篩除最佳匹配出現(xiàn)在競爭性數(shù)據(jù)庫中的肽段,篩出跨越可變剪切位點的肽段。7)整合肽段開發(fā)新的基因預(yù)測算法。19歡迎下載精品文檔將質(zhì)譜鑒定到的肽段用TBLASTN算法對齊到基因組序列上。根據(jù)肽段在基因組上的位置為每個核苷酸指派狀態(tài),用隱馬爾可夫方法建立基因預(yù)測模型,并估計模型參數(shù)。用此模型與
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 人事助理試用期聘用合同模板
- 小區(qū)房屋買賣合同范本年
- 專業(yè)別墅裝修合同范本大全
- 產(chǎn)權(quán)清晰的地下車位買賣合同
- 中韓文化交流與合作合同
- 產(chǎn)品責(zé)任賠償保險合同范本
- 個人債務(wù)轉(zhuǎn)讓及履行合同協(xié)議
- 事業(yè)單位勞動合同標(biāo)準(zhǔn)文本
- 產(chǎn)學(xué)研技術(shù)合作開發(fā)合同范例
- 個人合伙技術(shù)服務(wù)合同協(xié)議書范本
- 電捕焦油器火災(zāi)爆炸事故分析
- 質(zhì)量問題分析及措施報告
- 汽修廠安全風(fēng)險分級管控清單
- 現(xiàn)代通信原理與技術(shù)(第五版)PPT全套完整教學(xué)課件
- 病例展示(皮膚科)
- GB/T 39750-2021光伏發(fā)電系統(tǒng)直流電弧保護技術(shù)要求
- DB31T 685-2019 養(yǎng)老機構(gòu)設(shè)施與服務(wù)要求
- 燕子山風(fēng)電場項目安全預(yù)評價報告
- 高一英語課本必修1各單元重點短語
- 完整版金屬學(xué)與熱處理課件
- T∕CSTM 00640-2022 烤爐用耐高溫粉末涂料
評論
0/150
提交評論