生物信息學(xué)陳老板實(shí)驗(yàn)室內(nèi)部總結(jié)!!_第1頁(yè)
生物信息學(xué)陳老板實(shí)驗(yàn)室內(nèi)部總結(jié)!!_第2頁(yè)
生物信息學(xué)陳老板實(shí)驗(yàn)室內(nèi)部總結(jié)!!_第3頁(yè)
生物信息學(xué)陳老板實(shí)驗(yàn)室內(nèi)部總結(jié)!!_第4頁(yè)
生物信息學(xué)陳老板實(shí)驗(yàn)室內(nèi)部總結(jié)!!_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 bowung 2010/12/16一什么是生物信息學(xué)?Genome informatics is a scientific discipline that encompasses all aspects of genome information acquisition, processing, storage, distribution, analysis, and interpretation. ( 它是一個(gè)學(xué)科領(lǐng)域,包含著基因組信息的獲取、處理、存儲(chǔ)、分配 、分析和解釋的所有方面。) (The U.S. Human Genome Project: The First Five Year

2、s FY 1991-1995, by NIH and DOE) 生物信息學(xué)是把基因組DNA序列信息分析作為源頭,破譯隱藏在DNA序列中的遺傳語言,特別是非編碼區(qū)的實(shí)質(zhì);同時(shí)在發(fā)現(xiàn)了新基因信息之后進(jìn)行蛋白質(zhì)空間結(jié)構(gòu)模擬和預(yù)測(cè)。生物信息學(xué)的研究目標(biāo)是揭示“基因組信息結(jié)構(gòu)的復(fù)雜性及遺傳語言的根本規(guī)律”。它是本世紀(jì)自然科學(xué)和技術(shù)科學(xué)領(lǐng)域中“基因組、“信息結(jié)構(gòu)”和“復(fù)雜性”這三個(gè)重大科學(xué)問題的有機(jī)結(jié)合。二、生物學(xué)研究?jī)?nèi)容(一)經(jīng)典的研究?jī)?nèi)容-大規(guī)?;蚪M測(cè)序中的信息分析-拼接和注釋大規(guī)模測(cè)序是基因組研究的最基本任務(wù),它的每一個(gè)環(huán)節(jié)都與信息分析緊密相關(guān)。從測(cè)序儀的光密度采樣與分析、堿基讀出、載體標(biāo)識(shí)與去除

3、、拼接與組裝、填補(bǔ)序列間隙、到重復(fù)序列標(biāo)識(shí)、讀框預(yù)測(cè)和基因標(biāo)注的每一步都是緊密依賴基因組信息學(xué)的軟件和數(shù)據(jù)庫(kù)的。 1How to find the coding regions in rude DNA sequence?By signals or By contents 基于信號(hào)或堿基組成By signals 作為參考信息Among the types of functional sites in genomic DNA that researchers have sought to recognize are splice sites, start and stop codons, bran

4、ch points, promoters and terminators of transcription, polyadenylation sites, ribosomal binding sites, topoisomerase II binding sites, topoisomerase I cleavage sites, and various transcription factor binding sites. Local sites such as these are called signals and methods for detecting them may be ca

5、lled signal sensors.第一、序列長(zhǎng)度短,重復(fù)性大,假的比真的多百千倍,因而單獨(dú)使用無法真正達(dá)到檢測(cè)的目的。第二、信號(hào)模式不是唯一不變的,而是用概率來表示的。By content 更多依賴于I. Statistical method and Sequence Alignment Method eneven positional base frequence (D value)編碼區(qū)是三聯(lián)體,將密碼子翻譯與天然蛋白的氨基酸序列進(jìn)行比較(天然的蛋白質(zhì)有固定的氨基酸比例)。這種方法產(chǎn)生三種可能的氨基酸序列,若其中有一個(gè)非常像氨基酸序列,則另外兩個(gè)都非常不像,則非常像的那個(gè)便是;若三個(gè)

6、都模糊像,則都不是。與數(shù)據(jù)庫(kù)進(jìn)行比對(duì),這種方法發(fā)現(xiàn)不了新蛋白。II. Sequence Analysis Pairwise Alignment 雙序列比對(duì)經(jīng)典的雙序列比對(duì)運(yùn)用動(dòng)態(tài)規(guī)劃(DP)的形式,通過緩存亞問題的解決和重利用而不是重計(jì)算他們而解決一個(gè)最佳問題,運(yùn)動(dòng)DP的尋找兩個(gè)長(zhǎng)度為N的序列最佳排列將產(chǎn)生N2的亞問題。準(zhǔn)確,但耗費(fèi)計(jì)算機(jī)的資源。上述方法在序列很長(zhǎng)時(shí)計(jì)算速度太慢,因此人們將之簡(jiǎn)化,發(fā)展處Heuristic schemes的方法。比較成熟的有FASTA和BLAST。這種方法搜尋短序列不插入間隔。(序列比對(duì)(alignment):為確定兩個(gè)或多個(gè)序列之間的相似性以至于同源性,而將它

7、們按照一定的規(guī)律排列。 將兩個(gè)或多個(gè)序列排列在一起,標(biāo)明其相似之處。序列中可以插入間隔(通常用短橫線“-”表示)。對(duì)應(yīng)的相同或相似的符號(hào)(在核酸中是A, T(或U), C, G,在蛋白質(zhì)中是氨基酸殘基的單字母表示)排列在同一列上。)III. Neural network-神經(jīng)網(wǎng)絡(luò)-predicting the splicing sitesAGCT硬件和軟件構(gòu)成的神經(jīng)元系統(tǒng),并構(gòu)建標(biāo)準(zhǔn)數(shù)據(jù)底(標(biāo)準(zhǔn)非編碼序列,標(biāo)準(zhǔn)的三聯(lián)體密碼序列)一個(gè)個(gè)試,調(diào)節(jié)系統(tǒng)能準(zhǔn)確輸出序列。任意挑出一個(gè)非編碼序列能輸出0。神經(jīng)網(wǎng)絡(luò)包括輸入層,中間層和輸出層。輸入層為非線性慣性,每個(gè)位置只能有五個(gè)值,四種堿基或空。輸出層代表

8、輸入序列是否為編碼序列,對(duì)應(yīng)中間的堿基像不像。IV. Fractal dimension of exons and introns 分維值轉(zhuǎn)彎越多,值越大。將任一序列投影到堿基坐標(biāo),計(jì)算分維值,非編碼和編碼序列的分維值不同,可比較0 0.5 1 1.5 2 2.5 3 3.5 07654321Intron Seq.Exon Seq.Random Seq.End-to-end RangeMain RangeGeometric RangelnN分維小,像編碼序列V. Complexity analysis-復(fù)雜度分析How many different patterns are there in

9、the area of the different DNA sequence?我們的結(jié)果發(fā)現(xiàn)外顯子的復(fù)雜度比內(nèi)含子和5以及3側(cè)翼序列要高。什么是復(fù)雜度?任意取一個(gè)字符,花樣出現(xiàn)多少次?若一段序列出現(xiàn)四種堿基就比出現(xiàn)三種堿基要復(fù)雜。窗口:將一段序列分成幾個(gè)一組,18個(gè)一個(gè)窗口。VI. Method and Techniques in Cryptology-密碼分析學(xué)的方法-Coincident Indexs,重合指數(shù)認(rèn)定,將密碼進(jìn)行過濾,找出重合指數(shù)高的片段,再結(jié)合進(jìn)行變異。Unicity Distance ,單一距離。VII. Sequence Analysis Multiple Alignm

10、ent-多序列比對(duì)雙序列比對(duì)是序列比對(duì)的一種特殊形式,多序列比對(duì)能總結(jié)得到比對(duì)序列家族,估計(jì)一個(gè)新序列歸屬于一個(gè)已知序列的可能性,序列家族內(nèi)的比對(duì)。雙序列比較是不能給出兩者的同源關(guān)系的,需要兩個(gè)序列以上進(jìn)行比較,給出這些序列代表物種間的同源序列,沒有精確解,只有相似解。多種方法一起使用,看結(jié)果,但也無法知道基因的嚴(yán)格位置,準(zhǔn)確報(bào)出基因的結(jié)構(gòu)(從算法本質(zhì)上不同的算法進(jìn)行比較來確定準(zhǔn)確性,準(zhǔn)確性較高)。2問題與挑戰(zhàn)1)散在重復(fù)序列:花樣類似但是分散在不同的位置。Alu2) 由于RNA編輯,可變剪接,一個(gè)基因產(chǎn)生許多蛋白3四個(gè)例子1)理論研究:騰沖耐熱菌的測(cè)序和其耐熱性的研究研究代謝途徑,測(cè)出未知功

11、能的基因方法,將所有FA合成的路徑圖全畫出,將其編碼的2800多個(gè)蛋白與圖上所需酶進(jìn)行比對(duì),所有酶都對(duì)上就是這個(gè)途徑。親緣關(guān)系(和枯草桿菌60%的親緣性,不耐熱) 代謝(脂肪酸,核酸)有什么特殊的pathway 重復(fù)片段300bp,280次,是轉(zhuǎn)錄的起始位點(diǎn) 將耐熱與不耐熱的細(xì)菌基因組進(jìn)行比較,得出耐熱所需的蛋白 一般來說,耐熱菌的G-C含量較高(其實(shí)不然),耐熱菌的G-C大部分小于50%,但是不耐熱菌G-C含量變化更大,多以細(xì)菌基因組G-C含量與耐熱無關(guān),但與mRNA, rRNA的G-C含量有關(guān),G-C含量高,耐熱性上升。2)疾病研究:細(xì)菌性痢疾 測(cè)序發(fā)現(xiàn),引起細(xì)菌性痢疾細(xì)菌的基因組和Eco

12、liK12 , Ecoli157很近。比較引起痢疾和不引起痢疾細(xì)菌,發(fā)現(xiàn)了痢疾引起的細(xì)菌含有毒力島和黑洞(痢疾沒有,不痢疾的有,保護(hù)機(jī)制的喪失)。3)工業(yè)生產(chǎn):維生素C生產(chǎn)菌株氧化葡萄酸桿菌基因組測(cè)序和組裝4)SARS簡(jiǎn)介 The capped and poly-adenylated genome is the largest of the RNA viruses and has a unique method of replication. These viruses have the ability to genetically recombine with other members o

13、f the coronavirus family. The genome encodes 3 or 4 different structural proteins. Human Coronavirus-OC43 encodes for hemagglutinin-esterase (HE) whereas HCV-229E does not. This protein causes red blood cells to clump together, and can be used to determine how much virus is in a sample. HE can also

14、initiate binding. Human Torovirus also encodes for HE. All coronaviruses encode for a nucleocapsid protein (N). This protein binds to RNA and forms a helical nucleocapsid. It may be involved in the regulation of RNA synthesis. The membrane glycoprotein (M) is involved with envelope formation. The sp

15、ike protein (S) is also responsible for binding to cells. The corona cycle link to the left explains the involvement of these proteins in each step of the dynamic phase. (二)新基因和新SNPs的發(fā)現(xiàn)與鑒定大部分新基因是靠理論方法預(yù)測(cè)出來的。比如啤酒酵母完整基因組 (約1300萬bp) 所包含的 6千多個(gè)基因,大約 60 是通過信息分析得到的。a) 、利用 EST( Expression Sequence Tag) 數(shù)據(jù)庫(kù) (

16、dbEST) 發(fā)現(xiàn)新基因和新SNPs 國(guó)際上現(xiàn)已出現(xiàn)了幾個(gè)基于EST的基因索引如UniGene, Merck-Gene, GenExpress-index,這些基因索引數(shù)據(jù)庫(kù)(即二次數(shù)據(jù)庫(kù))構(gòu)建了基因框架,極大地方便了相關(guān)研究者。 超大規(guī)模計(jì)算 方法:建立實(shí)驗(yàn)方法,讓一小段真正的編碼區(qū)標(biāo)簽表達(dá),企圖發(fā)現(xiàn)整個(gè)編碼序列,幾百個(gè)堿基序列一個(gè)標(biāo)簽,其數(shù)據(jù)庫(kù)集中全世界所有的標(biāo)簽,進(jìn)行拼接和組裝,得到編碼序列,同樣將相同片段進(jìn)行比較能發(fā)現(xiàn)SNPs,也可以發(fā)現(xiàn)非編碼序列b)、從基因組 DNA序列中預(yù)測(cè)新ORF兩者區(qū)別:前者是利用EST數(shù)據(jù)庫(kù)進(jìn)行片段的拼接與組裝,而后者是利用基因組數(shù)據(jù)庫(kù)的基因序列進(jìn)行識(shí)別、預(yù)

17、測(cè),c基因電腦克隆基因電腦克隆的實(shí)質(zhì): 以一個(gè)序列片段為線索, 通過它和整個(gè)數(shù)據(jù)庫(kù)的比較, 還原出全序列原貌。原理:當(dāng)測(cè)序獲得一條EST序列時(shí),它來自哪一個(gè)基因的哪個(gè)區(qū)域是未知的(隨機(jī)的),所以屬于同一個(gè)基因的不同EST序列之間常有交疊的區(qū)域。根據(jù)這種“交疊”現(xiàn)象,就能找出屬于同一個(gè)基因的所有EST序列,進(jìn)而將它們拼接成和完整基因相對(duì)應(yīng)的全長(zhǎng)cDNA序列。可行性:到目前為止, 公共EST數(shù)據(jù)庫(kù)(dbEST)中已經(jīng)收集到約800萬條的人的EST序列。估計(jì)這些序列已覆蓋了人類全部基因的95%以上,平均起來每個(gè)基因有10倍以上的覆蓋率。 嵌合體cDNA是指來源于不同基因的序列,由于偶然因素被組裝在一

18、起形成的Contig。我們構(gòu)建的神經(jīng)網(wǎng)絡(luò)能探測(cè)組裝過程形成的嵌合體。d.不同的實(shí)施方案和計(jì)算量n 將數(shù)據(jù)庫(kù)中的所有序列進(jìn)行兩兩比較, 將他們分成一組組(一組內(nèi)的序列都屬于同個(gè)基因), 最后再拼接成一條條完整的cDNA序列。對(duì)于人的EST庫(kù)(5百萬條序列),需要進(jìn)行的序列比對(duì)次數(shù)為: l 0.5*(5*106)2=1.25*1013。n 以一組感興趣的(如表達(dá)于某種組織的)序列作為”種子”序列(N條),將它們和整個(gè)庫(kù)比較,以找到它們所屬的完整cDNA序列。這種方案需要進(jìn)行的序列比對(duì)次數(shù)為:u N*5*106。4 EST 利用 EST( Expression Sequence Tag) 數(shù)據(jù)庫(kù) (

19、dbEST) 發(fā)現(xiàn)新基因和新SNPs EST數(shù)據(jù)庫(kù)質(zhì)量相對(duì)較低,就象許多文獻(xiàn)報(bào)道,發(fā)現(xiàn)了許多內(nèi)含子,克隆載體,多酶切點(diǎn),ALU以及3、5非翻譯序列(統(tǒng)稱污染序列,也稱載體序列或非insert序列)被包含在EST數(shù)據(jù)庫(kù)中,這使得EST序列分析復(fù)雜化。因此在進(jìn)行Contig電腦組裝之前,需要探測(cè)并去除EST數(shù)據(jù)庫(kù)中的污染序列。為探測(cè)并去除EST數(shù)據(jù)庫(kù)中的污染序列,必須建立載體庫(kù),對(duì)種子庫(kù)和人EST庫(kù)中的每條序列掃描其前端和尾部檢查上述非Insert序列,并去除。全長(zhǎng)cDNA標(biāo)注涉及到mRNA的5端即轉(zhuǎn)錄起始位點(diǎn)區(qū)、第一個(gè)ATG、開讀框架、終止密碼子和3端的確認(rèn)。目前國(guó)際上各種二次數(shù)據(jù)庫(kù)的建立和公布

20、,使得我們有可能利用現(xiàn)有的數(shù)據(jù)源,通過同源性比較來預(yù)測(cè)mRNA的5端,最常用的與轉(zhuǎn)錄起始位點(diǎn)相關(guān)的數(shù)據(jù)庫(kù)是真核啟動(dòng)子數(shù)據(jù)庫(kù)(The TRADAT Project , Eukaryotic Promoter Database, EPD. http:/www.epd.unil.ch/ )。 開讀框架(Open Reading Frame: ORF)的預(yù)測(cè)常與第一個(gè)ATG和終止密碼子的確定相關(guān),但由于EST序列相對(duì)較低的測(cè)序質(zhì)量,在測(cè)序過程中出現(xiàn)的堿基刪除或插入錯(cuò)誤(稱為indel錯(cuò)誤)將引起讀框移動(dòng),甚至出現(xiàn)假終止密碼子,所以,僅憑第一個(gè)ATG和終止密碼子是不足以確定ORF的。我們結(jié)合下述幾種方法

21、對(duì)Contigs進(jìn)行標(biāo)注,先用復(fù)合人工神經(jīng)網(wǎng)絡(luò)系統(tǒng)預(yù)測(cè)Contig編碼蛋白的可能性,然后采用NCBI的ORF預(yù)測(cè)軟件 ( ORF finder: /gorf/orfig.cgi )初步判斷ORF的可能范圍。第一個(gè)ATG的確定則依據(jù)Kozak規(guī)則和信號(hào)肽分析軟件(SignalP http:/www.cbs.dtu.dk/services/signalP )的結(jié)果。所謂Kozak規(guī)則,即第一個(gè)ATG側(cè)翼序列的堿基分布所滿足的統(tǒng)計(jì)規(guī)律,若將第一個(gè)ATG中的堿基A,T,G分別標(biāo)為1,2,3位,則Kozak規(guī)則可描述如下:(1)第4位的偏好堿基為G;(

22、2)ATG的5端約15bp范圍的側(cè)翼序列內(nèi)不含堿基T;(3)在-3,-6和-9位置,G是偏好堿基;(4)除-3,-6和-9位,在整個(gè)側(cè)翼序列區(qū),C是偏好堿基。Kozak規(guī)則是基于已知數(shù)據(jù)的統(tǒng)計(jì)結(jié)果,為獲得高可信度的結(jié)果,我們把預(yù)測(cè)過程中證實(shí)含完整mRNA 5端的Contig翻譯為蛋白序列,然后用SignalP軟件對(duì)前50個(gè)氨基酸序列(從第一個(gè)ATG對(duì)應(yīng)的甲硫氨酸Met開始)進(jìn)行評(píng)估,如果SignalP分析給出正面結(jié)果,則測(cè)試序列有可能為信號(hào)肽,假如在該測(cè)試序列的第一個(gè)Met 5端存在終止密碼子,該序列為信號(hào)肽的可能性更大。3端的確認(rèn)主要根據(jù)Poly(A)尾序列,若測(cè)試Contig不含Poly(

23、A)序列,則根據(jù)加尾信號(hào)序列“AATAAA”和BLAST同源性比較結(jié)果共同判斷。 嵌合體cDNA是指來源于不同基因的序列,由于偶然因素被組裝在一起形成的Contig。我們構(gòu)建的神經(jīng)網(wǎng)絡(luò)能探測(cè)組裝過程形成的嵌合體。 EST數(shù)據(jù)也可用來幫助研究基因的可變剪接和發(fā)現(xiàn)非編碼RNA。5 完整基因組的比較研究是一個(gè)新方向研究生命是從哪里起源的?生命是如何進(jìn)化的?遺傳密碼是如何起源的?估計(jì)最小獨(dú)立生活的生物至少需要多少基因,這些基因是如何使它們活起來的?比如,鼠和人的基因組大小相似,都含有約三十億堿基對(duì),基因的數(shù)目也類似。可是鼠和人差異確如此之大,這是為什么?同樣,有的科學(xué)家估計(jì)不同人種間基因組的差別僅為

24、0.1%;人猿間差別約為1%。但他們表型間的差異十分顯著。 這又為什么?完整基因組序列的比較研究是解決這些問題的重要途徑。The distribution of mouse homology genes in the human chromosome 鼠的1號(hào)染色體分布人的.8.13.18號(hào)染色體上,waston, crick第一次來中國(guó)時(shí)說腫瘤的發(fā)生也可能因?yàn)榛虻膿Q位,改變基因表達(dá)水平。所以不同編排方式使得基因表達(dá)存在很大差別。HOX基因是看家基因,脊椎動(dòng)物的HOX基因是果蠅的四倍,果蠅到人基因組很可能是經(jīng)過了兩次的加倍。六基于序列數(shù)據(jù)的生物進(jìn)化研究當(dāng)前面臨的問題自1859年

25、 Darwin 的物種起源 (Origin of Species) 發(fā)表以來,進(jìn)化論成為對(duì)人類自然科學(xué)和自然哲學(xué)發(fā)展的最重大貢獻(xiàn)之一。 進(jìn)化論研究的核心是描述生物進(jìn)化的歷史(系統(tǒng)進(jìn)化樹)和探索進(jìn)化過程的機(jī)制。自本世紀(jì)中葉以來,隨著分子生物學(xué)的不斷發(fā)展,進(jìn)化論的研究也進(jìn)入了分子水平。當(dāng)前分子進(jìn)化的研究已是進(jìn)化論研究的重要手段,并建立了一套依賴于核酸、蛋白質(zhì)序列信息的理論方法。2、用進(jìn)化樹分析序列的進(jìn)化 序列相似性比較。就是將待研究序列與DNA或蛋白質(zhì)序列庫(kù)進(jìn)行比較,用于確定該序列的生物屬性,也就是找出與此序列相似的已知序列是什么。完成這一工作只需要使用兩兩序列比較算法。常用的程序包有B

26、LAST、FASTA等;序列同源性分析。是將待研究序列加入到一組與之同源,但來自不同物種的序列中進(jìn)行多序列同時(shí)比較,以確定該序列與其它序列間的同源性大小。這是理論分析方法中最關(guān)鍵的一步。完成這一工作必須使用多序列比較算法。常用的程序包有CLUSTAL等;構(gòu)建系統(tǒng)進(jìn)化樹。根據(jù)序列同源性分析的結(jié)果,重建反映物種間進(jìn)化關(guān)系的進(jìn)化樹。為完成這一工作已發(fā)展了多種軟件包,象PYLIP、MEGA等;穩(wěn)定性檢驗(yàn)。為了檢驗(yàn)構(gòu)建好的進(jìn)化樹的可靠性,需要進(jìn)行統(tǒng)計(jì)可靠性檢驗(yàn),通常構(gòu)建過程要隨機(jī)地進(jìn)行成百上千次,只有以大概率(70以上)出現(xiàn)的分支點(diǎn)才是可靠的。通用的方法使用 Bootstrap算法,相應(yīng)的軟件已包括在構(gòu)

27、建系統(tǒng)進(jìn)化樹所用的軟件包當(dāng)中。為便于使用者查找表三給出了進(jìn)化分析相關(guān)軟件的因特網(wǎng)地址。3、基因的橫向遷移 生物同一狀態(tài)下,出于不同進(jìn)化程度的物種間的基因橫向轉(zhuǎn)移不是進(jìn)化來的,而是在同一時(shí)代橫向遷移來的,人基因中的223基因是細(xì)菌的,而線蟲,果蠅和酵母中沒有,說明是垂直進(jìn)化來。 More and more LGT(Lateral Gene Transfer ) were discovered and reported. Some people guess 1.5%14.5% of genes in a genome are related with LGT, even rRNA molecule

28、s are involved in LGT;As more and more whole genome sequence and the related data become available, it is possible to re-consider the phylogeny and clustering properties of species in more broad measurements, even in level of whole genome.怎樣在考慮LGT的基礎(chǔ)上進(jìn)行進(jìn)化樹分析構(gòu)建數(shù)據(jù)庫(kù)COG歸屬于genebank去掉LGT基于實(shí)驗(yàn)基因組的方法,利用各種完整的

29、基因組,可以不考慮LGTQ:怎么比不同SIZE的基因組(人與支原體) 用(CISA:Complete Information Set Analysis)抽提每個(gè)基因組的特殊,如一個(gè)支原體400kb,抽提特殊序列,除以400,人基因組為30億,提取其特殊,再除以30億,再進(jìn)行比較。Phylogeny Based on Whole Genome as inferred from Complete Information Set Analysis (CISA) we present a new method based on information theory to calculate the p

30、hylogenic distance between biological sequences, including 16s Ribosomal RNA, which is used for method proof-test, 24 completely sequenced genomes, as well as all predicted ORF products of them, creating Phylogeny of genome and proteome using neighboring-joining algorithm. Scientists have already be

31、en conscious of that no other biological sequence can bring more phylogenetic information than the genome. However, previous algorithms dont have the ability to handle such megabase level nucleic acid or amino acid sequences, whose length sizes are in most cases unequal. The Composition of Proteins

32、with different functions(COG)in a Whole Proteome Reveals the Organisms Phylogeny and Clustering PropertiesWe took the 17 functional classes of COGs (Clusters of Orthologous Groups) as the basic classes of protein functions and constructed a 17-D protein_vector to describe the potential functions of

33、the protein. By summing up all protein_vectors belonging to the proteome and then normalizing it, we got a 17-D “Proteome_Vector” reflecting the composition of proteins of different functions in the proteome. By regarding this kind of 17-D Proteome_Vectors as “characteristic vectors” of the organism

34、s, we investigated the clustering properties and phylogeny relationships of the 36 species (8 Archaea、 24 Bacteria and 4 Eukarya) whose genome sequences and related annotations are available at that time七2000年基因組研究的三個(gè)突出方面1. 干細(xì)胞作為基因組研究的重要選材Celera Genomics And Geron Corporation Announce Collaboration

35、For Human Pluripotent Stem Cell (Genomics June 12, 2000) The objective of the collaboration is to identify and assign function to genes important in early human development, and to utilize the information to develop small molecule pharmaceuticals, protein therapeutics, cell and gene therapies, diagn

36、ostics, and tools for use in drug discovery and testing. 2. SNP研究的國(guó)際大協(xié)作The SNP Consortium Ltd. is a non-profit foundation organized for the purpose of providing public genomic data. Its mission is to develop up to 300,000 SNPs distributed evenly throughout the human genome and to make the informatio

37、n related to these SNPs available to the public without intellectual property restrictions. 856,666 mapped SNPs,is now available.(July 11, 2000)Human Genome Project and SNP Consortium Announce Collaboration The explanations may reside in the cumulative (累積的)effect of a small number of differences in

38、 DNA base sequence called single-nucleotide polymorphisms (SNPs), which underlie individual responses to environment, disease, and medical treatments. SNPs are the most common type of sequence variation. SNP研究是基因組領(lǐng)域理論成果走向應(yīng)用的關(guān)鍵步驟。是聯(lián)系基因型和表現(xiàn)型之間關(guān)系的橋梁。SNP研究是人類基因組計(jì)劃走向應(yīng)用的重要步驟。SNP研究有很多優(yōu)點(diǎn):首先是SNP在基因組中分布相當(dāng)廣泛,近

39、來的研究表明在人類基因組中每300bp就出現(xiàn)一次。但在已知SNP中,僅有不到1的SNP造成蛋白的變化。大量存在的SNP位點(diǎn),使人們有機(jī)會(huì)發(fā)現(xiàn)與各種疾病,包括腫瘤相關(guān)的基因組突變;從實(shí)驗(yàn)操作來看通過SNP發(fā)現(xiàn)疾病相關(guān)基因突變要比通過家系來得容易;有些SNP并不直接導(dǎo)致疾病基因的表達(dá),但由于它與某些疾病基因相鄰,而成為重要的標(biāo)記。這樣的標(biāo)記有助于發(fā)現(xiàn)疾病基因;SNP在基礎(chǔ)研究中也發(fā)揮了巨大的作用,比如,近年來對(duì)Y染色體SNP的分析,使得在人類進(jìn)化、人類種群的演化和遷徙領(lǐng)域取得了一系列重要成果。 Y染色體遷移:找人的Y染色體(演化慢,伴性)找基因與人類繁衍有關(guān),8萬個(gè)堿基,測(cè)不同人的這個(gè)基因,八大地

40、區(qū),不同種族,挑了非洲的隔離人群(從未離開),大猩猩,黑猩猩總共100例,在基因上得到1點(diǎn),可將上面分成兩個(gè)部分:隔離人群,大猩猩,黑猩猩一組,其余一組。得出的結(jié)論是:I. 古老人群出現(xiàn)在非洲,古老人群從未離開過非洲II. 現(xiàn)在人從非洲走向世界III. 堿基突變需要20-30萬年亞洲人為第六路大軍,先遷到南方。8 大規(guī)模基因功能表達(dá)譜的分析隨著人類基因組測(cè)序逐漸接近完成,人們自然會(huì)提出如下的問題:即使我們已經(jīng)獲得了人的完整基因圖譜,那我們對(duì)人的生命活動(dòng)能說明到什么程度呢?人們進(jìn)一步提出了一系列由上述數(shù)據(jù)所不能說明的問題,例如:基因表達(dá)的產(chǎn)物是否出現(xiàn)與何時(shí)出現(xiàn);基因表達(dá)產(chǎn)物的量是多少;是否存在翻

41、譯后的修飾過程,若存在是如何修飾的;基因敲除(knock-out)或基因過度表達(dá)的影響是什么;多基因差異表達(dá)與表現(xiàn)型關(guān)系如何等等。概括這些問題,其實(shí)質(zhì)應(yīng)該是:知道了核酸序列和基因,我們依然不知道它們是如何發(fā)揮功能的,或者說它們是如何按照特定的時(shí)間、空間進(jìn)行基因表達(dá)的,表達(dá)量有多少。 基因芯片Microarray:An arrayed series of thousands of tiny DNA oligonucleotide samples imprinted on a small chip.mRNAs can be hybridized to microarrays to asseess

42、the amount and level of gene expression.(GENES' X)通常芯片數(shù)據(jù)分析有如下的一些步驟,它們的每一步都與生物信息學(xué)相關(guān):Scanning(掃描):讀取芯片上的光密度。因?yàn)樾酒系狞c(diǎn)都是被熒光染料標(biāo)記的(一般有紅、綠兩種顏色),熒光強(qiáng)度就代表了基因的表達(dá)量;Gridding(網(wǎng)格化):確定芯片每一個(gè)雜交點(diǎn)的位置。具體說來,它要做三件事情,即:發(fā)現(xiàn)每一個(gè)雜交點(diǎn);按照信號(hào)的強(qiáng)弱等級(jí)分割信號(hào)和背景的邊界;分別讀取信號(hào)和背景的光強(qiáng)度。Normalization(標(biāo)準(zhǔn)化):對(duì)所有信號(hào)進(jìn)行標(biāo)準(zhǔn)化,使光密度值能正確代表基因表達(dá)量。這是芯片數(shù)據(jù)分析中非常重要

43、的一步。為什么要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化呢?這是因?yàn)楹芏嘁蛩囟伎捎绊懶酒系墓饷芏?,如:載體(象玻璃)表面不干凈、染料不純、空氣中的灰塵污染;背景光的照射方式;光點(diǎn)大小以及對(duì)不同的雜交點(diǎn)熒光效率不同等;Clustering(聚類):將具有相同特征(如:相同功能、相同表達(dá)趨勢(shì))的基因聚集在一起。這只是芯片分析方法的一個(gè)代表,不同的方法還有很多。常用的方法有:Clustering 方法,也稱聚類方法,它是無監(jiān)管的學(xué)習(xí)方法。這是芯片分析中使用最廣泛的方法 30,31 ,它比較適合分析具有某種共同表達(dá)特征的數(shù)據(jù),象,由共同細(xì)胞類型產(chǎn)生的芯片數(shù)據(jù),例如:對(duì)照和樣品來自同一組織; Classification方法

44、,也稱分類方法,它是有監(jiān)管的學(xué)習(xí)方法 32。它非常適用于基因按其生物學(xué)功能分類的情況,例如:腫瘤的分類 33 ;多變量統(tǒng)計(jì)也是芯片數(shù)據(jù)的常用分析方法 34 。其中單組分分析和多維標(biāo)度可有效地減低系統(tǒng)的維數(shù)。這種方法常用于分析信號(hào)貧乏的數(shù)據(jù)集 35 來探測(cè)特定基因的表達(dá)概率 36 。盡管發(fā)展了很多方法,但基因表達(dá)模式的研究才剛剛開始,大量的問題尚未解決,例如:目前的分析還只能停留在一類基因或一組基因上,還不能有效地區(qū)分它們之間的關(guān)聯(lián),同時(shí)也很難獲取非常重要也很有興趣的若干低表達(dá)基因象,轉(zhuǎn)錄因子以及受體的信息。為此,將基因表達(dá)數(shù)據(jù)與序列數(shù)據(jù)、pathway數(shù)據(jù)以及生物醫(yī)學(xué)實(shí)驗(yàn)數(shù)據(jù)結(jié)合起來共同分析可

45、能是未來的發(fā)展趨勢(shì)。用于基因芯片分析的重要軟件有:TIGR(The Institute for Genomic Research)芯片數(shù)據(jù)分析軟件包 41 :它由三個(gè)軟件組成。MultipleExperimentViewer (TMEV)是用Java語言設(shè)計(jì)的。用于對(duì)芯片數(shù)據(jù)標(biāo)準(zhǔn)化及進(jìn)行聚類和距離代數(shù)的分析。本軟件還有圖形顯示界面。但要運(yùn)行此軟件必須Sun JRE 和 J3D 1.2版本以上的系統(tǒng); ArrayViewer是一個(gè)簡(jiǎn)化的芯片數(shù)據(jù)分析軟件,用于設(shè)備條件不允許使用TMEV時(shí);Spotfinder是用于芯片信號(hào)收集和圖象處理的。它是用C和C+寫成在 PC Windows NT/98環(huán)境

46、下運(yùn)行的。這些軟件是可以下載的。 盡管芯片技術(shù)有極為廣泛的前景,但對(duì)海量芯片數(shù)據(jù)的分析依然存在很多尚未解決的問題。如:(1)芯片上光密度數(shù)據(jù)標(biāo)準(zhǔn)化的理論方法研究。 為了保證芯片上每一個(gè)雜交點(diǎn)的光密度值都能正確地代表基因產(chǎn)物的表達(dá)量,需要在整個(gè)芯片范圍內(nèi)同時(shí)對(duì)所有點(diǎn)的光密度值進(jìn)行標(biāo)準(zhǔn)化。這是一個(gè)多點(diǎn)非線性的擬合問題,當(dāng)前雖有很大進(jìn)展,但仍需發(fā)展新的理論方法。(2) 含有大量無定義元的大規(guī)模矩陣數(shù)據(jù)處理的方法研究:當(dāng)根據(jù)信噪比對(duì)芯片數(shù)據(jù)進(jìn)行篩選時(shí),可能有約60%雜交點(diǎn)的數(shù)值不可靠,要舍去,這樣就導(dǎo)致大量矩陣元無定義。如何處理這種數(shù)據(jù)也要發(fā)展新方法。(3)大規(guī)?;蚬δ鼙磉_(dá)譜數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn):這是

47、表達(dá)譜研究成功與否的關(guān)鍵。只有找到成百上千個(gè)表達(dá)水平發(fā)生變化基因之間在實(shí)現(xiàn)生物功能上的關(guān)聯(lián),才能充分揭示基因功能表達(dá)譜數(shù)據(jù)蘊(yùn)含的豐富信息。 功能基因組信息分析的進(jìn)一步工作必然是獲取基因調(diào)節(jié)網(wǎng)絡(luò)的知識(shí)。這在腫瘤研究中尤其重要,因?yàn)槟[瘤往往是多基因病,只有了解了這些基因的內(nèi)在關(guān)系后,才能對(duì)其病理有根本的認(rèn)識(shí),也才能有好的診斷、治療方案。在基因調(diào)節(jié)網(wǎng)絡(luò)這一領(lǐng)域已有了一些探索。 下一步,隨著多層次、多類型的海量信息的增加,功能基因組研究將朝著復(fù)雜系統(tǒng)的方向發(fā)展,即:探討生物系統(tǒng)中各部分、各層次的相互作用,從而進(jìn)入系統(tǒng)生物學(xué)的領(lǐng)域。 蛋白質(zhì)芯片與蛋白質(zhì)組技術(shù) 二維電泳技術(shù)與質(zhì)譜測(cè)序技術(shù)?研究蛋白與蛋白以

48、及蛋白與配體(藥物)的相互作用,最大困難時(shí)得到數(shù)以萬計(jì)純樣品并保持天然構(gòu)象,知道功能基因的表達(dá)情況,也能知道從基因到蛋白質(zhì)發(fā)生了那些變化。蛋白質(zhì)組學(xué)技術(shù):二維電泳技術(shù):粗分蛋白 測(cè)序質(zhì)譜技術(shù):細(xì)分蛋白兩者聯(lián)合使用,知道哪些蛋白表達(dá)。蛋白質(zhì)芯片的概念雖然在上一世紀(jì)八十年代就已提出,但進(jìn)展較為緩慢。它主要研究蛋白與蛋白以及蛋白與配體(藥物)的相互作用。近年來有了一定進(jìn)展,哈佛大學(xué)的一個(gè)研究組已實(shí)現(xiàn)了包括一萬多個(gè)蛋白樣品的玻璃載體芯片。蛋白芯片研制的最大困難是同時(shí)得到數(shù)以萬記的純樣品并保持它們的天然構(gòu)象。Protein Identification: HPLC-MS-MS蛋白樣品用已知酶進(jìn)行酶切,再

49、用HPLC將片段根據(jù)質(zhì)量排好隊(duì),再進(jìn)行質(zhì)譜:進(jìn)來的小片段加了電荷排好隊(duì),加上電壓跑起來,先到的質(zhì)量少,根據(jù)時(shí)間可知核質(zhì)比。再將蛋白質(zhì)片段打碎進(jìn)行測(cè)序,然后通過恢復(fù)碎片來測(cè)序。蛋白質(zhì)組學(xué)技術(shù)和基因芯片技術(shù)一樣是功能基因組的研究手段,與基因芯片不同的是,它是在蛋白質(zhì)水平獲取基因功能表達(dá)譜。由于它使用二維凝膠電泳和測(cè)序質(zhì)譜,所以在分析軟件和數(shù)據(jù)庫(kù)的使用上與基因芯片有所不同。按照蛋白質(zhì)組的研究過程,使用的分析軟件和數(shù)據(jù)庫(kù)有:1.二維凝膠電泳分析,用于從膠圖上鑒定蛋白位點(diǎn);2.蛋白識(shí)別,用于從質(zhì)譜相關(guān)數(shù)據(jù),象,電荷數(shù)、分子量、氨基酸組分、序列標(biāo)識(shí)和MS指紋圖確定蛋白;3.DNA和蛋白質(zhì)序列相互轉(zhuǎn)換,包括

50、通過EST的序列延長(zhǎng);4.序列相似性比較;5.特定模式的發(fā)現(xiàn),象:預(yù)測(cè)信號(hào)肽、糖基化位點(diǎn)、磷酸化位點(diǎn)、酶切位點(diǎn)等;6.序列物理化學(xué)性質(zhì)分析,象,PI、消光系數(shù)、疏水性等;7.二級(jí)結(jié)構(gòu)預(yù)測(cè);8.空間結(jié)構(gòu)預(yù)測(cè);9.膜蛋白過膜區(qū)預(yù)測(cè);10.蛋白質(zhì)亞細(xì)胞定位;11.蛋白代謝Pathway;12.蛋白相互作用等。相關(guān)網(wǎng)站有:http:/www.expasy.ch/melanie/;http:/www.expasy.ch/tools/; /ucsfhtml3.4/msfit.htm; http:/psort.nibb.ac.jp/; http:/ecocy

51、; http:/www.ebi.ac.uk/proteome/; 等。用二級(jí)質(zhì)譜打出的離子種類有a1,b1,c1,x2,y2,z2,但我們只需選出一種如b系列就可以測(cè)序了,知道b2,用b2-b1就能得到b1的序列。電荷相同的情況下,核質(zhì)比只與質(zhì)量有關(guān)。困難:需要獲得完整的資料;找到第一個(gè)b。得到譜系后,把database中所有的蛋白用水解酶水解成小片段,理論上選出圖譜,組成database,根據(jù)已知圖譜,將待測(cè)圖譜與已知database進(jìn)行比較,相近的那個(gè)就是蛋白。不足:1。無用的計(jì)算太多(理論譜中大多都是無用的) 2理論譜兩個(gè)參數(shù)中只有一個(gè),算法中兩個(gè)參數(shù)有一個(gè)是認(rèn)為給定的帶有偏差

52、 3發(fā)現(xiàn)不了新的蛋白(發(fā)現(xiàn)新的,denova)蛋白質(zhì)組鳥槍法策略用不同的酶水解同一蛋白得到不同的片斷用De Novo方法測(cè)出蛋白質(zhì)的片斷將這些片斷進(jìn)行拼接給出較長(zhǎng)(甚或全長(zhǎng))的蛋白序列。從而做到真正的database-independed蛋白測(cè)序。蛋白質(zhì)鳥槍法策略可行性:我們目前得到最大的正確片斷是8個(gè)氨基酸肽段。至少也能得到4個(gè)氨基酸肽段。氨基酸有20種,在序列拼接中我們可以只利用23個(gè)氨基酸的信息。因此序列是可以延長(zhǎng)的。9 干細(xì)胞研究進(jìn)展的權(quán)威評(píng)述 "Celera's agreement with Geron is important because we will be

53、 using human pluripotent stem cells-the most basic form of human cells that contain a diverse set of genes not expressed in high abundance in other cells-as a source to better understand the human genome," said J. Craig Venter, Ph.D., Celera's president and chief scientific officer. "B

54、y combining Celera's high-throughput sequencing facility, computational power, and bioinformatics expertise with Geron's human pluripotent stem cell technology, our goal is to enable the development of new approaches to prevent, diagnose and treat some of our most devastating diseases such a

55、s heart disease, Parkinson's disease, and cancer." 干細(xì)胞是功能基因組研究的最佳選材 1. 是各種不同組織和細(xì)胞類型的共同的源; 2. 可代表個(gè)體發(fā)育的各個(gè)階段; 3. 是人體材料但很少涉及倫理學(xué)和法律學(xué)問題; 4. 具有重要的應(yīng)用價(jià)值。 干細(xì)胞:A stem cell is a cell from the embryo, fetus, or adult that has, under certain conditions, the ability to reproduce itself for long periods or

56、, in the case of adult stem cells, throughout the life of the organism. It also can give rise to specialized cells that make up the tissues and organs of the body.干細(xì)胞是具有無限期產(chǎn)生各種分化細(xì)胞能力的細(xì)胞。它是各種干細(xì)胞的統(tǒng)稱。通常認(rèn)為干細(xì)胞有幾個(gè)主要特征:它們是未分化的,但具有分化成各種特定細(xì)胞的能力;它們可無限地分裂產(chǎn)生大量后裔;其子細(xì)胞有兩種命運(yùn),保持為干細(xì)胞或分化為特定細(xì)胞。干細(xì)胞的種類Totipotent stem ce

57、ll: 全能干細(xì)胞, 如受精卵pluripotent stem cell: 多能干細(xì)胞,如囊胚中的內(nèi)囊細(xì)胞multipotent stem cell: 專能干細(xì)胞,如造血干細(xì)胞 以上都屬于天然的干細(xì)胞,還有一種誘導(dǎo)的干細(xì)胞-已分化的細(xì)胞也能轉(zhuǎn)化為干細(xì)胞人體干細(xì)胞的研究:1998年美國(guó)有兩個(gè)小組分別培養(yǎng)出了人多能( pluripotent )干細(xì)胞:2008年日本和美國(guó)的小組培養(yǎng)出人的誘導(dǎo)干細(xì)胞James A. Thomson在 Wisconsin大學(xué)領(lǐng)導(dǎo)一個(gè)研究小組從人胚胎組織中培養(yǎng)出了干細(xì)胞株。他們使用的方法是:人卵體外受精后,將胚胎培育到囊胚階段,提取 inner cell mass細(xì)胞,建立細(xì)胞株。經(jīng)測(cè)試這些細(xì)胞株的細(xì)胞表面 marker 和酶活性,證實(shí)它們就是胚胎干細(xì)胞。用這種方法,每個(gè)胚胎可取得1520個(gè)細(xì)胞用于培養(yǎng)。John D. Gearhart在 Johns Hopkins大學(xué)領(lǐng)導(dǎo)另一個(gè)研究小組也從人胚胎組織中建立了干細(xì)胞株。他們的方法是:從受精后59周人工流產(chǎn)的胚胎中提

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論