中科院生物信息學(xué)期末考試復(fù)習(xí)題_第1頁
中科院生物信息學(xué)期末考試復(fù)習(xí)題_第2頁
中科院生物信息學(xué)期末考試復(fù)習(xí)題_第3頁
中科院生物信息學(xué)期末考試復(fù)習(xí)題_第4頁
中科院生物信息學(xué)期末考試復(fù)習(xí)題_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、中科院生物信息學(xué)期末考試復(fù)習(xí)題陳潤生老師部分:1.什么是生物信息學(xué),如何理解其含義?為什么在大規(guī)模測序研究中, 生物信息學(xué)至關(guān)重要?答:生物信息學(xué)有三個方面的含義:1) 生物信息學(xué)是一個學(xué)科領(lǐng)域,包含著基因組信息的獲取、處理、存儲、分配 、分析和 解釋的所有方面,是基因組研究不可分割的部分。2) 生物信息學(xué)是把基因組 DNA 序列信息分析作為源頭, 破譯隱藏在 DNA 序列中的遺傳語 言, 特別是非編碼區(qū)的實質(zhì); 同時在發(fā)現(xiàn)了新基因信息之后進行蛋白質(zhì)空間結(jié)構(gòu)模擬和預(yù)測;其本質(zhì)是識別基因信號。3) 生物信息學(xué)的研究目標(biāo)是揭示 “基因組信息結(jié)構(gòu)的復(fù)雜性及遺傳語言的根本規(guī)律” 。 它 是當(dāng)今自然科學(xué)

2、和技術(shù)科學(xué)領(lǐng)域中“基因組、 “信息結(jié)構(gòu)”和“復(fù)雜性”這三個重大科 學(xué)問題的有機結(jié)合。生物信息學(xué)是把基因組 DNA 序列信息分析作為源頭,找到基因組序列中代表蛋白質(zhì)和 RNA 基因的編碼區(qū);同時闡明基因組中大量存在的非編碼區(qū)的信息實質(zhì),破譯隱藏在 DNA 序列 中的遺傳語言規(guī)律: 在此基礎(chǔ)上, 歸納、 整理與基因組遺傳信息釋放及其調(diào)控相關(guān)的轉(zhuǎn)錄譜 和蛋白譜數(shù)據(jù),從而認(rèn)識代謝、發(fā)育、分化、進化的規(guī)律。同時在發(fā)現(xiàn)了新基因信息之后,其還利用基因組中編碼區(qū)信息進行蛋白空間結(jié)構(gòu)模擬和蛋白功能預(yù)測, 并將此類信息與生物體和生命過程中的生理生化信息結(jié)合,闡明其分子機制, 最終進行蛋白、核酸分子設(shè)計、藥物設(shè)計、

3、個體化醫(yī)療保健設(shè)計。2. 如何利用數(shù)據(jù)庫信息發(fā)現(xiàn)新基因,基本原理?答:利用數(shù)據(jù)庫資源發(fā)現(xiàn)新基因,根據(jù)數(shù)據(jù)源不同,可分2 種不同的查找方式:1) 從大規(guī)?;蚪M測序得到的數(shù)據(jù)出發(fā),經(jīng)過基因識別發(fā)現(xiàn)新基因:(利用統(tǒng)計,神經(jīng)網(wǎng)絡(luò),分維,復(fù)雜度,密碼學(xué), HMM ,多序列比對等方法識別特殊序列,預(yù)測新 ORF。但因為基因組中編碼區(qū)少,所以關(guān)鍵是“數(shù)據(jù)識別”問題。)利用大規(guī)模拼接好的基因組, 使用不同數(shù)據(jù)方法, 進行標(biāo)識查找, 并將找到的可能的新基因同數(shù)據(jù)庫中已有的基因?qū)Ρ?,從而確定是否為新基因??煞譃椋夯谛盘?,如剪切位點、序列中的啟動子與終止子等。基于組分,即基因家族、特殊序列間比較,Complex

4、ityanalysis, Neural Network 2)利用EST數(shù)據(jù)庫發(fā)現(xiàn)新基因和新SNPs(歸屬于同一基因的EST片斷一定有overlapping ,通過alignment可組裝成一完整的基因,但EST片斷太小,不存在數(shù)據(jù)來源,主要是拼接問題)數(shù)據(jù)來源于大量的序列小片段,ES儂短,故關(guān)鍵在正確拼接。方法有基因組序列比對、拼接、組裝法等。經(jīng)常采用 SiClone 策略。其主要步驟有:構(gòu)建數(shù)據(jù)庫;將序列純化格式標(biāo)準(zhǔn)化;從種子庫中取序列和大庫序列比對;延長種子序列,至不能再延長;放入 contig 庫構(gòu)建若干數(shù)據(jù)庫:總的純化的EST數(shù)據(jù)庫,種子數(shù)據(jù)庫,載體數(shù)據(jù)庫,雜質(zhì)、引物數(shù)據(jù)庫, 蛋白數(shù)據(jù)

5、庫, cDNA 數(shù)據(jù)庫;用所用種子數(shù)據(jù)庫和雜質(zhì)、引物數(shù)據(jù)庫及載體數(shù)據(jù)庫比對,去除雜質(zhì);用種子和純化的EST數(shù)據(jù)庫比對用經(jīng)過一次比對得到的長的片段和蛋白數(shù)據(jù)庫、 cDNA 數(shù)據(jù)庫比較, 判斷是否為已有序列, 再利用該大片段與純化的EST數(shù)據(jù)庫比對,重復(fù)以上步驟,直到序列不能再延伸;判斷是否為全長cDNA 序列。(利用EST數(shù)據(jù)庫:原理:當(dāng)測序獲得一條ES卅列時,它來自哪一個基因的哪個區(qū)域是未知的(隨機的),所以屬于同一個基因的不同 EST序列之間常有交疊的區(qū)域。根據(jù)這種“交疊”現(xiàn)象,就能找出屬于同一個 基因的所有EST序列,進而將它們拼接成和完整基因相對應(yīng)的全長cDNA序列。而到目前為止,公共

6、EST數(shù)據(jù)庫(dbEST井已經(jīng)收集到約800萬條的人的EST序列。估計這些序列已覆蓋了人類全部基因的 95%以上, 平均起來每個基因有10倍以上的覆蓋率。)3 .用蛋白或核酸序列數(shù)據(jù)庫研究生物演化的主要步驟是什么?當(dāng)前的困難是什 么,如何克服?(核酸或氨基酸序列進行進化研究要進行哪些計算步驟?當(dāng)前 遇到什么問題?怎樣解決?)答:計算步驟,構(gòu)建系統(tǒng)進化樹,其主要步驟如下:1)序列相似性比較。就是將待研究序列與DNA或蛋白質(zhì)序列庫進行比較,用于確定該序列的生物屬性,也就是找出與此序列相似的已知序列是什么。完成這一工作只需要使用兩兩序列比較算法。常用的程序包有BLAST FAST%;2)序列同源性分

7、析。是將待研究序列加入到一組與之同源,但來自不同物種的序列中進行多序列同時比較,以確定該序列與其它序列間的同源性大小。這是理論分析方法中最關(guān)鍵的一步。完成這一工作必須使用多序列比較算法。常用的程序包有CLUSTA管;3)構(gòu)建系統(tǒng)進化樹。根據(jù)序列同源性分析的結(jié)果,重建反映物種間進化關(guān)系的進化樹。為完成這一工作已發(fā)展了多種軟件包,如PYLIP MEGA等;4 ) 穩(wěn)定性檢驗。為了檢驗構(gòu)建好的進化樹的可靠性,需要進行統(tǒng)計可靠性檢驗,通常構(gòu)建過程要隨機地進行成百上千次,只有以大概率(70%以上)出現(xiàn)的分支點才是可靠的。通用的方法使用 Bootstrap算法。 (1.序列相似性比較:就是將待研究序列與

8、DNA或蛋白質(zhì)序列庫進行比較,用于確定該 序列的生物屬性,也就是找出與此序列相似的已知序列是什么,完成這一工作只需要使用兩兩序列比較算法。常用的序列包有BBLAST FASTA?;(2.序列同源性分析:將待研究序列加入到一組與之同源,但來自不同物種的序列中進 行多序列同時比較,以確定該序列與其他序列間的同源性大小,這是理論分析方法中最關(guān)鍵的一步,完成這一工作必須使用多序列比較算法,常用的程序包有CLUSTA等;(3.構(gòu)建系統(tǒng)進化樹:根據(jù)序列同源性分析的結(jié)果,重建反應(yīng)物種間進化關(guān)系的進化樹, 為完成這一工作,已發(fā)展了多種軟件包,如 PYLIP MEGA等(4.穩(wěn)定性檢驗:為了檢驗構(gòu)建好的進化樹的

9、可靠性,需要進行統(tǒng)計可靠性檢驗,通常 構(gòu)建過程要隨機地進行成百上千次,只有以大概率(70%以上)出現(xiàn)的分支點才是可靠的。通用的方法使用 Bootstrap算法,相應(yīng)的軟件已包括在構(gòu)建系統(tǒng)進化樹所用的軟件包當(dāng)中?!慨?dāng)前的主要困難:是發(fā)現(xiàn)了基因的橫向遷移(LGT)現(xiàn)象,即進化程度不同的物種間存在著遺傳信息基因的傳遞,如果拿遷移的基因做進化分析就會出錯??朔﨤GT的方法(可能的解決途徑):1)縱向思路:選擇垂直進化而來的序列進行研究,即去除橫向訐移的數(shù)據(jù)庫:如COG數(shù)據(jù)庫;2)橫向思路:發(fā)展基于完整基因組構(gòu)建展化樹.即使用全基因組數(shù)據(jù)庫講行基因組水平上的對比;利用生物體的蛋白質(zhì)組構(gòu)建進化樹。選取特征

10、對比,不同長度的序列字符串進行對比后,對照其genome進行歸一化;ORF對比,將all predicted ORF采用COG的分類規(guī)則進行分類,再構(gòu)建進化樹4.什么是SNR為彳f么SNP的研究是重要的? SNP研究有哪些優(yōu)點?舉出23個SNP相關(guān)的網(wǎng)站。答:SNP是指單核甘酸多態(tài)性,主要是指在基因組水平上由單個核甘酸的變異所引起的DNA序列多態(tài)性,代表了基因組水平上遺傳密碼的變異,由于這種變異很多以單堿基突變的形式出現(xiàn),因此稱為單核甘酸多態(tài)性;它反映了不同個體間、正常與異常個體之間基因組上的差 別,現(xiàn)在這個概念有所擴大,不限于一個核甘酸的差異。重要性:因為SNP研究是基因組領(lǐng)域理論成果走向應(yīng)

11、用的關(guān)鍵步驟,是聯(lián)系基因型和表現(xiàn) 型之間關(guān)系的橋梁,是研究人類基因組計劃走向應(yīng)用的重要步驟。優(yōu)點:(1) SNP在基因組中分布相當(dāng)廣泛,使人們有機會發(fā)現(xiàn)與各種疾病相關(guān)的基因組突 變;(2)不直接導(dǎo)致疾病基因表達的SNP,與某些疾病基因相鄰,成為重要標(biāo)記,有助于發(fā)現(xiàn)疾病基因(3)從實驗操作來看,通過SNP發(fā)現(xiàn)疾病相關(guān)基因突變,比通過家系發(fā)現(xiàn)更加容易。(4)基礎(chǔ)研究中非常重要,如對 Y染色體SNP分析有重要成果。SNP的特點:1 .位點豐富2 .具有代表性3 .遺傳穩(wěn)定性4 .易于進行自動化,規(guī)?;治?,縮短了研究時間 SNP研究的意義:通過大批量、高通量的SNP的發(fā)現(xiàn)與鑒定,人類SNP- Hap

12、lotype遺傳圖譜的構(gòu)建, 在 連鎖不平衡基礎(chǔ)上的關(guān)聯(lián)分析等,有望為人類致命基因的尋找和疾病的防治提供快速和有效的途徑,一系列發(fā)現(xiàn)和檢測SNP的方法,構(gòu)建圖譜的策略,及連鎖不平衡和關(guān)聯(lián)分析等技術(shù),正在動植物研究領(lǐng)域中受到廣泛的關(guān)注,毫無疑問將在分子和群體遺傳、動植物育種和生物進化等研究領(lǐng)域中發(fā)揮越來越大的作用。SNP相關(guān)的一些網(wǎng)站:1) SNP Consortium's database。2) NCBI SNP database將這些數(shù)據(jù)進行整理,去掉冗余,使每個SNP都是唯一的。此時的SNP被稱為 reference SNP 或 refSNP。()3) The Human Geni

13、c Bi-Allelic Sequences Database(HGBASE)這一數(shù)據(jù)庫收錄了人基因組中 所有已知的序列變化,包括:SNPs序列的插入和缺失(Indels)、簡單重復(fù)序列等。()4) The Human Gene Mutation Database ( HGMD)()5) The Protein Mutant Database(PMD),蛋白突變數(shù)據(jù)庫。收錄了蛋白質(zhì)特定位點的氨基酸 突變信息,以及這些突變對蛋白質(zhì)結(jié)構(gòu)功能的影響。()_6) The Allele Frequency Database(ALFRED)人類群體等位基因頻率數(shù)據(jù)庫,5.什么是系統(tǒng)生物學(xué)?系統(tǒng)生物學(xué)對生命

14、科學(xué)概念上的發(fā)展?系統(tǒng)生物學(xué)對生 物功能實現(xiàn)的理解有何本質(zhì)變化?系統(tǒng)生物學(xué)的研究思路是什么? 答:系統(tǒng)生物學(xué)是指在系統(tǒng)的層面上研究生命活動。(研究一個生物系統(tǒng)中所有組成成分的構(gòu)成,以及特定條件下組分間互作關(guān)系。)【系統(tǒng)生物學(xué)就是自基因組研究以來,各個層次的所有資料和數(shù)據(jù) (包括基因組測序數(shù)據(jù),功能基因組數(shù)據(jù),蛋白質(zhì)三維結(jié)構(gòu)信息以及相互作用的數(shù)據(jù)等)的整合,以及這些整合數(shù)據(jù)為基礎(chǔ)建立數(shù)學(xué)模型,再以這些模型模擬仿真研究生命活動的影響之后生命活動的反應(yīng)以及變化】包含三個相互銜接的組成(三部曲):整合數(shù)據(jù),即整合所有各個層次( DNA水平,RNA水平,蛋白質(zhì)水平,蛋白質(zhì)相互作用水 平)的信息數(shù)據(jù);系統(tǒng)

15、建模,即用這些信息構(gòu)建描繪生命活動的數(shù)學(xué)模型;(生命活動及外界因預(yù)測未知, 即用這個模型預(yù)測生命未來的發(fā)展及外界干擾后系統(tǒng)的變異素變化對其產(chǎn)生的影響)。學(xué)術(shù)概念上的發(fā)展主要有:傳統(tǒng)生物學(xué)是從基因組序列到結(jié)構(gòu), 再到功能, 而它從各個層次的相互作用到網(wǎng)絡(luò), 再到功能。 與以往不同的是, 系統(tǒng)生物學(xué)一開始就考慮元件之間的相互作用, 把整個生命活動作為網(wǎng)絡(luò),考慮其相互作用。1)研究思路的變化:傳統(tǒng)的分子生物學(xué)研究步驟一般為:DNA序列-蛋白結(jié)構(gòu)-蛋白功能(一維),而系統(tǒng)生物學(xué)是在二維的角度研究生命科學(xué),即:相互作用-網(wǎng)絡(luò)-功能,是由一組基因產(chǎn)生并相互作用共同實現(xiàn)的。2) 看待生命活動本質(zhì)的變化: 因

16、為沒有一個生命活動是靠一個基因完成的, 生命活動是一組基因相互作用實現(xiàn)的, 這種相互作用形成一個網(wǎng)絡(luò), 既包括每個單元的結(jié)構(gòu), 又包括單元與單元之間的相互作用。 因此, 系統(tǒng)生物學(xué)不僅考慮每個基因的活動, 還描述了基因間的相互作用并導(dǎo)致了網(wǎng)絡(luò)的產(chǎn)生。 (系統(tǒng)生物學(xué)與傳統(tǒng)生物學(xué)看待生命活動有著本質(zhì)的不同: 系統(tǒng)生物學(xué)認(rèn)為生命活動是由一組基因及其相互作用來實現(xiàn)其過程的,這種相互作用形成了一個網(wǎng)絡(luò), 既包括每個單元的結(jié)構(gòu), 又包括單元與單元之間的相互作用, 因此在考慮結(jié)構(gòu)的過程中考慮其結(jié)構(gòu)間的相互作用, 一組一組地研究。 而傳統(tǒng)的分子生物學(xué)考慮的只有結(jié)構(gòu),是一個一個地去研究。)其對生物功能實現(xiàn)的理解

17、發(fā)生了本質(zhì)性變化 :它不僅考慮單個分子而且考慮其間相互作用, 把整個生命活動作為一個相互作用的網(wǎng)絡(luò)來研究其功能,基因組只是網(wǎng)絡(luò)中的一部分,只有通過相互作用的網(wǎng)絡(luò)才能體現(xiàn)功能;通過系統(tǒng)地整合生物過程不同階段的分散數(shù)據(jù),如基因組,轉(zhuǎn)錄組,蛋白組,代謝組,可以對復(fù)雜的生物過程, 如折疊、信號傳導(dǎo)途徑、 代謝途徑更好地模擬,研究生物過程的動態(tài)變化;它不僅全息的了解復(fù)雜的生命系統(tǒng)中的所有成分以及他們之間的動態(tài)聯(lián)系, 還可以預(yù)測如果這個系統(tǒng)一旦受到了刺激和外界干擾,系統(tǒng)未來的行為是什么。系統(tǒng)生物學(xué)與傳統(tǒng)生物學(xué)有什么不同:區(qū)別:傳統(tǒng)生物學(xué):序列-結(jié)構(gòu)-功能,只考慮單個個體,單個 gene,單個蛋白質(zhì)系統(tǒng)生物

18、學(xué):相互作用-網(wǎng)絡(luò)-功能,除考慮單個個體,單個 gene,還考慮個體與 個體之間的相互作用,把整個生命活動作為一個網(wǎng)絡(luò)來考查它們的相互作用。(傳統(tǒng)分子生物學(xué)是從基因組中發(fā)現(xiàn)特殊序列, 即基因, 然后找到基因編碼的蛋白, 再通過測知其結(jié)構(gòu),而知其功能。而系統(tǒng)生物學(xué)研究是從各個層次的相互作用到網(wǎng)絡(luò),再到功能。系統(tǒng)生物學(xué)不僅考慮單個分子, 而且考慮其間相互作用, 認(rèn)為生命活動由大量相互作用的結(jié)構(gòu)單元組成, 這些結(jié)構(gòu)單元形成網(wǎng)絡(luò)。 基因組只是網(wǎng)絡(luò)中的一部分, 只有通過相互作用的網(wǎng)絡(luò)才能體現(xiàn)功能。它不僅全息的了解復(fù)雜的生命系統(tǒng)中的所有成分以及他們之間的動態(tài)聯(lián)系,還可以預(yù)測如果這個系統(tǒng)一旦受到了刺激和外界

19、干擾,系統(tǒng)未來的行為是什么。)系統(tǒng)生物學(xué)與分子生物學(xué)有什么不同:區(qū)別:分子生物學(xué):序列-結(jié)構(gòu)-功能,只考慮單個 gene,單個蛋白質(zhì)系統(tǒng)生物學(xué): 是研究生物系統(tǒng)組成成分的構(gòu)成與相互關(guān)系的結(jié)構(gòu)、 動態(tài)與發(fā)生, 以系統(tǒng)論和實驗、 計算方法整合研究為特征的生物學(xué)。 系統(tǒng)生物學(xué)不同于以往僅僅關(guān)心個別的基因和蛋白質(zhì)的分子生物學(xué), 在于研究細(xì)胞信號傳導(dǎo)和基因調(diào)控網(wǎng)路、 生物系統(tǒng)組成之間相互關(guān)系的結(jié)構(gòu)和系統(tǒng)功能的涌現(xiàn)。系統(tǒng)生物學(xué)的研究思路(研究流程):1 .針對選定生物系統(tǒng)進行實驗設(shè)計,了解系統(tǒng)所有組成成分:基因,RNA,蛋白,膜脂等2 .通過系統(tǒng)行為動力學(xué)分析,總結(jié)系統(tǒng)設(shè)計和控制規(guī)律3 .通過總結(jié)規(guī)律來提

20、出新的實驗設(shè)計,驗證系統(tǒng)模擬的正確性【分子生物學(xué)與系統(tǒng)生物學(xué)的區(qū)別與聯(lián)系?答:二者的區(qū)別和聯(lián)系主要從宏觀和微觀上講。分子生物學(xué)的研究采用典型的還原論方法,研究對象主要是分子水平上的, 即生物系統(tǒng)中的大分子、 信號分子的結(jié)構(gòu)、 生化性質(zhì)以及功能,基因表達過程中的調(diào)控,以及DNA 重組。分子生物學(xué)只研究系統(tǒng)的組成元素,最后給出系統(tǒng)的組成元素清單, 它是系統(tǒng)生物學(xué)的基礎(chǔ), 但它的研究結(jié)果只能解釋生物系統(tǒng)的微觀或局部現(xiàn)象, 無法說明系統(tǒng)整體所具有的功能從何而來。 而系統(tǒng)生物學(xué)作為一個整體, 表現(xiàn)出完善的整體行為, 而組成系統(tǒng)的細(xì)胞、 基因、蛋白質(zhì)等只能作為系統(tǒng)的一個構(gòu)件、一個元素、通常情況下它無法表現(xiàn)

21、出“系統(tǒng)”行為。系統(tǒng)生物學(xué)與分子生物學(xué)研究對象不同,系統(tǒng)生物學(xué)研究的是系統(tǒng)整體,研究由系統(tǒng)元素形成有功能的整體所依賴的組織方式和潛藏規(guī)則, 它同時研究系統(tǒng)的不同層次, 以及他們之間的相互作用關(guān)系, 并將這些整合起來深刻挖掘系統(tǒng)整體的功能形成機制。系統(tǒng)生物學(xué)雖然在研究對象上與分子生物學(xué)不同, 但他們之間并不是完全不相關(guān)的, 系統(tǒng)生物學(xué)的研究離不開分子生物學(xué)研究所給出的大量資料和數(shù)據(jù), 正是依賴這些, 系統(tǒng)生物學(xué)才有了建模的基礎(chǔ)。 同時分子生物學(xué)的研究結(jié)果只有通過系統(tǒng)生物學(xué)進行整合才能從理論上對系統(tǒng)的宏觀性質(zhì)達到定性定量的理解, 反過來, 系統(tǒng)生物學(xué)的研究成果也可以用來指導(dǎo)分子生物學(xué)的實驗設(shè)計。

22、因此二者之間其實是相互補充的, 只有結(jié)合起來, 才能充分認(rèn)識生命現(xiàn)象?!?. (1)什么是非編碼序列,非編碼RNA,非編碼基因?( 2)以人的基因組為例回答:在基因組中有多少非編碼序列,有多少存在轉(zhuǎn)錄本,舉 23 個非編碼核酸的生物學(xué)功能?答: ( 1) 非編碼序列 是基因組中不編碼蛋白質(zhì)和多肽的序列;(基因組中不歸屬于基因調(diào)控元件, 穩(wěn)定元件之外的, 也無明確生物學(xué)功能意義的基因序列統(tǒng)稱為非編碼序列, 即不編碼蛋白質(zhì)同時也無明確生物學(xué)功能的序列 )非編碼 RNA 是指來自基因組的非編碼的轉(zhuǎn)錄元件, 即基因組中非編碼序列的轉(zhuǎn)錄產(chǎn)物/轉(zhuǎn)錄本;非編碼基因 指那些具有明確生物學(xué)功能的非編碼RNA 在

23、基因組上非編碼序列上的位置,即功能性的非編碼RNA 對應(yīng)基因組上的位置稱為非編碼基因;(2)人類基因組中9798%的序列是非編碼序列,有70%80%存在轉(zhuǎn)錄本,非編碼核酸的生物學(xué)功能:1) Xist:X-inactivation ( X 染色體失活)是哺乳動物的一種劑量補償機制,其中一半拷貝轉(zhuǎn)錄被抑制從而失活,抑制轉(zhuǎn)錄是通過一個2kb 的非編碼 RNA ( Xist RNA )實現(xiàn)的 ,xistRNA 裝配在失活X 染色體的外側(cè),引起結(jié)構(gòu)改變導(dǎo)致失活;2) Small RNA and RNAi: RNAi 是由 RNA ( siRNA 、 microRNA )導(dǎo)致的轉(zhuǎn)錄后基因沉默現(xiàn)象,如由雙鏈

24、小RNA 引起的干擾和轉(zhuǎn)錄后基因沉默現(xiàn)象,在植物病毒抗性和線蟲中的轉(zhuǎn)座子沉默;一些小核RNA 調(diào)控基因轉(zhuǎn)錄。 (單鏈易降解,但發(fā)現(xiàn)細(xì)胞中存在另一種pathway, 雙鏈小RNA 進入細(xì)胞后結(jié)合組蛋白形成復(fù)合體,該復(fù)合體和識別并降解 target)3) piRNA (具有大量轉(zhuǎn)錄本,功能不詳)和 Prions (生物復(fù)雜度到一定程度后會出現(xiàn)發(fā)病情況,可能和非編碼RNA 有關(guān))等。7 .什么是基因組中的非編碼區(qū)?請以人類基因組為例,說明:( 1)非編碼區(qū)所占的比例?( 2)按在基因組中的位置(組成)(功能)區(qū)分,非編碼序列有哪些組分?它們所占比例如何?( 3)按序列編碼特征區(qū)分,非編碼序列有哪些組

25、分?它們所占比例如何?( 4)請說明非編碼區(qū)研究的重要性(可以舉出一、兩個典型非編碼序列作為例子)答: 基因組中不能編碼蛋白質(zhì)的區(qū)段叫做非編碼區(qū)。 非編碼區(qū)位于編碼區(qū)前后, 同屬于一個基因,控制基因的表達和強弱 。( 1 )人類非編碼區(qū)占 97 98%( 2 )按照在基因組中的位置(組成)來分,各個組分占基因組的份額:編碼基因(編碼蛋白質(zhì)和 tRNA 、 rRNA ):1.5 2% ;Intron (廣義):25% ;端粒、中心粒等特定位置: 12% ;基因間序列:60 70% ;按照在基因組中的功能區(qū)分,各個組分占基因組的份額:功能蛋白質(zhì)基因1.7% ,功能RNA 基因0.5% ,總共大約1

26、 3% ;內(nèi)含子: 24% ;Satellite DNA( 主要分布在中心粒和端粒 ): 12% ;基因間序列( Intergene DNA ):60 70% ;( 3 )按照序列特征區(qū)分,各個組分占基因組的份額:編碼區(qū)(包括編碼蛋白質(zhì)和tRNA 和 rRNA 的基因)占總基因組的 2% ;非編碼區(qū)占到 98% :其中:簡單重復(fù)序列:12% ;散在重復(fù)序列:45% ;假基因 :1% ;非編碼非重復(fù)序列:35 40% ;(4)舉例:非編碼基因: 1.SINE 作為調(diào)節(jié)源,調(diào)節(jié)基因重組、交換,豐富多樣性,獲得新功能;2 . 雞溶菌酶基因中,位于編碼區(qū)上游的 CRI 元件起著轉(zhuǎn)錄沉默子的作用;3 .

27、nc DNA 產(chǎn)物有重要生物學(xué)功能, 如 tmRNA 介導(dǎo)錯誤翻譯蛋白的降解RNAi 導(dǎo)致基因沉默非編碼基因產(chǎn)物的功能: smallRNA 是 nc DNA 產(chǎn)物,是機體固有的,例如: microRNA ,SiRNA 小 RNA 對染色質(zhì)的形狀有關(guān),也可直接關(guān)閉或刪除部分DNA 。 NcRNA 起著非常重要的生物學(xué)功能,如影響發(fā)育過程,調(diào)節(jié)轉(zhuǎn)錄、影響染色體復(fù)制、對RNA 加工修飾、影響mRNA 穩(wěn)定性進而影響翻譯、甚至影響蛋白降解轉(zhuǎn)運;Xist 介導(dǎo) X 染色體失活是通其編碼的一個大的剪接過的多聚A 非編碼產(chǎn)物進行的。(長鏈非編碼 RNA(lncRNA)是一類轉(zhuǎn)錄本長度超過200nt的RNA分

28、子,它們并不編碼蛋白,而是以 RNA 的形式在多種層面上(表觀遺傳調(diào)控、轉(zhuǎn)錄調(diào)控以及轉(zhuǎn)錄后調(diào)控等)調(diào)控基因的表達水平。IncRNA起初被認(rèn)為是基因組轉(zhuǎn)錄的“噪音”,是 RNA聚合酶II轉(zhuǎn)錄的副產(chǎn)物,不具有生物學(xué)功能。然而,近年來的研究表明, lncRNA 參與了 X 染色體沉默,基因組印記以及染色質(zhì)修飾,轉(zhuǎn)錄激活,轉(zhuǎn)錄干擾,核內(nèi)運輸?shù)榷喾N重要的調(diào)控過程, lncRNA 的這些調(diào)控作用也開始引起人們廣泛的關(guān)注。哺乳動物基因組序列中約4%9%的序列產(chǎn)生的轉(zhuǎn)錄本是IncRNA (相應(yīng)的蛋白編碼RNA的比例是1%),雖然近年來關(guān)于IncRNA的研究進展迅猛,但是絕大部分的 lncRNA 的功能仍然是不

29、清楚的。)( 已有的研究結(jié)果表明,在高等生物中,小分子非編碼RNA 在干細(xì)胞干性維持、胚胎發(fā)育、細(xì)胞分化、凋亡、代謝、信號傳導(dǎo)、感染以及免疫應(yīng)答等幾乎所有重要生命活動中發(fā)揮關(guān)鍵的調(diào)控作用,提示生物體內(nèi)可能存在著由 RNA 介導(dǎo)的遺傳信息表達調(diào)控網(wǎng)絡(luò)。)8 .精準(zhǔn)醫(yī)學(xué)的重大意義是什么?實現(xiàn)精準(zhǔn)醫(yī)學(xué)的重要基礎(chǔ)是什么?精準(zhǔn)醫(yī)學(xué)的重大意義; 精準(zhǔn)醫(yī)學(xué)有可能導(dǎo)致醫(yī)療體系本質(zhì)上的轉(zhuǎn)變, 把目前的醫(yī)療體系由診斷治療過渡到健康保障, 使得健康體系的關(guān)口前移, 有可能產(chǎn)生新興產(chǎn)業(yè)。 健康人可以通過組學(xué)等一系列研究, 對現(xiàn)在的健康作以評估。 在健康檢查的基礎(chǔ)上, 對未來可能導(dǎo)致疾病的部分進行干預(yù),使得能夠延緩疾病

30、的發(fā)生,或者排除某些疾病的發(fā)生,使得健康得以保障。實現(xiàn)精準(zhǔn)醫(yī)學(xué)的重要基礎(chǔ):1 .必須獲取分子水平上的數(shù)據(jù)信息,并挖掘其內(nèi)涵,在挖掘組學(xué)數(shù)據(jù)時,一定要使用大數(shù)據(jù)分析技術(shù), 因此是大數(shù)據(jù)與組學(xué)的交匯。 組學(xué)包括基因組, 轉(zhuǎn)錄組, 蛋白質(zhì)組, 代謝組; 大數(shù)據(jù)包括人群和隊列2 .建立分子水平上的知識與宏觀疾病表型的聯(lián)系,即基因型和表型的關(guān)聯(lián),搭建分子水平信息和疾病間的橋梁, 在搭建橋梁時, 生物信息學(xué),生物網(wǎng)絡(luò), 系統(tǒng)生物學(xué)的知識是其核心知識。3 .在此基礎(chǔ)上,融合臨床檢驗,影像學(xué)等指標(biāo),使得醫(yī)學(xué)做得更加精準(zhǔn)。【定義: 精準(zhǔn)醫(yī)學(xué)是以個體化醫(yī)療為基礎(chǔ)、 隨著基因組測序技術(shù)快速進步以及生物信息與大數(shù)據(jù)科

31、學(xué)的交叉應(yīng)用而發(fā)展起來的新型醫(yī)學(xué)概念與醫(yī)療模式。本質(zhì)上: 是通過基因組、 蛋白質(zhì)組等組學(xué)技術(shù)和醫(yī)學(xué)前沿技術(shù), 對于大樣本人群與特定疾病類型進行生物標(biāo)志物的分析與鑒定、 驗證與應(yīng)用, 從而精確尋找到疾病的原因和治療的靶點,并對一種疾病不同狀態(tài)和過程進行精確亞分類, 最終實現(xiàn)對于疾病和特定患者進行個性化精準(zhǔn)治療的目的,提高疾病診治與預(yù)防的效益。精準(zhǔn)醫(yī)學(xué)是因人因病而異的、 更加精確的個體化醫(yī)療, 其進步之處是將人們對疾病機制的認(rèn)識與生物大數(shù)據(jù)和信息科學(xué)相交叉, 精確進行疾病分類及診斷, 為疾病患者提供更具針對性和有效性的防療措施,最終目的是更好地為患者服務(wù)。與個體化醫(yī)療相比,精準(zhǔn)醫(yī)療更重視“病”的深

32、度特征和“藥”的高度精準(zhǔn)性;是在對人、病、 藥深度認(rèn)識基礎(chǔ)上, 形成的高水平醫(yī)療技術(shù)。 精準(zhǔn)醫(yī)學(xué)實現(xiàn)了從診斷治療到健康保障這一本質(zhì)性轉(zhuǎn)變。精準(zhǔn)醫(yī)學(xué)包括精準(zhǔn)診斷和精準(zhǔn)治療, 而 “邁向精準(zhǔn)醫(yī)學(xué)” 需要構(gòu)造的生物醫(yī)學(xué)知識網(wǎng)絡(luò)是建立在系統(tǒng)生物學(xué)的基礎(chǔ)之上。實施精準(zhǔn)醫(yī)學(xué)計劃的戰(zhàn)略意義總共有4 點:提高疾病診治水平,惠及民生與國民健康;推動醫(yī)學(xué)科技前沿發(fā)展,增強國際競爭力;發(fā)展醫(yī)藥生物技術(shù),促進醫(yī)療體制改革;形成經(jīng)濟新增長點,帶動大健康產(chǎn)業(yè)發(fā)展?!俊居锌赡軐⒒蚪M變異作為疾病診斷, 精準(zhǔn)醫(yī)學(xué)導(dǎo)致醫(yī)療體系本質(zhì)的轉(zhuǎn)變, 把目前階段 治療過渡到健康保障,使健康體系關(guān)口前移, 在健康篩查基礎(chǔ)上, 排除疾病發(fā)生。

33、就是評估 -檢查-干預(yù)的過程?;A(chǔ):1獲取分子水平上數(shù)據(jù)信息,挖掘信息內(nèi)容,發(fā)展大數(shù)據(jù)新算法,理論技術(shù)如組學(xué)的信息。2建立分子水平知識宏觀疾病表型關(guān)聯(lián),搭建分子水平信息與疾病的橋梁。問題:樣本量少,有效治療事件頻率低,疾病相關(guān)復(fù)雜網(wǎng)絡(luò)構(gòu)建分析的困難。】陳小偉老師部分:1 .芯片間標(biāo)準(zhǔn)化的方法:而可以得到Averaged求排的平均值作為標(biāo)準(zhǔn)值Re-ordered重排:按顏色重排基本方法:芯片間標(biāo)準(zhǔn)化的目的是基于Gene1Gene5五個基因表達量理論的和應(yīng)該保持恒定,即S1S3三列每一列的和是相等的。但實際測定過程中不可能完全相等,因此將這種不等歸結(jié)于每一組芯片自身的差異而進行芯片間標(biāo)準(zhǔn)化,基本步

34、驟為通過排序取平均重新排序的方法消除芯片間誤差,從而可以得到每一組基因表達量的真實值。(老師給的這組芯片基因完全相同的情況下 S3一列數(shù)據(jù)明顯偏高,通過這種標(biāo)準(zhǔn)化實現(xiàn)了芯片間差異的消除)。Quantile歸一化過程:首先假設(shè)不同芯片整體分布一致,歸一化后芯片的分布一樣。下圖四個部分代表四步,行代表基因,列代表樣本,圖一對每個列的表達值排序,圖二計算每行的平均值,圖三用每行計算的平均值代替該行的原值,圖四將排序后的行恢復(fù)到未排序前的位置?!? . FDR控制假陽性白方法Benjamini -Hochberg procedure基本方法:對于m個獨立的樣本,其 p-value記為Pi, i=1,2

35、,3 91(1)對所有的p-value進行從小到大排序 p(1)< (2) <(m);(2)對于一個給定的“(此時的a即為統(tǒng)計里的顯著水平,范圍01,通常取0.05),找到最大的k值,滿足(3)拒絕從p(1)p(k)的無效假設(shè)Ho (即表示p(1)p(k)表達量存在顯著差異)。Genep-valuuGlPi =)033G2P1 =0,001G3P. 0Q5G+P4 =503G5P; =0 D2G6P6-O.D1Genep-vajueG2 uRUQPpjO.OlG5P f .02G4p=00?G3P :l=0 045G1P網(wǎng)=00%GenePq-valueG2P= 0.0010.00

36、6G6p0=OO10 03G5Ppj =0.020.04G4P 二。030.045G3P 二 00450054G1P(6 =0.0530.053計算方法1 ( a =0.05 :P(4)=0.03<0.05*4/6=0.033; P(5)=0.045>0.05*5/6=0.041;k=4.即 G2, G6, G5, G4差異表達,FDR<0.05計算方法2 (q-value法):根據(jù)式 登可以推出0t W 等?因此直接計算并與a進行對比即可:由于G3的q-value大于0.05,因此G2, G6, G5, G4差異表達?!綟DRi±程,如何控制 FDR首先,F(xiàn)DR過

37、程是為了控制假陽性率的過程。假陽性指樣本本質(zhì)為假但判定為真。比如在找到一組差異表達的基因之后,我們要考慮這個差異是否夠顯著,即假陽性率是否足夠低。G»ne expression dl31tsi isinalysis Microarray data analysis procedureI Intensity IBenjarpini-Hochberg procedure (BH)values 5re rFor f九 independent tests, the p-1. Order p-values in increasing order 聲】3 Po ''' t

38、n >2. For a given or e (o. I), find ihe4 largest k :such that /一心) -L3. Then reject (i e. declare positive discoveries) all J 二三心BH過程是FDR矯正的一種,首先對檢驗得到的P值進行排序,然后從1開始增加找Ka-fcPg "的值,使K滿足網(wǎng),其中m為個數(shù),a一般取0.05或0.1。所有滿足P值的基因認(rèn)為表達有顯著差異且假陽性不超過a?!?.轉(zhuǎn)錄本表達量的表示方法( RPKM : Reads Per Kilobase of transcript per

39、Million mapped reads ): 1) RPKM的作用:RNA-seq是透過次世代定序的技術(shù)來偵測基因表現(xiàn)量的方法,在衡量基因表現(xiàn)量時,若是單純以map到的read數(shù)來計算基因的表現(xiàn)量,在統(tǒng)計上是一件相當(dāng)不合理的事,因為在隨機 抽樣的情況下,序列較長的基因被抽到的機率本來就會比序列短的基因較高,如此一來,序列長的基因永遠會被認(rèn)為表現(xiàn)量較高,而錯估基因真正的表現(xiàn)量,所以 Ali Mortazavi等人 在2008年提出以RPKM在估計基因的表現(xiàn)量RPKMtotal exon readstotal mapped reads (millions) * exon length (KB)假

40、設(shè)一個物種的基因組上只有兩個基因,基因 G1的外顯子長8 Kb,基因G2的外顯子長2Kb。對該物種的一個樣本做RNA-seq,共得到23 millions的read,其中能夠比對到 G1的read有16 million 個,能夠比對到 G2的有4 million 個.計算G1和G2的RPKM。Total mapped reads=16 million+4 million=20 millionG1: total exon reads=16,000,000 exon length=8kbRPKM=16,000,000/(20*8)=100,000G2: total exon reads=4,000

41、,000 exon length=2kbRPKM=4,000,000/(20*2)=100,000 2) 2) FPKM 與 RPKM 的區(qū)別:兩者基本相同。 RPKM 代表 Reads Per Kilobase of transcript per Million mapped reads , FPKM 代表 Fragments Per Kilobase of transcript per Million mapped reads 。在 RNA-Seq 中, 由于 cDNA 來源于 RNA 的逆轉(zhuǎn)錄, 轉(zhuǎn)錄物的表達量與cDNA 片段成比例。 RNA-Seq 配對末端實驗每個片段產(chǎn)生兩個read

42、s,但這并不意味著兩個reads都可在圖上標(biāo)注。例如,第二個 read低品質(zhì)。如果我們對read 計數(shù)而不是片段,我們可能對某些片段重復(fù)計數(shù),而對另一些只計一次,導(dǎo)致對表達量估計的偏差。因此 FPKM以片段為單位計數(shù),而不是 reads數(shù)。(來源于 網(wǎng)上,原網(wǎng)址:)預(yù)測:1 .高通量測序數(shù)據(jù)分析總括:高通量測序數(shù)據(jù)庫程序讀出的reads數(shù)據(jù)及對應(yīng)的質(zhì)量分彳1以文件格式為fastq的格式保存。測序的原始數(shù)據(jù)為熒光信號, 首先將熒光信號轉(zhuǎn)換為序列信息, 即讀段數(shù)據(jù)及對應(yīng)的質(zhì)量分值;為了方便測序數(shù)據(jù)的發(fā)布和共享, 一般需要對數(shù)據(jù)進行格式化轉(zhuǎn)換, 最常用的數(shù)據(jù)格式為fastq 格式;對得到的原始數(shù)據(jù)必

43、須對其質(zhì)量進行評估,評估指標(biāo)包括G、C含量,堿基質(zhì)量,插入分布等。方便過濾掉質(zhì)量較差的讀段;若數(shù)據(jù)質(zhì)量評估過關(guān),接著將原始讀長通過序列映射定位到基因組上;若無參考基因組,則必須使用denovo 的組裝方法;得到測序數(shù)據(jù)的組裝圖后, 便可根據(jù)實驗?zāi)康膶M裝好的數(shù)據(jù)進行相關(guān)分析, 如分析基因的剪接位點, SNP 位點,變異位點還可以分析基因的差異化表達(RNA-Seq ),轉(zhuǎn)錄因子結(jié)合位點(Chip-Seq),甲基化模式(MeDIP-Seq ),同時還可利用此數(shù)據(jù)發(fā)現(xiàn)新的編碼基因和非編碼基因;使用可視化組件對分析結(jié)果進行可視化處理。2 .表達譜數(shù)據(jù)分析流程Intensity fExpression

44、 pro control f Normalization fDifferential gene expression analysis基因芯片在一個顏色通道掃描后得到的原式圖是色調(diào)單一,強度不同的亮點陳列圖;將原始的圖像數(shù)據(jù)轉(zhuǎn)換為基因表達矩陣;對得到的基因表達矩陣的數(shù)據(jù)質(zhì)量進行檢測, 對得到的數(shù)據(jù)進行統(tǒng)計學(xué)分析, 從而估計和校正試驗誤差,篩選出有效數(shù)據(jù)。標(biāo)準(zhǔn)化就是消除基因芯片實驗過程中系統(tǒng)變異對基因表達水平所帶來的影響。 標(biāo)準(zhǔn)化包括芯片內(nèi)的標(biāo)準(zhǔn)化和芯片之間的數(shù)據(jù)標(biāo)準(zhǔn)化。 芯片內(nèi)的標(biāo)準(zhǔn)化方法, 如局部加權(quán)線性回歸標(biāo)準(zhǔn)化,參照點標(biāo)準(zhǔn)化,芯片之間的標(biāo)準(zhǔn)化方法如 Quantile ;前幾部都是對表達譜

45、數(shù)據(jù)的預(yù)處理,后期的數(shù)據(jù)分析包括差異基因表達分析、聚類分析、判別分析等;a)差別基因表達分析可分析不同樣本中起關(guān)鍵作用的基因,為后續(xù)研究提供方向;b) 聚類分析是基因表達譜最廣泛使用的統(tǒng)計技術(shù), 聚類分析的目的再與尋找可能標(biāo)準(zhǔn)化或關(guān)聯(lián)的基因,從而預(yù)測位置基因的功能信息或已知基因的未知功能;c)判別分析能夠依據(jù)樣本的某些特性,判別樣本的所屬類型,利用已有數(shù)據(jù)建立分類器,然后利用建立的分類器對未知樣本的功能或狀態(tài)進行預(yù)測。方法主要有SVM ,貝葉斯分類和神經(jīng)網(wǎng)絡(luò)法等。3 .無生物學(xué)重復(fù)和有生物學(xué)重復(fù)時如何進行差異表達分析?答: ( 1)無生物學(xué)重復(fù):方法: FC( Fold change 倍數(shù)變化

46、)描述數(shù)據(jù)初值與終值之間的差異 (一般是兩個差別表達基因間或處理與對照之間) , 用標(biāo)準(zhǔn)化后的兩組數(shù)據(jù)相除得到的比例,一般2-fold 表明兩組數(shù)據(jù)是有顯著差異的;這種計算方法可以得到一組相對值, 而不是絕對值變化, 消除了系統(tǒng)誤差以便于統(tǒng)計學(xué)分 析;一般得到的 FC 值與設(shè)定的閾值進行比較即可得到表達有差異的基因; ( 2)有生物學(xué)重復(fù):方法:假設(shè)檢驗a)具體步驟:提出實際問題;提出無效假設(shè)(Ho)與備擇假設(shè)(Hi);選擇顯著性水平(一般 產(chǎn)0.05);選擇統(tǒng)計模型與相應(yīng)的統(tǒng)計量;根據(jù)實驗結(jié)果計算實驗統(tǒng)計量; 判斷檢驗統(tǒng)計量的p-值(表示事件發(fā)生的概率具有偶然性);將p值同選定的顯著性水平比

47、較;拒絕或不拒絕Ho;回答所提出的實際問題。b)假設(shè)檢驗根據(jù)數(shù)據(jù)類型(是否符合正態(tài)性)分為參數(shù)檢驗與非參數(shù)檢驗:參數(shù)檢驗:符合正態(tài)分布可使用,常用的方法主要有t檢驗法,配對t檢驗法、最小二乘法非參數(shù)檢驗:不符合正態(tài)分布可使用,常用的方法有Wilcoxon秩和檢驗法,其基本方法是根據(jù)表達量排序并按照排列順序檢驗,檢驗結(jié)果較參數(shù)檢驗法更粗獷。4 .全基因組測序的步驟?答:( 1)第一期:基因組調(diào)研圖整體測序深度不低于2o 倍覆蓋度。進行初步的數(shù)據(jù)分析,對基因組大小, GC 含量等做出初步評估,確定框架圖梯度文庫構(gòu)建具體策略;( 2 )第二期:基因組框架圖基因組覆蓋度達到 9o% 以上,基因區(qū)覆蓋度

48、達到 95% 以上,單堿基的錯誤率達到 1 萬分之一以內(nèi),整體測序覆蓋深度不低于6o 倍覆蓋度。同時對框架圖進行基本基因注釋和功能注釋,和簡單的比較基因組學(xué)分析。( 3 )第三期:基因組精細(xì)圖基因組覆蓋度達到 95% 以上,基因區(qū)覆蓋度達到 98% 以上,單堿基的錯誤率達到 1o 萬分之一以內(nèi),整體基因組覆蓋度不低于1oo 倍, Scaffold N5o 大小不低于3ooKb ,對基因組精細(xì)圖進行詳細(xì)基因注釋,基因功能注釋,基因代謝途徑注釋和比較基因組學(xué)分析。5 . 轉(zhuǎn)錄本測序,各數(shù)據(jù)分析工具的特點?轉(zhuǎn)錄本測序可分為 Small RNA-seq 和 RNA-seq : Small RNA-se

49、q 主要用于檢測small RNA (主要是 miRNA )的表達水平,發(fā)現(xiàn)新的 smallRNARNA-seq : Poly(A)用以檢測蛋白質(zhì)編碼基因的可變剪切體及表達水平;Total RNA (除rRNA)用于檢測 mRNA及l(fā)ong noncoding RNA 的表達水平并發(fā)現(xiàn)新的 long noncoding RNA ; 數(shù)據(jù)分析工具主要有: Bowtie, TopHat, Cufflinks ,具體作用如下:a)Bowtie是一個超級快速的,較為節(jié)省內(nèi)存的短序列拼接至模板基因組的工具。它在拼接35堿基長度的序列時,可以達到每小時2.5億次的拼接速度。Bowtie并不是一個簡單的拼接

50、工具,它不同于 Blast等。它適合的工作是將小序列比對至大基因組上去。它最長能讀取 1024個堿基的片段。b)TopHat是一個快速的將RNA-Seq數(shù)據(jù)進行快速剪接映射的程序。它使用超快的高通量短 讀比對程序,將 RNA-Seq的信息比對到哺乳動物大小基因組上,然后分析映射結(jié)果來鑒別 外顯子之間的剪接點。c)Cufflinks 利用Tophat比對的結(jié)果(alignments)來組裝轉(zhuǎn)錄本,估計這些轉(zhuǎn)錄本的豐度,并且檢測樣本間的差異表達及可變剪接調(diào)控。它通過接受線性的 RNA-Seq reads并將線性片段組裝為一套最大簡約的(parsimonious)轉(zhuǎn)錄本。然后根據(jù)reads數(shù)估計估計

51、相關(guān)轉(zhuǎn)錄本的豐度并將實驗室預(yù)設(shè)的偏差考慮在內(nèi)。6 .轉(zhuǎn)錄本拼接最大簡約轉(zhuǎn)錄本的組裝方法:組裝一套轉(zhuǎn)錄本一在鏈中找到最小的分割單元P一-找到最大的反義鏈一在二分圖中找到最大匹配數(shù)一找到最小點覆蓋二分圖:指頂點可以分成兩個不相交的集使得在同一個集內(nèi)的頂點不相鄰(沒有共同邊)的圖。設(shè)G=(V,E)是一個無向圖,如果頂點 V可分割為兩個互不相交的子集 (U,V),并且圖中 的每條邊(i, j)所關(guān)聯(lián)的兩個頂點i和j分別屬于這兩個不同的頂點集 (i in U,j in V),則稱 圖G為一個二分圖。最大匹配:給定一個二分圖 G,在G的一個子圖M中,M的邊集中的任意兩條邊都不依附于同一個頂點,則稱 M是一

52、個匹配,選擇這樣的邊數(shù)最大的子集稱為圖的最大匹配。最小點覆蓋:給定一個二分圖G,在G的一個子圖N中,N的點集中的點與所有的邊都有關(guān)聯(lián)(把所有的邊都覆蓋),則稱N是一個點覆蓋,選擇這樣的點數(shù)最小的子集稱為圖的最小點覆蓋。7 . Illumina測序原理在聚合反應(yīng)體系中加入修飾過的四種核甘酸,它們分別被標(biāo)記上終止基團和熒光基團:3'羥基上標(biāo)記上疊氮基一一在延伸時起阻止聚合的作用,胞喀呢上標(biāo)記 上熒光基團。每一種核甘酸標(biāo)記的熒光分子是不一樣的。聚合終止,每次加入一個修飾核甘酸,鏈聚合就被終止了,如下圖用激發(fā)光照射,被修飾的堿基發(fā)出熒光,記錄熒光信號,則知這一步加入的是 什么核甘酸。延伸回復(fù):

53、加入二琉基丙醇去掉疊氮基;用TCEP(Tris (2-carboxyethyl) phosphine,三(2-竣乙基)瞬)處理,去掉熒光基團。進入下一輪延伸,加入一個新的堿基。原理的關(guān)鍵之處在于如何形成足夠強的熒光信號。無疑這需要大量的模板。怎樣來獲得大量模板呢?同時二代測序技術(shù)還要實現(xiàn)高通量測序, 即同時對大量 序列測序。如何將混合樣品中序列彼此分開呢? 川umina橋式PCR技術(shù)可解決以 上兩個問題(1)樣品準(zhǔn)備 序列片段化:將混合樣品中的核酸序列打斷至 400bp左右短序列收集,并將末端補平。在 5'端加一個Pi基團;3'端加一個“A”在兩端分別加上不同的接頭序列(2)橋

54、式PCR將樣品平鋪到預(yù)制的含與接頭序列互補的平板上(flow cell),平板結(jié)構(gòu)如下:Flow cell表面是寡聚引物加上接頭的序列與平板上寡聚引物互補配對21 / 19Each cluster has a unique sequence每個簇都有約10000個拷貝,且每個簇都代表一個獨特序列酶聚合形成雙鏈橋式結(jié)構(gòu)加上接頭的序列與平板上寡聚引物互補配對,然后進行酶聚合反應(yīng) 變性使原始模板鏈分離并洗凈.! 模板鏈脫離單鏈彎曲雜交在相鄰的引物上 單鏈彎曲雜交在相鄰的引物(與另一端結(jié)合的引物)上。 酶聚合形成雙鏈橋式結(jié)構(gòu);之后橋式結(jié)構(gòu)打開形成的兩個 copy又在其各自周 圍形成新的copy。 橋式

55、雙鏈分開,反向鏈(底3'-5'上)被切掉后洗脫(通過切反向鏈引物);加入測序引物測序,如圖右正向鏈3'端被封閉,防止不必要的DNA延伸8.高通量測序數(shù)據(jù)的分析流程其文件格式為fastaq高通量測序數(shù)據(jù)以程序讀出的reads數(shù)據(jù)及對應(yīng)的質(zhì)量分值的格式保存,格式高通量測序最原始的數(shù)據(jù)為熒光信號,首先將熒光信號轉(zhuǎn)化為序列信息,即reads數(shù)據(jù)及對應(yīng)的質(zhì)量分值。為了便于測序數(shù)據(jù)的發(fā)布以及共享,一般需要對數(shù)據(jù)進行格式轉(zhuǎn)換,最常用的數(shù)據(jù)格式是fastaq。對于得到的數(shù)據(jù)必須對其質(zhì)量進行評估,評估指標(biāo)包括G*量,堿基質(zhì)量,插入缺失錯誤,以便過濾掉質(zhì)量差的reads。若數(shù)據(jù)質(zhì)量評估過關(guān),接著將原始reads map到基因組上。若無參考基因組,則需用de novo 組裝方法。得到測序數(shù)據(jù)的組裝圖后,便可以根據(jù)實驗?zāi)康模?對組裝好的數(shù)據(jù)進行相關(guān)的分析。如分析基因的剪接位點,SNP&點,變異位點,還可以分析基因的差異化表達(DNA,RNA),轉(zhuǎn)錄因子結(jié)合位點(Chip-seq),甲基化模式(MeDIP-seq),同時還可利用此數(shù)據(jù)發(fā)現(xiàn)新的編碼 基因和非編碼基因。使用可視化軟件對分析結(jié)果進行可視化處理。王秀杰老師部分:1想知道轉(zhuǎn)錄因子的結(jié)合位點用什么方法?轉(zhuǎn)錄調(diào)控是基因表達的關(guān)鍵步驟:轉(zhuǎn)錄調(diào)控因子(transcri

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論