生物信息學復習重點_第1頁
生物信息學復習重點_第2頁
生物信息學復習重點_第3頁
生物信息學復習重點_第4頁
生物信息學復習重點_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

生物信息學復習重點生物信息學復習重點生物信息學復習重點V:1.0精細整理,僅供參考生物信息學復習重點日期:20xx年X月生物信息學是一門交叉學科,包含了生物信息的獲取、加工、存儲、分配、分析、解釋等在內(nèi)的所有方面,它綜合運用數(shù)學、計算機科學和生物學等的各種工具來闡明和理解大量數(shù)據(jù)所包含的生物學意義。生物信息學宗旨在揭示基因組信息結(jié)構(gòu)的復雜性及遺傳語言的根本規(guī)律。從生物分子獲得和挖掘深層次生物學知識。人類基因組計劃(HGP):獲得遺傳圖、物理圖、序列圖、轉(zhuǎn)錄圖;終極目標:闡明人類基因組全部DNA序列;識別基因;建立儲存這些信息的數(shù)據(jù)庫;開發(fā)數(shù)據(jù)分析工具;研究HGP實施所帶來的倫理、法律和社會問題。其中我國承擔了人類3號染色體短臂。記錄:一個數(shù)據(jù)庫記錄一般由兩部分組成:原始序列數(shù)據(jù)和描述這些數(shù)據(jù)生物學信息的注釋。冗余:在一個數(shù)據(jù)庫存在著多個相同的項,如兩個或者更多的記錄中有一個相同序列Fasta格式開始于一個標識符:">",然后是一行描述。GenBank格式:每個基因描述可有多個描述行,包含一行以LOUCUS開頭描述行,基因序列以O(shè)RIGN開頭,以//結(jié)尾。EMBL:入口標識符ID,序列開始標識符SQ,結(jié)束是//。數(shù)據(jù)庫的特點:①數(shù)據(jù)庫是可以檢索的,即具有檢索功能;②數(shù)據(jù)庫應(yīng)該是定時更新的,即不斷有新版內(nèi)容發(fā)布;③數(shù)據(jù)庫是交叉引用的,特別是在互聯(lián)網(wǎng)時代,數(shù)據(jù)庫應(yīng)該通過超鏈接與其他數(shù)據(jù)庫相連。EST序列:表達序列標簽對cDNA文庫測序得到的,是轉(zhuǎn)錄的DNA序列。STS序列:序列標簽位點染色體上位置已定的、核苷酸序列已知的、且在基因組中只有一份拷貝的DNA短片斷,(200bp-500bp)。STS序列標簽位點是基因組上定位明確、作為界標并能通過PCR擴增被唯一操作的短的、單拷貝DNA序列,用于產(chǎn)生作圖位點。GSS序列:基因組概覽測序基因組DNA克隆的一次性部分測序得到的序列。HTG序列:高通量基因組序列三大數(shù)據(jù)庫:NCBI(GenBank):美國生物技術(shù)中心,建立了一系列生物信息數(shù)據(jù)和各種服務(wù)。EMBL:歐洲分子生物學實驗室。DDBJ:日本遺傳研究所。同源性基因系指起源于同一祖先但序列已經(jīng)發(fā)生變異的基因成員?;蛲葱灾挥小笆恰焙汀胺恰钡膮^(qū)別,是一種質(zhì)的判斷。直系同源基因:分布在不同物種間的同源基因又稱直系同源基因。旁系同源基因:同一物種的同源基因則稱旁系同源基因(水平基因),水平基因由重復后趨異產(chǎn)生。一致性:序列中同一堿基位置的相同的堿基成員,或者蛋白質(zhì)的同一氨基酸位置的相同的氨基酸成員的百分比。相似性:序列中同一位置相同或相似序列的百分比。如同源蛋白質(zhì)的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例??扇〈被嵯抵妇哂邢嗤再|(zhì)如極性氨基酸或非極性氨基酸的成員,它們之間的代換不影響蛋白質(zhì)(或酶)的生物學功能。相似性和同源性關(guān)系:一般來說序列間的相似性越高的話,是同源序列的可能性就更高,所以經(jīng)??梢酝ㄟ^序列的相似性來推測序列是否同源。序列比對:確定兩個或多個序列之間的相似性以至于同源性,而將它們按照一定的規(guī)律排列。任務(wù):通過比較生物分子序列,發(fā)現(xiàn)它們的相似性,找出序列之間共同的區(qū)域,同時辨別序列之間的根本差異。相似性:可能是核酸/氨基酸序列的相似、可能是結(jié)構(gòu)的相似、可能是功能的相似主要的blast程序:程序名查詢序列數(shù)據(jù)庫搜索方法Blastn核酸核酸核酸序列搜索逐一核酸數(shù)據(jù)庫中的序列Blastp蛋白質(zhì)蛋白質(zhì)蛋白質(zhì)序列搜索逐一蛋白質(zhì)數(shù)據(jù)庫中的序列Blastx核酸蛋白質(zhì)核酸序列6框翻譯成蛋白質(zhì)序列后和蛋白質(zhì)數(shù)據(jù)庫中的序列逐一搜索。Tblastn蛋白質(zhì)核酸蛋白質(zhì)序列和核酸數(shù)據(jù)庫中的核酸序列6框翻譯后的蛋白質(zhì)序列逐一比對。TBlastx核酸核酸核酸序列6框翻譯成蛋白質(zhì)序列,再和核酸數(shù)據(jù)庫中的核酸序列6框翻譯成的蛋白質(zhì)序列逐一進行比對。Score:使用打分矩陣對匹配的片段進行打分,這是對各對氨基酸殘基(或堿基)打分求和的結(jié)果,一般來說,匹配片段越長、相似性越高則Score值越大。Evalue:在相同長度的情況下,兩個氨基酸殘基(或堿基)隨機排列的序列進行打分,得到上述Score值的概率的大小。E值越小表示隨機情況下得到該Score值的可能性越低。分子鐘:某一蛋白在不同物種間的取代數(shù)與所研究物種間的分歧時間接近正線性關(guān)系,進而將分子水平的這種恒速變異稱為“分子鐘”。中性學說:突變大多數(shù)是中性的,中性突變通過隨機的遺傳漂變在群體里固定下來,分子進化是遺傳漂變的結(jié)果,在分子進化上自然選擇不起作用。分子進化/系統(tǒng)發(fā)育樹的研究目的:①物種分類及關(guān)系:從物種的一些分子特性出發(fā),構(gòu)建系統(tǒng)發(fā)育樹,進而了解物種之間的生物系統(tǒng)發(fā)生的關(guān)系②大分子功能與結(jié)構(gòu)的分析:同一家族的大分子,具有相似的三級結(jié)構(gòu)及生化功能,通過序列同源性分析,構(gòu)建系統(tǒng)發(fā)育樹,進行相關(guān)分析和功能預(yù)測③進化速率分析:例如,HIV的高突變性,哪些位點易發(fā)生突變末端節(jié)點:代表最終分類,可以是物種,群體或者蛋白質(zhì)、DNA、RNA分子等。系統(tǒng)發(fā)育樹是由一系列節(jié)點和分支組成,其中每個節(jié)點代表一個分類單元(物種或序列),而節(jié)點之間的連線代表物種之間的進化關(guān)系。樹的節(jié)點又分為外部節(jié)點和內(nèi)部節(jié)點。外部節(jié)點代表實際觀察到的分類單元。內(nèi)部節(jié)點又稱為分支點,代表分類單元進化歷程中的祖先。一個DNA序列在物種形成或基因復制時,分裂成兩個子序列,因此系統(tǒng)發(fā)育樹一般是二叉樹。有根樹:從最早共同祖先,即根開始,隨著時間的連續(xù)分支事件引起的一組相關(guān)物種的分歧。無根樹:表示分類單元之間的進化關(guān)系,但不鑒別最早的共同祖先。距離:對一個有根樹來說,沿著每個分支的進化方向是確定的。反之,對無根樹來說,并不清楚內(nèi)部分支的祖先物種是從哪里進化而來相關(guān)序列間的差異稱為距離。不同物種的兩條同源序列的度量被稱為遺傳距離或進化距離。外群/外圍枝:與當前研究的主要物種或基因相對較遠的一組序列,可以輔助定位樹根,選擇條件:序列必須與剩余序列關(guān)系較近,但外圍支序列與其他序列間的差異必須比其他序列之間的差異更顯著系統(tǒng)發(fā)育樹構(gòu)建步驟:多序列比對;建立取代模型(建樹方法);建立進化樹;進化樹評估。進化樹的可信度檢驗自展法(統(tǒng)計方法):從排列的多序列中隨機有放回的抽取某一列,構(gòu)成相同長度的新的排列序列;重復上面的過程,得到多組新的序列;對這些新的序列進行建樹,再觀察這些樹與原始樹是否有差異,以此評價建樹的可靠性建樹一般原則:1.可靠的待分析數(shù)據(jù)2.準確的多序列比對3.選擇合適的建樹方法:A.序列相似程度高,MP(簡約法)B.序列相似程度較低,ML(似然法)C.序列相似程度中等,NJ(鄰接法)D.序列相似程度太低,無意義bootstrap為每個分支指派一個數(shù)值,表示這些分支在bootstrap測試中出現(xiàn)的百分比,暗示它們關(guān)聯(lián)的化分是否被數(shù)據(jù)很好地支持。越接近100,可信度越高。GO:基因本體聯(lián)合會所建立的數(shù)據(jù)庫,旨在建立一個適用于各種物種的,對基因和蛋白質(zhì)功能進行限定和描述的,并能隨著研究不斷深入而更新的語義詞匯標準。GO語義的分類:①分子功能描述在個體分子生物學上的活性,如催化活性或結(jié)合活性。②生物學過程由分子功能有序地組成的,具有多個步驟的一個過程。③細胞組件指基因產(chǎn)物位于何種細胞器或基因產(chǎn)物組中(如糙面內(nèi)質(zhì)網(wǎng),核糖體,蛋白酶體等),即基因產(chǎn)物在什么地方起作用。語義之間有三種關(guān)系:①isa(I)②partof(P)③regulates(R)語義之間的關(guān)系:1.“語義”用“結(jié)點”表示2.用父子結(jié)點來表示語義之間的關(guān)系,其中父結(jié)點離根結(jié)點較近,表示相對寬泛的語義,而子結(jié)點離葉子結(jié)點較近,相對父結(jié)點其語義所代表的內(nèi)容更為具體。3.實線表示結(jié)點之間的關(guān)系4.虛線表示推理而并未證明的關(guān)系GO語義之間的關(guān)系是單向的,結(jié)構(gòu)像是有向非循環(huán)樹,但與有向非循環(huán)樹不同的是,本體論結(jié)構(gòu)圖中的結(jié)點可以有兩個及其以上的父結(jié)點。在“Qualifier”用“NOT”標注,如“nursecellapoptosis”,其說明根據(jù)實驗數(shù)據(jù),該基因產(chǎn)物并不在“nursecellapoptosis”過程中起明顯作用,因而該基因產(chǎn)物用該語義注釋只是研究者的一種推測與期望,此推測的根據(jù)是該基因產(chǎn)物與那些在“nursecellapoptosis”起明顯作用的基因產(chǎn)物有著非常相似的序列結(jié)構(gòu)。間隔區(qū)(IGR)是一片位于基因之間的DNA序列。非編碼DNA間隔區(qū)的一個子集。偶爾有些間隔DNA的作用來控制基因附近,但目前大部分沒有已知的功能。它有時也被稱為“垃圾DNA”的DNA序列之一,最近被稱為“暗物質(zhì)”或“暗物質(zhì)轉(zhuǎn)錄間隔區(qū)的DNA片段”。重復序列的分析:對于真核生物的核酸序列而言,在進行基因辨識之前都應(yīng)該把簡單的大量的重復序列標記出來并除去,因為很多情況下重復序列會對預(yù)測程序產(chǎn)生很大的擾亂,尤其是涉及數(shù)據(jù)庫搜索的程序。等值區(qū):大部分真核基因組表現(xiàn)出一種稱為等值區(qū)的組織形式。等值區(qū)定義為“具有一致堿基組成的長區(qū)域”:①等值區(qū)基因組序列的長度超過1,000,000對堿基;②雖然不同的等值區(qū)其GC含量差別顯著,但同一等值區(qū)的GC含量始終相對均衡,即在等值區(qū)全長序列上移動的1,000bp滑動窗口中的GC含量與整個序列的GC含量相差不超過1%。人類基因組大約可以劃分為五個不同類型的等值區(qū):其中有兩個區(qū)域缺乏G和C,分別被稱作L1和L2,平均GC含量分別為39%和42%;另三個區(qū)域所含的G和C相對豐富,分別被稱作H1、H2和H3,GC含量平均值分別為46%、49%和54%。真核生物的H等值區(qū)中含有豐富的基因,是開始基因組測序的最佳位置。SD序列:mRNA翻譯起點上游與原核16S核糖體RNA或真核18SrRNA3′端富含嘧啶的7核苷酸序列互補的富含嘌呤的3~7個核苷酸序列(AGGAGG),是核糖體小亞基與mRNA結(jié)合并形成正確的前起始復合體的一段序列。Kozak規(guī)則,即第一個AUG側(cè)翼序列的堿基分布所滿足的統(tǒng)計規(guī)律,若將第一個AUG中的堿基A,U,G分別標為1,2,3位,則:①第4位的偏好堿基為G②AUG的5’端約15bp范圍的側(cè)翼序列內(nèi)不含堿基T;③在-3,-6和-9位置,G是偏好堿基;④除-3,-6和-9位,在整個側(cè)翼序列區(qū),C是偏好堿基真核生物中的基因預(yù)測程序的分類:1.基于同源性的方法2.基于從頭算的方法3.基于一致性的算法(大部分程序是物種專一的,這是由于用于獲得統(tǒng)計參數(shù)的訓練數(shù)據(jù)必須由單一生物體取得)蛋白質(zhì)數(shù)據(jù)庫:提供詳細的蛋白質(zhì)序列、功能信息,如蛋白質(zhì)功能描述、結(jié)構(gòu)域結(jié)構(gòu)、轉(zhuǎn)錄后修飾、修飾位點、變異度、二級結(jié)構(gòu)、三級結(jié)構(gòu)等同時提供其它數(shù)據(jù)庫,包括序列數(shù)據(jù)庫、三維結(jié)構(gòu)數(shù)據(jù)庫、2-D凝聚電泳數(shù)據(jù)庫、蛋白質(zhì)家族數(shù)據(jù)庫的相應(yīng)鏈接Reviewed和Unreviewed代表數(shù)據(jù)的可性度??尚远鹊臉撕炛饕腥N:人工驗證的數(shù)據(jù)(黃色星);從其他數(shù)據(jù)源引用過來的數(shù)據(jù)(半黃半灰星);通過程序添加或者產(chǎn)生信息的(灰色星)。蛋白質(zhì)3D結(jié)構(gòu)預(yù)測的方法可分為三大類:①同源建模法②折疊識別法③從頭預(yù)測法生物芯片:生物活性物質(zhì)以點陣的形式有序地固定在固相載體上。在特定條件下與熒光標記過的待檢測樣品進行生化反應(yīng)。反應(yīng)結(jié)果用化學方法顯示,光學儀器進行數(shù)據(jù)采集,通過計算機軟件進行數(shù)據(jù)分析,得到樣品的分子信息。基因芯片數(shù)據(jù)處理和分析:1.基因芯片數(shù)據(jù)的獲取2.芯片數(shù)據(jù)的標準化3.差異表達基因的分析4.基因共表達分析5.基因表達數(shù)據(jù)的聚類6.基因表達數(shù)據(jù)的分類7.后續(xù)分析誤差來源:①圖像分析②掃描③DNA雜交過程(溫度、時間、混合均勻程度等)④探針的標記⑤RNA的抽提⑥加樣⑦其他芯片數(shù)據(jù)的標準化:為了消除由于實驗技術(shù)所導致的表達量的變化,并使各樣本和平行實驗的數(shù)據(jù)處于相同的水平,從而得到具有生物學意義的基因表達量的變化。數(shù)據(jù)過濾:過濾掉非正數(shù),通過圖像掃描軟件,將每個雜交點的光強度轉(zhuǎn)化為表達量時,會產(chǎn)生負的數(shù)值或者0,這主要是軟件的算法對背景噪音處理時所產(chǎn)生的。由于負數(shù)和零是不能對數(shù)化的,故過濾掉這些數(shù)據(jù)是非常必要的。歸一化采用的一個基本假設(shè)是:在測試樣本與對照樣本間大多數(shù)的基因是沒有顯著差異表達的,而在有差異表達的基因中,在測試樣品中高表達的基因與低表達的基因在數(shù)量上也是大致相當?shù)?,因此芯片上所有基因的相對表達量應(yīng)該是以0為中心的分布。平均數(shù)、中位數(shù)標準化:由于不同的實驗樣本(如不同組織)是分別在不同的芯片上雜交試驗,因而也有系統(tǒng)誤差,應(yīng)通過標準化將芯片的數(shù)據(jù)調(diào)整到同一水平。芯片間的數(shù)據(jù)標準化常采用,常用的方法是平均數(shù)、中位數(shù)標準化。即:將不同組實驗的數(shù)據(jù)對數(shù)比值的中位數(shù)或平均數(shù)調(diào)整到同一大小差異表達基因的分析:目的:比較兩個條件下的基因表達差異,從而識別出與條件相關(guān)的特異基因或者顯著差異表達基因基因顯著差異表達:通常是指一個基因在兩個條件中的表達水平的檢測值在排除實驗、檢測等因素后達到一定的差異,具有統(tǒng)計學意義,同時也具有生物學意義。基因共表達分析:在N個不同的條件下,考察基因X和Y的表達是否相似。共表達:正相關(guān):相似的表達譜,可能存在正關(guān)聯(lián);負相關(guān):相反的表達譜,可能存在負調(diào)控Pearson相關(guān)系數(shù):r~[-1,1];r~1,正相關(guān);r~-1,負相關(guān)基因表達數(shù)據(jù)的聚類:從數(shù)據(jù)矩陣出發(fā),將表達模式相

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論