8年制生物信息學(xué)ppt課件 第11章_第1頁
8年制生物信息學(xué)ppt課件 第11章_第2頁
8年制生物信息學(xué)ppt課件 第11章_第3頁
8年制生物信息學(xué)ppt課件 第11章_第4頁
8年制生物信息學(xué)ppt課件 第11章_第5頁
已閱讀5頁,還剩95頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

汕頭大學(xué)醫(yī)學(xué)院許麗艷第十一章

轉(zhuǎn)錄調(diào)控的信息學(xué)分析BioinformaticAnalysisofTranscriptionalRegulation學(xué)習(xí)提綱

重點(diǎn):

轉(zhuǎn)錄因子結(jié)合位點(diǎn)的識別及其定位的基本概念和表示方法轉(zhuǎn)錄因子結(jié)合位點(diǎn)識別的操作步驟和相關(guān)算法的使用轉(zhuǎn)錄因子結(jié)合位點(diǎn)定位預(yù)測軟件的使用學(xué)習(xí)提綱

難點(diǎn):

轉(zhuǎn)錄因子結(jié)合位點(diǎn)識別的操作步驟和相關(guān)算法的使用

轉(zhuǎn)錄調(diào)控相關(guān)數(shù)據(jù)庫

熟悉:、基因轉(zhuǎn)錄調(diào)節(jié)的基本模式第一節(jié)引言Introduction二、基因轉(zhuǎn)錄調(diào)節(jié)機(jī)制的研究方法實(shí)驗(yàn)方法:熒光素酶報(bào)告基因(luciferasereportgene)凝膠遷移(electrophoreticmobilityshiftassays)染色質(zhì)免疫沉淀(ChIP)DNase足跡法(DNasefootprinting)信息學(xué)分析第二節(jié)轉(zhuǎn)錄調(diào)控的高通量實(shí)驗(yàn)測定High-throughputTechniquesinTranscriptionalRegulationAnalysis

一、ChIP技術(shù)創(chuàng)立者:

20世紀(jì)80年代末

AlexanderVarshavsky等人

(Cell.1988,53(6):937-947

)甲醛交聯(lián),穩(wěn)定蛋白質(zhì)-DNA復(fù)合物裂解細(xì)胞,分離蛋白質(zhì)-DNA復(fù)合物加入特異性抗體,沉淀蛋白質(zhì)-DNA復(fù)合物去交聯(lián),純化DNA應(yīng)用PCR技術(shù),特異性擴(kuò)增目的DNA片段基本實(shí)驗(yàn)過程:特點(diǎn):針對某一特定候選轉(zhuǎn)錄因子,是否特異性結(jié)合于所調(diào)節(jié)的靶基因某一預(yù)定區(qū)域內(nèi),如啟動(dòng)子區(qū),進(jìn)行檢測。對同一DNA底物,可以運(yùn)用多種不同的抗體,分別進(jìn)行免疫共沉淀,以確定多種結(jié)合蛋白在同一染色質(zhì)片段上的結(jié)合。二、ChIP-chip技術(shù)創(chuàng)立者:

2000年,RichardA.Young等人

(Science.2000,290(5500):2306-2309)ChIP和芯片技術(shù)的聯(lián)合運(yùn)用全基因組范圍內(nèi)的定位分析靶基因群的高通量分析特點(diǎn):不足之處:成本較高結(jié)果分析的標(biāo)準(zhǔn)化尚待完善分辨率較低,大于200bp基因芯片是“封閉系統(tǒng)”,只能檢測已知序列三、ChIP-seq技術(shù)創(chuàng)立者:

2007年,StevenJ.M.Jones等人

(Science.2000,290(5500):2306-2309)特點(diǎn):染色質(zhì)免疫沉淀后的DNA,直接進(jìn)行高通量測序是一個(gè)“開放系統(tǒng)”。它可以檢測更小的結(jié)合區(qū)段、未知的結(jié)合位點(diǎn)、結(jié)合位點(diǎn)內(nèi)的突變情況和蛋白親合力較低的區(qū)段成本低,周期短,省去了標(biāo)記和雜交等步驟,并且無需多次重復(fù)實(shí)驗(yàn),極大提高了工作效率分辨率可提高到30~50bp

第三節(jié)轉(zhuǎn)錄因子結(jié)合位點(diǎn)的信息學(xué)預(yù)測方法PredictionofTranscriptionalFactorBindingsites一、轉(zhuǎn)錄因子結(jié)合位點(diǎn)的的表示方法(一)共性序列(consensussequence)

將能與同一個(gè)轉(zhuǎn)錄因子結(jié)合的所有DNA片段按照對應(yīng)位置進(jìn)行排列,在每個(gè)位置上選擇最可能出現(xiàn)的堿基,就組成了該轉(zhuǎn)錄因子結(jié)合位點(diǎn)的共有序列。共性序列中用A、C、G、T之外的字母來表示結(jié)合位點(diǎn)中各個(gè)位置上可能出現(xiàn)的堿基組合,這些字母稱為IUPAC簡并碼。共性序列的表示方法簡明易懂,卻不能夠反映每個(gè)位置上不同堿基出現(xiàn)的概率。

IUPAC簡并碼IUPACcodeNucleotideIUPACcodeNucleotideWAorTBC,GorTRAorGDA,GorTKGorTHA,CorTSCorGVA,CorGYCorTNA,C,GorTMAorC(二)位置頻率矩陣(positionfrequencymatrix)

位置頻率矩陣可以反映出每個(gè)位置上不同堿基出現(xiàn)的概率。該模型的一個(gè)前提假設(shè)是各個(gè)位置上堿基出現(xiàn)的概率相互獨(dú)立。矩陣每一列表示模體相應(yīng)位置上四種堿基出現(xiàn)的概率。對于長度為n的模體,堿基i(i={A,C,G,T})在模體第j

個(gè)位置上出現(xiàn)的頻率為q

i,j,則整個(gè)模體用矩陣M表示如下:(三)序列標(biāo)識圖(sequencelogo)

序列標(biāo)識圖依次繪出模體中各個(gè)位置上出現(xiàn)的堿基,每個(gè)位置上所有堿基的高度和反映了該位置上堿基的一致性,每個(gè)堿基字母的大小與堿基在該位置上出現(xiàn)的頻率成正比。這種表示方法直觀地給出模體各個(gè)位置上堿基出現(xiàn)的傾向性和整個(gè)模體的序列的一致性。二、轉(zhuǎn)錄因子結(jié)合位點(diǎn)的識別基本概念:通過收集可能被同一轉(zhuǎn)錄因子調(diào)控的基因啟動(dòng)子序列,在其中尋找具有統(tǒng)計(jì)顯著性的短片段,作為轉(zhuǎn)錄因子可能的結(jié)合位點(diǎn),稱之為轉(zhuǎn)錄因子結(jié)合位點(diǎn)的識別基本流程:收集可能被同一轉(zhuǎn)錄因子調(diào)控的多基因序列

通過多種計(jì)算方法從不同角度或不同層面去進(jìn)行計(jì)算、評估和分析,盡可能地屏蔽掉冗余序列和噪音序列,尋找出具有統(tǒng)計(jì)顯著性的短片段,作為轉(zhuǎn)錄因子可能的結(jié)合位點(diǎn)查詢相關(guān)轉(zhuǎn)錄因子數(shù)據(jù)庫,以確定轉(zhuǎn)錄因子基本流程(一)獲得靶向序列從基因差異表達(dá)譜芯片數(shù)據(jù)出發(fā)獲得啟動(dòng)子序列。利用NCBI上相關(guān)核酸數(shù)據(jù)庫選取轉(zhuǎn)錄起始位點(diǎn)附近1000~2000bp的長度作為啟動(dòng)子區(qū)從差異表達(dá)蛋白質(zhì)數(shù)據(jù)出發(fā)獲得啟動(dòng)子序列。從SWISS-PROT和NCBI等數(shù)據(jù)庫中獲得編碼基因的啟動(dòng)子區(qū)從ChIP-chip和ChIP-seq數(shù)據(jù)出發(fā)獲得結(jié)合位點(diǎn)序列。(二)轉(zhuǎn)錄因子結(jié)合位點(diǎn)識別的計(jì)算方法1.單個(gè)模體預(yù)測算法2.比較基因組學(xué)基于共有序列的識別方法:MobyDick和YMF算法

基于位置頻率矩陣的識別方法:

MEME和GibbsMotifSampler算法遺傳系譜印記法:

PhyMe、PhyloGibbs和PhyloCon

等方法3.順式調(diào)控模塊識別方法

CisModule、GibbsModuleSampler和

EMCModule方法4.基于啟動(dòng)子區(qū)重要性差異的識別算法

MDScan和DME算法5.SISSRs算法(三)處理識別結(jié)果去冗余及質(zhì)量控制

Motifclass法通過回歸分析尋找特定條件下起作用的模體REDUCE算法:以模體出現(xiàn)的次數(shù)作為自變量來進(jìn)行簡單線性回歸MatrixREDUCE算法:用位置頻率矩陣的打分作為自變量進(jìn)行回歸MARSMotif-M算法:多變量適應(yīng)回歸模型

轉(zhuǎn)錄因子結(jié)合位點(diǎn)分析可利用網(wǎng)絡(luò)資源CategoryProgramURLSinglemotifdiscoveryMobyDick/mobydick/YMF/software.htmlConsensus/software.htmlMEME/meme/intro.htmlGibbsSampler/gibbs/gibbs.htmlMDScan/~xsliu/MDscan/DME/software/index1.htmSISSRs/papers/lmi/epigenomes/sissrs/ComparativegenomicsPhyMe/cgi-bin/phyme/download.plPhyloGibbshttp://www.imsc.res.in/~rsidd/phylogibbs/Cis-moduleanalysisCisModule/~zhou/CisModule/EMCModule/~gupta/emcmodule.htmlRegressionmethodsREDUCE:8080/reduce/MatrixREDUCE/software/MatrixREDUCE/MotifRegressor/~conlon/mr.htmlMarsMotif-M/software/index1.htmMotifsearchDatabaseTRANSFAC/Jasparhttp://jaspar.cgb.ki.se/DBTBShttp://dbtbs.hgc.jp/TRED/cgi-bin/TRED/tred.cgi?process=home三、轉(zhuǎn)錄因子結(jié)合位點(diǎn)的定位基本概念:根據(jù)若干已知的轉(zhuǎn)錄因子結(jié)合位點(diǎn)的模體,在所研究基因的啟動(dòng)子區(qū)域內(nèi)搜索相應(yīng)轉(zhuǎn)錄因子可能的結(jié)合位點(diǎn),稱之為轉(zhuǎn)錄因子結(jié)合位點(diǎn)的定位對任一長度為n的已知模體位置頻率矩陣M,轉(zhuǎn)錄因子結(jié)合位點(diǎn)定位就是判斷某一長度為n的序列片段與M的匹配程度??紤]到DNA序列本身有可能存在堿基組成上的偏向性,通常把位置頻率矩陣轉(zhuǎn)換為位置權(quán)重矩陣。用位置權(quán)重矩陣的打分來衡量模體與任意給定序列的匹配程度。(一)轉(zhuǎn)錄因子結(jié)合位點(diǎn)定位的計(jì)算方法位置權(quán)重矩陣在位置權(quán)重矩陣中,引入堿基i(i={A,C,G,T})在背景序列中出現(xiàn)的頻率(記為bi)來消除DNA序列本身堿基組成偏向性的影響。位置權(quán)重矩陣的每一項(xiàng)記為Si,j:則M被轉(zhuǎn)換為的位置權(quán)重矩陣S為:對于長度為n的DNA序列片段,它作為模體M對應(yīng)的轉(zhuǎn)錄因子結(jié)合位點(diǎn)的打分為:tj

表示相應(yīng)序列第j個(gè)位置上出現(xiàn)的堿基。給定閾值T,如果序列片段由上式給出的打分S≥T,則認(rèn)為它有可能是相應(yīng)轉(zhuǎn)錄因子的結(jié)合位點(diǎn)。(二)轉(zhuǎn)錄因子結(jié)合位點(diǎn)的預(yù)測1.TRANSFACAliBabaP-MatchPatchMatrixCatch2.TESS/cgi-bin/tess/tess4.分析結(jié)果1.粘貼序列2.選擇參數(shù)3.開始搜索P-Match-Public1.0Public1.粘貼序列2.選擇參數(shù)3.提交序列4.分析結(jié)果1.粘貼序列3.開始分析4.分析結(jié)果2.選擇參數(shù)3.開始搜索4.分析結(jié)果1.粘貼序列2.選擇參數(shù)第一步:進(jìn)入TESS主頁,并輸入感興趣的序列;點(diǎn)擊“Submit”提交,或點(diǎn)擊“fullsearchform”進(jìn)入?yún)?shù)選擇界面第二步:點(diǎn)擊”Summary“下的超鏈接,查看結(jié)果第三步:點(diǎn)擊”ResultNavigation“下的超鏈接,輸出結(jié)果第四步:分析結(jié)果;也可返回,優(yōu)化參數(shù),重新開始第四節(jié)轉(zhuǎn)錄調(diào)控相關(guān)數(shù)據(jù)庫TranscriptionalRegulationDatabases

一、TRANSFAC數(shù)據(jù)庫(

)TRANSFAC7.0數(shù)據(jù)庫收集的數(shù)據(jù)TableTRANSFAC_7.0FACTOR6133其中:Homosapiens(人類)

1040Musmusculus

(小鼠)765D.melanogaster

(黑腹果蠅)233A.thaliana

(擬南芥)1751S.cerevisiae

(啤酒酵母)368SITE7915MATRIX398GENE(allentries)2397其中:H.sapiens608M.musculus417D.melanogaster145A.thaliana115S.cerevisiae195GENE(entrieswithSITElinks)1504CLASS50CELL1307二、JASPAR數(shù)據(jù)庫(http://jaspar.cgb.ki.se)JASPAR數(shù)據(jù)庫的特點(diǎn)數(shù)據(jù)庫名稱特點(diǎn)JASPARCORE高質(zhì)量,非冗余的轉(zhuǎn)錄因子數(shù)據(jù)庫,收錄了460個(gè)序列模式,用于尋找特異轉(zhuǎn)錄因子模型或其結(jié)構(gòu)類型JASPARFAM包含11種轉(zhuǎn)錄因子結(jié)構(gòu)類型的模型。用于搜索未知基因組序列某一轉(zhuǎn)錄因子家族的共有模式和鑒定新模式的分類JASPARPHYLOFACTS由174種系統(tǒng)發(fā)育中保守的基因上游調(diào)控元件組成。用于分析啟動(dòng)子的組織特異性JASPARPOLII保存了13種與RNA聚合酶II核心啟動(dòng)子連接的DNA模型。用于分析潛在的核心啟動(dòng)子JASPARCNE收集了233個(gè)人類保守的非編碼元件,但是其生化和生物學(xué)功能尚不清楚。用于分析潛在的增強(qiáng)子。JASPARSPLICE包含有6種人類高度可靠的經(jīng)典和非經(jīng)典剪切位點(diǎn)的矩陣模式。用于分析剪切位點(diǎn)和選擇性剪切JASPARPBM保存有104種小鼠轉(zhuǎn)錄因子矩陣模式JASPARPBMHOMEO保存有176種小鼠同源結(jié)構(gòu)域矩陣模式JASPARPBMHLH保存有19種線蟲堿性螺旋環(huán)螺旋(bHLH)轉(zhuǎn)錄因子模型三、TRED數(shù)據(jù)庫(/TRED)TRED數(shù)據(jù)庫統(tǒng)計(jì)表相關(guān)數(shù)據(jù)人類小鼠大鼠版本hg15:UCSCHumanGoldenPathApr.03mm3:UCSCMouseGoldenPathFeb.03rn2:UCSCRatGoldenPathJan.03基因數(shù)309813168326064啟動(dòng)子數(shù)582295076430386轉(zhuǎn)錄因子有效靶點(diǎn)3409個(gè)基因,9085個(gè)啟動(dòng)子,1249個(gè)結(jié)合模體1126個(gè)基因,3089個(gè)啟動(dòng)子,366個(gè)結(jié)合模體461個(gè)基因,1132個(gè)啟動(dòng)子,150個(gè)結(jié)合模體同源組數(shù)(兩種或三種)23471與腫瘤相關(guān)的36個(gè)轉(zhuǎn)錄因子家族成員所靶向的啟動(dòng)子/基因數(shù)轉(zhuǎn)錄因子家族人類小鼠大鼠AP1(ActivatorProtein1)432/383217/190157/143AP2(ActivatorProtein2)338/318123/12390/86AR(AndrogenReceptor)69/4919/1924/15ATF(ActivatingTranscriptionFactor)189/17359/5926/26BCL(B-cellCLL/lymphoma)21/1915/150/0BRCA(breastcancersusceptibilityprotein)20/204/40/0CEBP(CCAAT/enhancerbindingprotein335/325152/134241/179CREB(cAMPresponsiveelementbindingprotein)224/220138/13395/93E2F(E2Ftranscriptionfactor)1593/1329141/12711/11EGR(earlygrowthresponseprotein)120/11167/5533/26ELK(memberofETSoncogenefamily)47/4115/136/6ER(EstrogenReceptor)169/15240/3932/31ERG(ets-relatedgene)21/215/50/0ETS(ETS-domaintranscriptionfactor)445/412207/19651/51FLI1(friendleukemiaintegrationsite1)41/4117/160/0GLI(glioma-associatedoncogenehomolog)16/168/80/0HIF(Hypoxia-induciblefactor)119/11263/6029/29HLF(hepaticleukemiafactor)10/105/52/2HOX(homeoboxgene)65/5793/815/5LEF(lymphoidenhancingfactor)40/3326/235/5MYB(myeloblastosisoncogene)253/23940/406/6MYC(myelocytomatosisviraloncogenehomolog)2676/785108/38128/62NFI(nuclearfactorI;CCAAT-bindingtranscriptionfactor136/12775/6273/65NFKB(NuclearfactorkappaB,reticuloendotheliosisoncogene)445/396202/18187/87OCT(Octamerbindingproteins)232/195123/10834/34p53(P53family)337/313135/13032/30PAX(pairedboxgene)52/4776/6113/11PPAR(Peroxisomeproliferator-activatedreceptor)149/149125/12488/84PR(ProgesteroneReceptor)31/2714/1410/10RAR(retinoicacidreceptor)233/21871/7140/40SMAD(MothersAgainstDecapentaplegichomolog)139/13076/7517/17SP(sequence-specifictranscriptionfactor)655/515296/263235/220STAT(signaltransducerandactivatoroftranscription)245/218111/10648/46TAL1(T-cellacutelymphocyticleukemia-1protein)15/149/60/0USF(upstreamstimulatoryfactor)235/21594/9172/

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論