TCGADataPrimer_第1頁
TCGADataPrimer_第2頁
TCGADataPrimer_第3頁
TCGADataPrimer_第4頁
TCGADataPrimer_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、TCGA Data PrimerTCGA數(shù)據(jù)入門Added by Anna Chu, last edited by Jillaine Hadfield on Oct 27 2011 翻譯:任重魯TCGA數(shù)據(jù)入門提供了對TCGA和數(shù)據(jù)的高水平描述,這些數(shù)據(jù)同樣提供給研究團(tuán)體。這個入門介紹了TCGA數(shù)據(jù),數(shù)據(jù)流程以及數(shù)據(jù)應(yīng)用。數(shù)據(jù)入門一共包括以下幾個部分:1. TCGA簡介;2. TCGA數(shù)據(jù)概述;3. TCGA數(shù)據(jù)檔案;4. 數(shù)據(jù)訪問;5. 處理TCGA數(shù)據(jù)。第一、TCGA數(shù)據(jù)簡介本章節(jié)提供對于TCGA及其產(chǎn)生的數(shù)據(jù)的高水平描述,分為以下四個部分:1. TCGA概觀;2. 隱私策略;3. TCG

2、A數(shù)據(jù)流程;4. TCGA主要標(biāo)示符。1. TCGA概觀The Cancer Genome Atlas(TCGA)癌癥基因組圖譜是企圖全面的并列的去努力地加速理解癌癥的分子基礎(chǔ),它通過利用包括大規(guī)?;蚪M測序的基因組分析技術(shù)來實(shí)現(xiàn)。TCGA的總體目標(biāo)是提高我們對癌癥的診斷、治療和預(yù)防的能力。為了以科學(xué)嚴(yán)謹(jǐn)?shù)姆绞竭_(dá)到這個目標(biāo),美國國立癌癥研究所(National Cancer Institute NCI)和美國國立人類基因組研究所(National Human Genome Research Institute NHGRI)用分階段的策略來啟動TCGA。試點(diǎn)項(xiàng)目開發(fā)并測試了系統(tǒng)地探究人類20多種

3、癌癥中全基因組圖譜的改變所需的研究框架。查看TCGA來獲得關(guān)于這個項(xiàng)目更多的信息。2. 隱私策略TCGA項(xiàng)目在從人類癌癥參與者中收集的樣本里生產(chǎn)出大量的基因組信息。項(xiàng)目同樣收集了這些樣本的大量臨床信息。匯總的數(shù)據(jù)對每一個個體都是獨(dú)一無二的,盡管數(shù)據(jù)里缺少任何直接識別個體的信息,但是仍然存在被生物信息學(xué)方法和/或第三方數(shù)據(jù)庫重新識別出個體的風(fēng)險(xiǎn)。因?yàn)閰⑴c者隱私保護(hù)是NIH,NCI和TCGA最為關(guān)注的,人的主體性的保護(hù)和數(shù)據(jù)訪問政策的執(zhí)行,用來使得捐助人隱私風(fēng)險(xiǎn)最小化并且他們數(shù)據(jù)的機(jī)密性也有所妥協(xié)。作為這一努力的一部分,從TCGA生成的數(shù)據(jù)被分為兩個層級:Open access,開放訪問,存儲的數(shù)

4、據(jù)不能被匯總產(chǎn)生一個對于個體來說是獨(dú)一無二的數(shù)據(jù)集。這一層級不需要用戶的認(rèn)證去訪問數(shù)據(jù)。Controlled access,受約束的訪問,網(wǎng)站把臨床數(shù)據(jù)和潛在地能用來識別單獨(dú)個體的唯一個體信息保護(hù)起來。這一層級需要用于的認(rèn)證區(qū)訪問數(shù)據(jù)。查看Access Control Policy來獲得關(guān)于數(shù)據(jù)分層的更多信息。3. TCGA數(shù)據(jù)流程附圖中說明的以下步驟總結(jié)了通過TCGA管道的數(shù)據(jù)流程:1.組織樣本及其臨床數(shù)據(jù)是由Tissue Source Sites(TSS)組織來源點(diǎn)收集的,然后送交給Biospecimen Core Resources(BCRs)生物標(biāo)本核心資源。2.BCRs提交臨床數(shù)據(jù)和

5、元數(shù)據(jù)到Data Coordinating Center(DCC)數(shù)據(jù)整理中心,并把分析物送交給Genome Characterization Center(GCCs)基因組鑒定中心和Sequencing Center(GSCs)測序中心,在這里生成突變信號并把信號提交到DCC。3.GSCs同樣也提交跟蹤文件、序列和比對圖到Cancer Genomics Hub(CGHub)癌癥基因組中心。4.被提交到DCC和CGHub的數(shù)據(jù)可供研究團(tuán)體和Genome Data Analysis Centers(GDACs)基因組數(shù)據(jù)分析中西使用。5.分析渠道和GDACs產(chǎn)出的數(shù)據(jù)結(jié)果通過DCC對研究團(tuán)體提供

6、服務(wù)。下表提供了對來自TCGA不同中心和小組的快速總覽,要想對特定的小組或中心獲得更多的信息,請單擊相應(yīng)的標(biāo)簽:中心/小組描述TSS組織來源點(diǎn),收集樣本(組織,細(xì)胞,血液)和臨床元數(shù)據(jù),然后把這些數(shù)據(jù)和樣本送到BCR。每一個組織來源點(diǎn)都有一個ID來識別。BCR生物標(biāo)本核心資源,是TCGA的樣本中心,在這里樣本及其參與者的臨床信息被小心地分類,處理,質(zhì)量檢驗(yàn)和存儲。分析物在BCR被等分并且分配等分條形碼,之后送到其它中心。GCC基因組鑒定中心,在這里用高通量技術(shù)來分析癌癥基因組的改變。鑒定出來的基因組的改變被GSCs用來進(jìn)一步的研究。GCCs把在數(shù)據(jù)檔案中的鑒定實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果文件轉(zhuǎn)移到DCC。G

7、SC基因組測序中心,在這里利用高通量方法去識別各種癌癥的基因組序列中的改變。GSCs對分析物(由BCRs提供)進(jìn)行測序并且分析假定的體細(xì)胞和生殖細(xì)胞的突變。測序結(jié)果被送到癌癥基因組中心,突變結(jié)果被送到被送到DCC。DCC數(shù)據(jù)整理中心,是提供TCGA數(shù)據(jù)的核心。DCC對數(shù)據(jù)格式進(jìn)行標(biāo)準(zhǔn)化并且驗(yàn)證提交的數(shù)據(jù)。 DCC接受并且驗(yàn)證從BCRs,GCCs和GSCs獲得的數(shù)據(jù),之后研究團(tuán)體才能通過TCGA門戶網(wǎng)站的應(yīng)用程序?qū)?shù)據(jù)進(jìn)行使用。GDAC基因組數(shù)據(jù)分析中心,這里給研究團(tuán)體提供了新穎的信息學(xué)工具和TCGA數(shù)據(jù)的分析結(jié)果,DCC不接受通過自動驗(yàn)證和展開系統(tǒng)的任何GDAC的數(shù)據(jù)提交。GDAC目前通過受控

8、訪問臨時上傳分析數(shù)據(jù)到DCC。CGHub癌癥基因組中心,一個安全的數(shù)據(jù)庫,用來存儲,分類和訪問TCGA及其相關(guān)項(xiàng)目的的癌癥基因組序列,比對和突變信息。在SAIC-Frederick分包合同之下,CGHub由加州大學(xué)圣克魯斯分校(UCSC)管理。GSCs上傳跟蹤文件,短信號序列和BAM文件到CGHub。Project Team協(xié)調(diào)TCGA的項(xiàng)目團(tuán)隊(duì),由NCI和NHGRI中的成員組成。4. TCGA主要標(biāo)識符BRCs從TSSs收到參與者的樣本和他們相關(guān)的元數(shù)據(jù)。然后BCRs分配人可讀的IDs,也就是TCGA條形碼給參與者的元數(shù)據(jù)和樣本。TCGA條形碼用來把擴(kuò)展到整個TCGA網(wǎng)絡(luò)中的數(shù)據(jù)聯(lián)系在一起,

9、因?yàn)镮Ds可以唯一識別一個特定樣本的一組結(jié)果。這個條形碼的各個組成部分提供了一個樣本的元數(shù)據(jù)值。自從試點(diǎn)項(xiàng)目開始以來,TCGA條形碼已經(jīng)成為生物標(biāo)本的主要標(biāo)識符。項(xiàng)目現(xiàn)在正在經(jīng)歷著使用UUIDs作為主要標(biāo)識符的轉(zhuǎn)變之中。一旦UUIDs被替換完成,條形碼將不再被分配使用。參見 TCGA Barcodes 來獲得更多的信息。第二、TCGA數(shù)據(jù)概述本章提供一個TGCA數(shù)據(jù)的簡介,它的來源和分類。分為以下三個部分:1從TCGA中心提交到DCC的數(shù)據(jù)類型2數(shù)據(jù)提交來源3數(shù)據(jù)分類1從TCGA中心提交到DCC的數(shù)據(jù)類型同TCGA簡介中描述的一樣,BCR把等分的樣本轉(zhuǎn)變成TCGA中心里進(jìn)行處理的四種類型。然后

10、這些中心把數(shù)據(jù)提供給DCC。下面的表格標(biāo)明了每一個中心提交到DCC的數(shù)據(jù)類型。數(shù)據(jù)源提交的數(shù)據(jù)BCRs生物標(biāo)本核心資源· 參與者信息· 生物標(biāo)本數(shù)據(jù)· 臨床病例數(shù)據(jù)· 相關(guān)的TCGA條形碼(橫跨所有生物標(biāo)本數(shù)據(jù)水平)· 織芯片圖像GSCs基因組鑒定中心· 基因組鑒定中心的對分析物測序(分析物由BCRs提供)并且分析假定的體細(xì)胞和生殖細(xì)胞的突變。測序結(jié)果被送到癌癥基因組中心,突變結(jié)果被送到DCC。GCCs基因組測序中心· GCCs把在數(shù)據(jù)檔案中的鑒定實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果文件轉(zhuǎn)移到DCC。GDAC基因組數(shù)據(jù)分析中心· 目前,

11、DCC不接受通過自動驗(yàn)證和展開系統(tǒng)的任何GDAC的數(shù)據(jù)提交。GDAC目前通過受控訪問臨時上傳分析數(shù)據(jù)到DCC。2數(shù)據(jù)提交來源關(guān)于TCGA中心和它們提交給DCC的數(shù)據(jù)信息。以下描述那些可以往TCGA上提交數(shù)據(jù)的研究中心。同時介紹一下這些研究中心提交的數(shù)據(jù)類型。BRCs:生物標(biāo)本核心資源是TCGA的一個研究中心,在這里樣本連同參與者臨床信息被小心地分類,處理,質(zhì)量檢查和存儲。在樣本被組織來源點(diǎn)收集之后,在提取分子分析物(DNA/RNA)之前,BCR通過一個病理復(fù)查確保樣本質(zhì)量。在分析物被送往其它中心之前分析物被等分并分配等分條形碼。BCR發(fā)送的樣本和數(shù)據(jù)表示如下:GSCs 接收· DNA

12、分析物· 相應(yīng)的等分條形碼GCCs 接收· DNA/RNA分析物· 相應(yīng)的等分條形碼DCC 接收· 參與者信息· 生物標(biāo)本數(shù)據(jù)· 臨床病例數(shù)據(jù)· 相應(yīng)的TCGA條形碼(橫跨所有生物標(biāo)本數(shù)據(jù)水平)· 組織切片圖像關(guān)于臨床和生物標(biāo)本數(shù)據(jù)臨床和生物標(biāo)本數(shù)據(jù)有兩種文件類型,用XML類型和Tab分隔的文本文件類型兩種不同的方式來表示相同的數(shù)據(jù)。Both enable the collection of a series of barcodes corresponding to participants that fit wi

13、thin the clinical data types of interest.每一個XML文件包含一個參與者的數(shù)據(jù);每一個biotab文件包含多個參與者的數(shù)據(jù)。每種類型的文件可以用來提取和匯集同參與者臨床數(shù)據(jù)相關(guān)聯(lián)的等分條形碼。從XML或者biotab文件中得到的相關(guān)樣本或等分條形碼和數(shù)據(jù)一旦被解析,樣本就可以按照感興趣的臨床數(shù)據(jù)被匯集起來。匯集的條形碼可以映射到相關(guān)數(shù)據(jù)。GSCs:基于序列的數(shù)據(jù)是通過各種高通量測序平臺產(chǎn)生的測序數(shù)據(jù)。關(guān)于基于序列的數(shù)據(jù)TCGA的序列數(shù)據(jù)是由數(shù)據(jù)生成中心創(chuàng)建的。他們使用了多種針對于全基因組,外顯子組和micro-RNA的平臺獲得數(shù)據(jù)。這些數(shù)據(jù)生成中心通過對

14、比腫瘤樣本結(jié)果和正常樣本結(jié)果來識別基因或者基因組中的變化??勺R別的變化有:生殖細(xì)胞和體細(xì)胞突變、單核苷酸多態(tài)性、插入和刪除(in-dels)、拷貝數(shù)變異、易位、倒轉(zhuǎn)。除了識別這些變化之外,RNA測序和miRNA測序產(chǎn)出定量的數(shù)據(jù),例如基因表達(dá)和miRNA表達(dá)數(shù)據(jù)。更多的信息,參見RNASeq。TCGA數(shù)據(jù)整理中心(DCC)組織,存儲元數(shù)據(jù)并提供對序列樣本相關(guān)的元數(shù)據(jù)訪問,包括臨床和生物標(biāo)本信息。美國國家生物技術(shù)信息中心(NCBI)通過它自己的基因型表型數(shù)據(jù)庫(dbGaP)來組織,存儲和提供相關(guān)的基因型表型注釋信息。癌癥基因組中心(CGHub)提供原始測序序列和比對信息。GCCs:基于微陣列的數(shù)

15、據(jù)是由GCCs利用不同微陣列平臺產(chǎn)生的描述型數(shù)據(jù)。關(guān)于基于微陣列的數(shù)據(jù)各種平臺把分子探針和靶標(biāo)組織在一個微陣列的各行各列種。TCGA基于微陣列的數(shù)據(jù)是由數(shù)據(jù)生成中心利用不同平臺生成的。它針對基因,外顯子,miRNA和蛋白質(zhì)表達(dá)、拷貝數(shù)變異、單核苷酸多態(tài)性、雜合缺失(LOH)、DNA甲基化。GDAC:基因組數(shù)據(jù)分析中心是一個提供給研究團(tuán)體新穎信息學(xué)工具同時也提供分析結(jié)果的TCGA中心。目前,DCC不接受通過自動驗(yàn)證和展開系統(tǒng)的任何GDAC的數(shù)據(jù)提交。GDAC通過受控訪問臨時上傳分析數(shù)據(jù)到DCC。3數(shù)據(jù)分類關(guān)于TCGA數(shù)據(jù)不同水平和類型的分類信息以下描述TCGA中對數(shù)據(jù)的不同分類方式。包括數(shù)據(jù)類型

16、和數(shù)據(jù)水平分類兩部分。數(shù)據(jù)類型:在TCGA網(wǎng)絡(luò)中,數(shù)據(jù)類型是用來分類多種平臺數(shù)據(jù)的標(biāo)簽。每一種平臺都可以潛在地產(chǎn)生許多種類的數(shù)據(jù)(數(shù)據(jù)類型)。例如,基于SNP微陣列的平臺是最復(fù)雜的平臺,它產(chǎn)出拷貝數(shù)結(jié)果、雜合缺失和SNP。下表列出了六種平臺下的的數(shù)據(jù)類型。Agilent Human Genome CGH Custom Microarray 2x415KAgilent Human Genome CGH Microarray 244AAgilent SurePrint G3 Human CGH Microarray Kit 1x1MAffymetrix Genome-Wide Human SNP

17、Array 6.0Illumina 550K Infinium HumanHap550 SNP ChipIllumina Human1M-Duo BeadChipCopy Number ResultsyesyesyesyesyesyesLOHyesyesyesSNPyesyesyes數(shù)據(jù)水平分類:數(shù)據(jù)水平是TCGA網(wǎng)絡(luò)中使用的數(shù)據(jù)分類方法,促進(jìn)研究者交流和定位他們感興趣的數(shù)據(jù)。每一種數(shù)據(jù)類型,實(shí)驗(yàn)平臺和實(shí)驗(yàn)中心都有幾種數(shù)據(jù)水平。一共有四個數(shù)據(jù)水平:1水平(原始數(shù)據(jù)),2水平(經(jīng)過處理的數(shù)據(jù)),3水平(結(jié)果分割和解釋的數(shù)據(jù))和4水平(感興趣的區(qū)域數(shù)據(jù))。下表介紹了四種TCGA數(shù)據(jù)水平。Data

18、LevelLevel TypeDescription1原始數(shù)據(jù)· 單個樣本的低水平數(shù)據(jù)· 沒有標(biāo)準(zhǔn)化的數(shù)據(jù)2處理過的數(shù)據(jù)· 經(jīng)過標(biāo)準(zhǔn)化后的單樣本數(shù)據(jù)· 對存在或者不存在特定分子異常的解釋3經(jīng)過分割、解釋的數(shù)據(jù)· 來自單個樣本的經(jīng)過處理的數(shù)據(jù)的匯集· 通過已探測的基因座的集合來形成較大的contig區(qū)域(在一些案例中)4感興趣的區(qū)域或概要· 量化跨各類樣本之間的關(guān)聯(lián)· 基于兩個或多個數(shù)據(jù)的關(guān)聯(lián)· 分子異常、樣本特征、臨床變量數(shù)據(jù)類型和數(shù)據(jù)水平分類之間的關(guān)系每一種平臺都能產(chǎn)生多種數(shù)據(jù)類型。為了理解數(shù)據(jù)的分類,

19、有必要弄清楚數(shù)據(jù)類型和數(shù)據(jù)水平之間的關(guān)系。每一種數(shù)據(jù)類型都同一個或多個數(shù)據(jù)水平相關(guān)聯(lián)。每一個研究中心和每一個實(shí)驗(yàn)平臺或許在數(shù)據(jù)水平的概念上會有一點(diǎn)不同,因?yàn)檫@依賴于不同的數(shù)據(jù)類型,不同實(shí)驗(yàn)平臺的使用和不同的分析算法。下表顯示了應(yīng)用在每一種數(shù)據(jù)類型上的原始數(shù)據(jù)水平和標(biāo)準(zhǔn)化后的數(shù)據(jù)水平。數(shù)據(jù)類型在Code Tables Report中列出,并且數(shù)據(jù)水平描述已經(jīng)在上表中列出。數(shù)據(jù)類型和相應(yīng)的數(shù)據(jù)水平的描述數(shù)據(jù)類型別名1水平(原始數(shù)據(jù))2水平(標(biāo)準(zhǔn)化/處理)3水平(解釋/分割)4水平(概要/感興趣的部分)臨床完全集無1個參與者的臨床數(shù)據(jù)無無無臨床最小集無1個參與者的臨床數(shù)據(jù)無無無拷貝數(shù)結(jié)果(比較基因組

20、雜交)無每一個探針的原始信號標(biāo)準(zhǔn)化每個探針或探針集中的聚合區(qū)域的拷貝數(shù)變化信號每個樣本中聚集或分割的區(qū)域中拷貝數(shù)的改變所有樣本中有顯著統(tǒng)計(jì)學(xué)意義的拷貝數(shù)變化的區(qū)域拷貝數(shù)結(jié)果(SNP)無無每個探針或探針集的拷貝數(shù)變化每個樣本中聚集區(qū)域的拷貝數(shù)改變所有樣本中有顯著統(tǒng)計(jì)學(xué)意義的拷貝數(shù)變化的區(qū)域雜合性缺失(SNP)無無每個探針集的雜合性缺失信號每個樣本中雜合性缺失區(qū)域的集合所有樣本中有顯著統(tǒng)計(jì)學(xué)意義的雜合性缺失SNP無每一個探針的原始信號標(biāo)準(zhǔn)化每個探針或探針集信號和等位基因信號無無DNA甲基化無每一個探針的原始信號標(biāo)準(zhǔn)化每個探針或探針集信號每個樣本中的甲基化位點(diǎn)/基因所有樣本中有顯著統(tǒng)計(jì)學(xué)意義的甲基化位點(diǎn)/基因外顯子表達(dá)外顯子量化(RNASeq)每一個探針的原始信號(微陣列)序列比對(BAM文件;RNASeq)標(biāo)準(zhǔn)化每個探針集信號(微陣列)每個樣本中的外顯子表達(dá)信號 (Array and RNASeq)所有樣本中有顯著統(tǒng)計(jì)學(xué)意義的外顯子連接點(diǎn)表達(dá)剪接位點(diǎn)量化(RNASeq)序列比對(BAM文件;RNASeq

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論