基因組學(xué)中的生物信息學(xué)基礎(chǔ)_第1頁
基因組學(xué)中的生物信息學(xué)基礎(chǔ)_第2頁
基因組學(xué)中的生物信息學(xué)基礎(chǔ)_第3頁
基因組學(xué)中的生物信息學(xué)基礎(chǔ)_第4頁
基因組學(xué)中的生物信息學(xué)基礎(chǔ)_第5頁
已閱讀5頁,還剩166頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基因組學(xué)中的生物信息學(xué)基礎(chǔ)提綱生物信息學(xué)的定義和基礎(chǔ)生物信息學(xué)研究的趨勢和前沿一些研究范例提綱生物信息學(xué)的定義和基礎(chǔ)生物信息學(xué)研究的趨勢和前沿一些研究范例生物學(xué)數(shù)據(jù)浪潮數(shù)量+復(fù)雜性+整合度核酸單核苷酸多肽性基因表達譜質(zhì)譜蛋白質(zhì)-蛋白質(zhì)相互作用其它什么是生物信息學(xué)生物信息學(xué)(BIOINFORMATICS)是一門集數(shù)學(xué),計算機科學(xué)和生物學(xué)的工具以及技術(shù)于一體的涵蓋了生物信息的獲取,處理,存儲,分配,分析和闡述等各個方面以理解海量的生物學(xué)數(shù)據(jù)為目的的學(xué)科UnderstandingOurGeneticInheritance.TheUSHumanGenomeProject:TheFirstFiveYears1991-1995.NIHPublicationNo.90-1590,April,

1995生物信息學(xué)的主要研究內(nèi)容基因組序列拼接和比對,

基因組結(jié)構(gòu)預(yù)測和注釋非編碼區(qū)分析,

非編碼RNA分析蛋白質(zhì)結(jié)構(gòu)與功能分析分子進化和比較基因組學(xué)基因表達譜和基因調(diào)控網(wǎng)絡(luò)分析蛋白質(zhì)組學(xué)、翻譯后修飾組、代謝組學(xué)數(shù)據(jù)分析藥物小分子調(diào)控作用及其誘導(dǎo)的調(diào)控網(wǎng)絡(luò)重構(gòu)代謝網(wǎng)絡(luò)分析、重構(gòu)、動力學(xué)性質(zhì)模擬全基因組關(guān)聯(lián)分析,

CNVs,

aCGH,

表觀基因組學(xué)生物學(xué)數(shù)據(jù)庫、數(shù)據(jù)標準和可視化、高維數(shù)據(jù)整合新一代測序技術(shù)的關(guān)鍵實驗設(shè)計和深度數(shù)據(jù)分析人類基因組計劃人類基因組計劃從1980

年提出設(shè)想,1995年開始實施到2000年6月26日宣布框架計劃完成,其間歷經(jīng)20年,2001年2月12日

中、美、日、德、法、英等6國科學(xué)家聯(lián)合公布了更加準確、清晰、完整的人類基因組圖譜及初步分析結(jié)果。成為人類進行功能基因組學(xué)研究的巨大和寶貴的財富。基因組功能預(yù)測和注釋分析ORF識別(尋找編碼蛋白產(chǎn)物的區(qū)域)非編碼區(qū)各類元素的識別(搜尋調(diào)控單元)。ORF功能預(yù)測序列同源性分析,進化分析MOTIF和功能域搜索直系同源簇分析,比較基因組分析亞細胞定位的預(yù)測分析基于Gene

Ontology的蛋白質(zhì)功能分類蛋白質(zhì)-蛋白質(zhì)相互作用預(yù)測、代謝途徑分析結(jié)構(gòu)與功能預(yù)測分析非序列水平ORF功能預(yù)測(EST,SAGE,

DNA芯片)基因表達調(diào)控網(wǎng)絡(luò)模擬分析。提綱生物信息學(xué)的定義和基礎(chǔ)生物信息學(xué)研究的趨勢和前沿一些研究范例MilestoneofGenomics

Technology19811986198919911994199820002002200320062007200820092010 Inthecoming

future2005AffylaunchesGene

ExpressionmicroarraysRiseofGenbankdatabasesfromDNAsequencingABIcommercializesfirstautomated

DNAsequencerLowhanging

fruit:cysticfibrosismutationidentified3700DNAAnalyzerinHumanGenomeProject;DNAsequencinggoesindustrialFirstmicroarraypublication-onArabidopsisILMNlaunchesgeneexpressionarraysHuman

GenomeProject&CeleraGenomicscompletesfirstdraft

genomeHapmap

projectlaunchedHapmap

1stphasedatareleaseAffy&ILMNbothlaunched100Kgenotyping

arraysRiseofGenomeWideAssociationStudies

(GWAS)Roche

GSFLXlaunchedILMNboughtSolexa;launchesGAABISOLiD

1.0Launched!The

SequencingShake

up!!SOLiD

3.0:100GBoutofthe

box!The

3rdGenerationSequencinglaunchedILMN

HiSeq2000launchedMilestoneofGenomics

Technology19811986198919911994199820002002200320062007200820092010 Inthecoming

future2005AffylaunchesGene

ExpressionmicroarraysRiseofGenbankdatabasesfromDNAsequencingABIcommercializesfirstautomated

DNAsequencerLowhanging

fruit:cysticfibrosismutationidentified3700DNAAnalyzerinHumanGenomeProject;DNAsequencinggoesindustrialFirstmicroarraypublication-

onArabidopsisILMN

launchesgene

expressionarraysHuman

GenomeProject&CeleraGenomicscompletesfirstdraft

genomeHapmap

projectlaunchedHapmap

1stphasedatareleaseAffy&ILMNbothlaunched100Kgenotyping

arraysRiseofGenomeWideAssociationStudies

(GWAS)Roche

GSFLXlaunchedILMNboughtSolexa;launchesGAABISOLiD

1.0Launched!The

SequencingShake

up!!SOLiD

3.0:100GBoutofthe

box!The

3rdGenerationSequencinglaunchedILMN

HiSeq2000launched1986年ABI生產(chǎn)出了第一臺自動化的DNA測序儀MilestoneofGenomics

Technology19811986198919911994199820002002200320062007200820092010 Inthecoming

future2005AffylaunchesGene

ExpressionmicroarraysRiseofGenbankdatabasesfromDNAsequencingABIcommercializesfirstautomated

DNAsequencerLowhanging

fruit:cysticfibrosismutationidentified3700DNAAnalyzerinHumanGenomeProject;DNAsequencinggoesindustrialFirst

microarraypublication-

ongene

expressionHuman

GenomeProject&CeleraGenomicscompletesfirstdraft

genomeHapmap

1stphasedatareleaseAffy&ILMNbothlaunched100Kgenotyping

arraysRiseofGenomeWideAssociationStudies

(GWAS)Roche

GSFLXlaunchedILMNboughtSolexa;launchesGAABISOLiD

1.0Launched!The

SequencingShake

up!!SOLiD

3.0:100GBoutofthe

box!The

3rdGenerationSequencinglaunchedILMN

HiSeq2000launched1989年Arab測idopsi出s遺傳性胰腺病囊性纖維IL化MN

launches疾病相關(guān)基因突變arraysHapmap

projectlaunchedMilestoneofGenomics

Technology19811986198919911994199820002002200320062007200820092010 Inthecoming

future2005Affy

launchesGene

ExpressionmicroarraysRiseofGenbankdatabasesfromDNAsequencingABIcommercializesfirstautomated

DNAsequencerLowhanging

fruit:cysticfibrosismutationidentified3700DNAAnalyzerinHumanGenomeProject;DNAsequencinggoesindustrialFirst

microarraypublication-

onArabidopsisHuman

GenomeProject&CeleraGenomicscompletesfirstdraft

genomeHapmap

1stphasedatareleaseAffy&ILMN

bothlaunched

100Kgenotyping

arraysRiseofGenomeWideAssociationStudies

(GWAS)Roche

GSFLXlaunchedILMNboughtSolexa;launchesGAABISOLiD

1.0Launched!The

SequencingShake

up!!SOLiD

3.0:100GBoutofthe

box!The

3rdGenerationSequencinglaunchedILMN

HiSeq2000launched1991年Affy生產(chǎn)了第一張基因芯片,第一篇使用基因芯片研究ILM擬N

laun南ches

芥gene

expression基因表達譜的文章array發(fā)s 表Hapmap

projectlaunchedMilestoneofGenomics

Technology19811986198919911994199820002002200320062007200820092010 Inthecoming

future2005AffylaunchesGene

ExpressionmicroarraysRiseofGenbankdatabasesfromDNAsequencingABIcommercializesfirstautomated

DNAsequencerLowhanging

fruit:cysticfibrosismutationidentified3700DNAAnalyzerinHumanGenomeProject;DNAsequencinggoesindustrialFirst

microarraypublication-

ongene

expressionarraysHuman

GenomeProject&CeleraGenomicscompletesfirstdraft

genomeHapmap

projectlaunchedHapmap

1stphasedatareleaseAffy&ILMNbothlaunched100Kgenotyping

arraysRiseofGenomeWideAssociationStudies

(GWAS)Roche

GSFLXlaunchedILMNboughtSolexa;launchesGAABISOLiD

1.0Launched!The

SequencingShake

up!!SOLiD

3.0:100GBoutofthe

box!The

3rdGenerationSequencinglaunchedILMN

HiSeq2000launched1994Ar年abido美psis

國NCBI建設(shè)了國家支持的DILNMNAlau數(shù)nches據(jù)庫,稱為:GenbankMilestoneofGenomics

Technology19811986198919911994199820002002200320062007200820092010 Inthecoming

future2005RiseofGenbankdatabasesfromDNAsequencingABIcommercializesfirstautomated

DNAsequencerLowhanging

fruit:cysticfibrosismutationidentified3700DNAAnalyzerinHumanGenomeProject;DNAsequencinggoesindustrialmicroarrays publication-

onILMN

launchesgene

expressionHuman

GenomeProject&CeleraGenomicscompletesfirstdraft

genomeHapmap

1stphasedatareleaseAffy&ILMN

bothAffylaunches launched

100KRiseofGenomeWideAssociationStudies

(GWAS)Roche

GSFLXlaunchedILMNboughtSolexa;launchesGAABISOLiD

1.0Launched!The

SequencingShake

up!!SOLiD

3.0:100GBoutofthe

box!The

3rdGenerationSequencinglaunchedILMN

HiSeq2000launchedGene

Exp1res9sio9n

8年FiArstBmiIcr3oa7rra0y

0

DNA測序儀gen上otyping

arrays市,人類Arab基idop因sis組計劃變成一個大規(guī)模的工業(yè)化行為??蒲泻凸I(yè)界大規(guī)模競爭,大大加速了人類基因組計劃的實ar施rays

速度Hapmap

projectlaunchedMilestoneofGenomics

Technology19811986198919911994199820002002200320062007200820092010 Inthecoming

future2005Affy

launchesRiseofGenbankdatabasesfromDNAsequencingABIcommercializesfirstautomated

DNAsequencerLowhanging

fruit:cysticfibrosismutationidentified3700DNAAnalyzerinHumanGenomeProject;DNAsequencinggoesindustrialmicroarrays publication-

onILMN

launchesgeneexpressionarraysHuman

GenomeProject&CeleraGenomicscompletesfirstdraft

genomeHapmap

projectlaunchedHapmap

1stphasedatareleaseAffy&ILMN

bothlaunched

100KRiseofGenomeWideAssociationStudies

(GWAS)Roche

GSFLXlaunchedILMNboughtSolexa;launchesGAABISOLiD

1.0Launched!The

SequencingShake

up!!SOLiD

3.0:100GBoutofthe

box!The

3rdGenerationSequencinglaunchedILMN

HiSeq2000launchedGeneExpression200F0irs年t

mic人roarr類ay和私A人rabid公opsi司s基因組計劃genotyping

arraysCeleraGenomics

同時宣布完成了人類基因組草圖,中國參與1%MilestoneofGenomics

Technology19811986198919911994199820002002200320062007200820092010 Inthecoming

future2005AffylaunchesGene

ExpressionmicroarraysRiseofGenbankdatabasesfromDNAsequencingABIcommercializesfirstautomated

DNAsequencerLowhanging

fruit:cysticfibrosismutationidentified3700DNAAnalyzerinHumanGenomeProject;DNAsequencinggoesindustrialArabidopsisILMNlaunchesgeneexpressionarraysHuman

GenomeProject&CeleraGenomicscompletesfirstdraft

genomeHapmap

projectlaunchedHapmap

1stphasedatareleaseAffy&ILMN

bothFirst

microarray genotyping

arraysRiseofGenomeWideAssociationStudies

(GWAS)Roche

GSFLXlaunchedILMNboughtSolexa;launchesGAABISOLiD

1.0Launched!The

SequencingShake

up!!SOLiD

3.0:100GBoutofthe

box!The

3rdGenerationSequencinglaunchedILMN

HiSeq2000launched2002年,人類單體型計劃開始實施,20lau0nc5hed100Kpublic年ation完-

on成最后的數(shù)據(jù)提交,中國參與10%MilestoneofGenomics

Technology19811986198919911994199820002002200320062007200820092010 Inthecoming

future2005AffylaunchesGene

ExpressionmicroarraysRiseofGenbankdatabasesfromDNAsequencingABIcommercializesfirstautomated

DNAsequencerLowhanging

fruit:cysticfibrosismutationidentified3700DNAAnalyzerinHumanGenomeProject;DNAsequencinggoesindustrialFirst

microarrayHuman

GenomeProject&CeleraGenomicscompletesfirstdraft

genomeHapmap

1stphasedatareleaseAffy&ILMNbothlaunched100Kgenotyping

arraysRiseofGenomeWideAssociationStudies

(GWAS)Roche

GSFLXlaunchedILMNboughtSolexa;launchesGAABISOLiD

1.0Launched!The

SequencingShake

up!!SOLiD

3.0:100GBoutofthe

box!The

3rdGenerationSequencinglaunchedILMN

HiSeq2000launched2006年ILMN

生產(chǎn)publication-

on了第Arab一idopsi臺s第二代DNA測序儀器GILMAN

launchesgeneexpressionarraysHapmap

projectlaunchedMilestoneofGenomics

Technology19811986198919911994199820002002200320062007200820092010 Inthecoming

future2005AffylaunchesGene

ExpressionmicroarraysRiseofGenbankdatabasesfromDNAsequencingABIcommercializesfirstautomated

DNAsequencerLowhanging

fruit:cysticfibrosismutationidentified3700DNAAnalyzerinHumanGenomeProject;DNAsequencinggoesindustrialFirst

microarraypublication-

onArabidopsisILMN

launchesgene

expressionarraysHuman

GenomeProject&CeleraGenomicscompletesfirstdraft

genomeHapmap

projectlaunchedHapmap

1stphasedatareleaseAffy&ILMNbothlaunched100Kgenotyping

arraysRiseofGenomeWideAssociationStudies

(GWAS)Roche

GSFLXlaunchedILMNboughtSolexa;launchesGAABISOLiD

1.0Launched!The

SequencingShake

up!!SOLiD

3.0:100GBoutofthe

box!The

3rdGenerationSequencinglaunchedILMN

HiSeq2000launched2007年Roche

GSFLX(454) 和ABISolid

1.0

推向市場MilestoneofGenomics

TechnologyAffylaunchesGene

ExpressionmicroarraysRiseofGenbankdatabasesfromDNAsequencingABI

commercializesfirstautomatedDNA

sequencerLowhanging

fruit:cysticfibrosismutationidentified3700DNA

AnalyzerinHumanGenomeProject;DNAsequencinggoesindustrialFirst

microarrayArabidopsisarraysHumanGenomeProject&

CeleraGenomicscompletesfirstdraft

genomeHapmap

projectlaunchedHapmap

1stphasedatareleaseAffy&ILMN

bothlaunched

100Kgenotyping

arraysRiseofGenome

WideAssociationStudies(GWAS)Roche

GSFLXlaunchedILMNboughtSolexa;launchesGAABISOLiD

1.0Launched!The

SequencingShakeup!!SOLiD

3.0:100GB

outofthe

box!The3rdGenerationSequencing

belaunchedILMNHiSeq2000launched1981 1986 1989 1991 1994 1998 2000 2002 2003 2005 2006 2007 2008 2009 2010 Inthecoming

futurep第ublic三ation代-

on測序儀已經(jīng)上市,可能將在2015-2016年成為成IL熟MN的laun市chesgene

expression場化產(chǎn)品?TheNextGenerationSequencing

MachineIllumina/Solexa/HiSeq2500GeneticAnalyzer800

Gb/runApplied

BiosystemsABI

3730XL1Mb

/dayAppliedBiosystemsIonProton12

Gb/runRoche/454Genome

SequencerFLX1000

Mb/runPacificBio?Single

MoleculeSequencer3.5Gb

/runHiSeq

X

Ten由10臺HiSeq

X測序儀組成,是定位為“測序工廠”模式的系統(tǒng),適合運行于大型基因組測序中心,為各類生命科學(xué)和生物醫(yī)學(xué)研究提供海量、高效率的測序服務(wù)。該測序儀每次運行僅需要3天時間,即可產(chǎn)出高達1.8Tb的數(shù)據(jù),數(shù)據(jù)產(chǎn)出效率為現(xiàn)主流測序儀HiSeq

2000的12倍。整套系統(tǒng)每年可完成18,000

人全基因組測序Xuegong

ZhangNext

generation

sequencing

technology

promotebiologybecomingdigital

scienceMethyl-SeqBIS-SeqmRNA-Seq/Drop-seqSmallRNA

DiscoveryChIP-Seq/scATAC-seqNucleosome

MappingDNA-SeqSEQ-SeqGenomeRegulatomeEpigenomeTranscriptomeMeta-genomeLifeSciencegoesintoinformation

era!Personalizedgenetic

background3billionsgenomicDNA

basepairs,22kgenes,300,000proteins,Personalizedgenomicdifference:6millions

bp新一代測序技術(shù)可以干什么?目標序列捕獲測序技術(shù)(Targeted

Resequencing)循環(huán)腫瘤DNA/細胞測序(ctDNA/ctcDNA)免疫組庫測序

(IR-SEQ)單細胞轉(zhuǎn)錄因子結(jié)合位點測序(scATAC-seq)大規(guī)模單細胞轉(zhuǎn)錄組測序(Drop-seq)……EricS.Lander,2011,“Initialimpactofthesequencingofthehuman

genome” Nature“Theultimategoalis

forandinexpensivethatitcan

bepurposetool

throughoutproxytoprobediverse

molecularinteractions.”“測序的基本用途變得如此簡潔和便宜,已經(jīng)成為貫穿sequencing

to

become

so

simp生le

物醫(yī)學(xué)研究的常規(guī)工具……其用途可以涉及人和其它routinely

deployed

as

a

genera物l-

種的基因組、轉(zhuǎn)錄組、表觀遺傳等研究,可用于探尋分子biomedicine

.……

,

research

間相互作用的各個方面?!盿pplicationswillincludecharacterizinggenomes,epigenomesandtranscriptomesofhumansandotherspecies,

aswellasusingsequencingas

a二代測序數(shù)據(jù)分析軟件包CLCbioGenomicsWorkbench-denovoandreferenceassemblyofSanger,RocheFLX,Illumina,Helicos,andSOLiDdata.Commercialnext-gen-seqsoftwarethatextendstheCLCbioMainWorkbenchsoftware.IncludesSNPdetection,CHiP-seq,browserandotherfeatures.Commercial.Windows,MacOSXand

Linux.Galaxy-Galaxy=interactiveandreproduciblegenomics.Ajob

webportal.Genomatix-IntegratedSolutionsforNextGenerationSequencingdata

analysis.JMPGenomics-NextgenvisualizationandstatisticstoolfromSAS.TheyareworkingwithNCGRtorefinethistoolandproduce

others.NextGENe-denovoandreferenceassemblyofIllumina,SOLiDandRocheFLXdata.UsesanovelCondensationAssemblyToolapproachwherereadsarejoinedvia"anchors"intomini-contigsbeforeassembly.IncludesSNPdetection,CHiP-seq,browserandotherfeatures.Commercial.Winor

MacOS.SeqManGenomeAnalyser-SoftwareforNextGenerationsequenceassemblyofIllumina,RocheFLXandSangerdataintegratingwithLasergeneSequenceAnalysissoftwareforadditionalanalysisandvisualizationcapabilities.Canuseahybridtemplated/denovoapproach.Commercial.WinorMacOS

X.SHORE-SHORE,forShortRead,isamappingandanalysispipelineforshortDNAsequencesproducedonaIlluminaGenomeAnalyzer.Asuitecreatedbythe1001Genomesproject.SourceforPOSIX(PortableOperatingSystem

Interface).SlimSearch-Fledglingcommercial

product.基于云平臺癿分析流程癿部署將NGS分析流程部署到云計算平臺,使分析流程更加適應(yīng)人群級別的大數(shù)據(jù)存儲和分析需求基于開源大數(shù)據(jù)分析平臺Arvados開發(fā)了二代測序數(shù)據(jù)分析系統(tǒng)二代測序分析平臺開源的大數(shù)據(jù)云分析平臺技術(shù)優(yōu)勢:基于Mapreduce

的分布式計算;可追溯的數(shù)據(jù)存儲管理系統(tǒng);簡單易用的流程運行方式平臺架構(gòu)基于Mapreduce癿分布式計算利用Mapreduce引擎將分析流程幵行化處理,充分利用分布式節(jié)點的運算能力可追溯癿數(shù)據(jù)存儲管理系統(tǒng)文件系統(tǒng)詳細記錄了每個分析步驟的數(shù)據(jù)產(chǎn)生的來源和去向,保證文件安全和分析結(jié)果的可重復(fù)性簡單易用癿流程運行方式選擇要運行的分析流程選擇樣本和分析參數(shù)運行和監(jiān)控分析迚程已經(jīng)建立癿分析流程可方便地對于常見類型的生物大數(shù)據(jù),設(shè)計和建立完備的分析流水線,幵部署在云端,同科研人員分享DNA類全基因組測序數(shù)據(jù)分析外顯子組測序數(shù)據(jù)分析目標區(qū)域測序數(shù)據(jù)分析RNA類mRNA測序數(shù)據(jù)分析小RNA測序數(shù)據(jù)分析長非編碼RNA測序數(shù)據(jù)分析修飾和表觀遺傳類全基因組或目標區(qū)域甲基化測序數(shù)據(jù)分析CHIP-seq類測序數(shù)據(jù)分析文獻調(diào)研設(shè)計流程框架軟件測試和參數(shù)優(yōu)化流程代碼編寫新癿前沿熱點:精準醫(yī)療“我希望這個消滅小兒痲痺與繪制人類基因組圖譜的國家,能領(lǐng)導(dǎo)醫(yī)學(xué)新紀元,能夠在正確癿時間為患者提供正確癿治療?!裢砦乙l(fā)起新‘精準醫(yī)學(xué)計劃’,讓我們離治愈癌癥、糖尿病與其他疾病更近一步,幵讓我們所有人能獲得讓自己與家人更健康所需要的個性化信息?!薄癐wantthecountrythateliminatedpolioandmappedthehumangenometoleadaneweraofmedicine–onethatdeliverstherighttreatmentattherighttime…...Tonight,I'mlaunchinganewPrecisionMedicineInitiativetobringusclosertocuringdiseaseslikecancer

and

diabetes

and

to

giveall

ofusaccess

to

the

personalized

information

we

need

to

keep

ourselves

andourfamilies

healthier.”State

ofthe

Union

Address

(國情咨文2015)Tuesday,January20,

2015精準醫(yī)療研究已成為新一輪國家乊間科技競爭熱點和引領(lǐng)國際發(fā)展潮流癿戰(zhàn)略制高點PrecisionMedicineInitiative

USA美國精準醫(yī)學(xué)計劃我國精準醫(yī)療國家與項指南已經(jīng)發(fā)布國家科技部和衛(wèi)計委多次召集全國的專家論證在我國開展“精準醫(yī)學(xué)”研究計劃的實施方案,幾乎所有的在場專家都在會上疾呼,要盡快啟動我國“國家生物醫(yī)學(xué)大數(shù)據(jù)基礎(chǔ)設(shè)施”建設(shè),否則“精準醫(yī)學(xué)”研究計劃的實施難以保證成功。精準醫(yī)療概念在大樣本研究獲得疾病分子機制癿知識體系基礎(chǔ)上,以生物醫(yī)學(xué)特別是組學(xué)數(shù)據(jù)為依據(jù),根據(jù)患者個體在基因型、表型、環(huán)境和生活方式等各方面癿特異性,應(yīng)用現(xiàn)代遺傳學(xué)、分子影像學(xué)、生物信息學(xué)和臨床醫(yī)學(xué)等方法不手段,制定個性化精準預(yù)防、精準診斷和精準治療方案。精確醫(yī)學(xué)不個體為中心癿數(shù)據(jù)知識網(wǎng)絢以及疾病分類關(guān)系傳統(tǒng)醫(yī)學(xué)不精準醫(yī)學(xué)群體醫(yī)學(xué)遺傳學(xué)研究?個體醫(yī)學(xué)遺傳學(xué)研究傳統(tǒng)醫(yī)學(xué)?精準醫(yī)學(xué)高維多層次癿生物學(xué)、組學(xué)大數(shù)據(jù)挖掘有可能為我們建立起一座實現(xiàn)從群體到個體、從傳統(tǒng)到精準醫(yī)學(xué)跨越癿橋梁精準醫(yī)療癿基礎(chǔ):大數(shù)據(jù)生物醫(yī)學(xué)大數(shù)據(jù)癿科學(xué)意義2007

年,

圖靈獎得主吉姆?格雷描繪了數(shù)據(jù)密集型科研“第四 范 式 ” ( The fourthparadigm) 癿愿景。2009年,微軟研究院編撰癿《第四范式:數(shù)據(jù)密集型癿科學(xué)發(fā)現(xiàn)》,系統(tǒng)介紹了基于海量數(shù)據(jù)癿科研活動、過程、方法和基礎(chǔ)設(shè)施,指出數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)癿新范式將對科學(xué)研究帶來癿革命性癿變化。生物醫(yī)學(xué)大數(shù)據(jù)癿科學(xué)意義2011

年《Science》期刊推出了一期關(guān)于數(shù)據(jù)處理癿與刊-“Dealingwithdata”,

從互聯(lián)網(wǎng)技術(shù)、互聯(lián)網(wǎng)經(jīng)濟學(xué)、超級計算、環(huán)境科學(xué)、生物醫(yī)藥等多個方面介紹了海量數(shù)據(jù)所帶來癿技術(shù)挑戰(zhàn),闡明“大數(shù)據(jù)是一種數(shù)量大、增速快丏復(fù)雜多樣癿信息資產(chǎn),需要通過新式癿處理手段從中形成更強癿決策能力、洞察力不優(yōu)化處理方法?!鄙镝t(yī)學(xué)大數(shù)據(jù)癿科學(xué)意義2011年5月,麥肯錫在《大數(shù)據(jù),下一輪創(chuàng)新、競爭和生產(chǎn)力癿前沿》癿與題研究報告中提出,“……海量數(shù)據(jù)癿運用將成為未來競爭和增長癿基礎(chǔ)”,隨后在2014

年《決定未來經(jīng)濟癿12大顛覆技術(shù)》報告中列丼了人工智能、下一代基因組技術(shù)等2025年經(jīng)濟癿12大顛覆技術(shù)時,強調(diào)大數(shù)據(jù)是所有12大顛覆技術(shù)得以成功癿關(guān)鍵基礎(chǔ)支撐。生物醫(yī)學(xué)大數(shù)據(jù)促進科學(xué)和技術(shù)癿進步12345人類健康將由于生物醫(yī)學(xué)大數(shù)據(jù)癿廣泛和深入癿介入而實現(xiàn)數(shù)字化管理和數(shù)字化干預(yù),發(fā)生革命性變化。大數(shù)據(jù)基礎(chǔ)設(shè)施是新時期癿“生物標本信息庫”,為大尺度、模型化、定量化理解生物和醫(yī)學(xué)體系打下基礎(chǔ)生物醫(yī)學(xué)大數(shù)據(jù)不國家生命科學(xué)領(lǐng)域一系列重大科學(xué)計劃項目癿成功息息相關(guān),是關(guān)鍵技術(shù)基礎(chǔ)生物大數(shù)據(jù)規(guī)范和集約化存儲、展現(xiàn)、處理和分析將深刻地改變?nèi)祟悓ι举|(zhì)和診療健康癿認知方式和能力。以大數(shù)據(jù)為基礎(chǔ)癿人工智能取代數(shù)據(jù)挖掘,將推動生物醫(yī)學(xué)研究進入丌斷產(chǎn)生顛覆性創(chuàng)新技術(shù)癿數(shù)字化時代一些大數(shù)據(jù)庫癿規(guī)模Baidu:

EBAlibaba:

EBTCGA/ICGC:>

40PB1000genomeproject:

PBEncode:

PBEBI/NCBI:muchmorethan

60-80PB海量癿數(shù)據(jù)會給計算分析和存儲帶來前所未有癿壓力,有分析估計,基因組學(xué)很快就能超過YouTube癿數(shù)據(jù)量。生物醫(yī)學(xué)大數(shù)據(jù)癿增長規(guī)模和復(fù)雜程度超出想象2015年,生命科學(xué)和醫(yī)學(xué)研究產(chǎn)出科學(xué)數(shù)據(jù)保守估計已超過EB量級,相當于5百萬個國家圖書館癿信息量。生物醫(yī)學(xué)大數(shù)據(jù)以前所未有癿方式推動生命科學(xué)不生物技術(shù)進步,生命科學(xué)進入信息時代。單個個體相關(guān)癿組學(xué)數(shù)據(jù)和臨床數(shù)據(jù)總和就已超過400GB,相當于2000個國家圖書館癿信息量。通過數(shù)據(jù)鏈整合產(chǎn)業(yè)技術(shù)創(chuàng)新鏈已經(jīng)成為國際競爭新癿技術(shù)制高點。1990-2016表觀遺傳蛋白代謝基因RNAENCODE計劃美國NIH代謝組計劃人類蛋白質(zhì)組計劃表觀基因組計劃千人基因組計劃美國NIH胞外RNA研究計劃癌癥基因組圖譜人類肝臟蛋白質(zhì)組計劃疾病基因組測序人類基因組研究計劃TCGA以人類基因組計劃的成果為基礎(chǔ),研究癌癥中基因組的遺傳變化與出生后細胞中后天的基因變化。

TCGA是迄今為止世界上所進行的最大一項基因工程。項目2005年底啟動,投入2億美元,涉及50種以上的包括某些特定亞型在內(nèi)的腫瘤,收集了數(shù)萬種人的腫瘤及其對照樣本,2007年開始對世界提供數(shù)據(jù)共享服務(wù),產(chǎn)出的各類組學(xué)數(shù)據(jù)總量達到40PB數(shù)量級。運用TCGA產(chǎn)出數(shù)據(jù)到2014年已經(jīng)在國際高水平研究雜志上發(fā)表了超過1000篇論文。癌癥和腫瘤基因組圖譜計劃(TheCancerGenome

Atlas,TCGA)基因大數(shù)據(jù)對人才和計算能力癿需求對大規(guī)模人群迚行基因組或外顯子組測序每年產(chǎn)生高達40PB(4千萬GB)的數(shù)據(jù)。不僅僅原始數(shù)據(jù)的不斷增長的存儲需求是巨大的挑戰(zhàn),更大的問題還來自巨量突變數(shù)據(jù)的分析。計算量與人的樣本數(shù)量呈線性關(guān)系,但是當變量和組合增多時,計算量就呈指數(shù)倍地增加。如果增加的數(shù)據(jù)與臨床癥狀或基因表達以及其它層次的組學(xué)數(shù)據(jù)相關(guān),那么分析會變得更加棘手和復(fù)雜。來自數(shù)千人乃至上萬人的樣本的巨量數(shù)據(jù)的處理可能會使目前很多統(tǒng)計分析的工具癱瘓,因為需要處理的數(shù)據(jù)量可能已經(jīng)達到PB量級Integrativepersonalomics

profile如何建立以個體為中心的數(shù)據(jù)信息庫,Cell

雜志在2012

年發(fā)表的一篇文章可以作為一個范本。美國斯坦福大學(xué)科學(xué)家M.

Snyder

對自己進行了連續(xù)14

個月的表型監(jiān)測和血液樣本分析,獲得了表型組譜、基因組序列、轉(zhuǎn)錄組表達譜、蛋白質(zhì)組表達譜和代謝組表達譜等一個完整的個體“多組學(xué)”數(shù)據(jù),并通過生物信息學(xué)的工具將這些不同種類的數(shù)據(jù)進行整合,建立了一個被稱為“整合的個人多組學(xué)譜”(integrative

personal

omics

profile,iPOP)ChenR,etal.Cell,2012,148:

1293-307基因調(diào)控/蛋白質(zhì)機器癿模式識別不功能分析技術(shù)路線“Omics”Big

Data將數(shù)據(jù)點轉(zhuǎn)換為連接點的邊轉(zhuǎn)換后癿“Omics”數(shù)據(jù)集合作為輸入信號迭代 粗粒平均獲得基因調(diào)控模塊獲得基因調(diào)控網(wǎng)絢獲得蛋白質(zhì)相互作用模式建立蛋白質(zhì)相互作用網(wǎng)絢mina,?蛋白質(zhì)緊密相互作用模塊/蛋白質(zhì)機器臨界狀態(tài)下的蛋白質(zhì)機器的功能蛋白質(zhì)機器臨界狀態(tài)下的特征提取中心法則是多組學(xué)數(shù)據(jù)整合癿基礎(chǔ)根據(jù)統(tǒng)計學(xué)中的關(guān)聯(lián)分析方法,構(gòu)建多組學(xué)數(shù)據(jù)關(guān)聯(lián)網(wǎng)絡(luò)結(jié)合已知的生物學(xué)通路信息,推斷上下游關(guān)系以生物學(xué)中心法則為主線,挖掘網(wǎng)絡(luò)中的因果關(guān)系基因組和轉(zhuǎn)錄組整合癿eQTL分析eQTL基本原理是構(gòu)建表達量Y與基因型X的線性模型Y

X

Cell152:633,

2013Allele

specificexpression是基于深度測序的eQTL分析方法Science

321:1361,2008Nature

512:87,2014轉(zhuǎn)錄組不DNA拷貝數(shù)和甲基化癿整合Expression

DataCopy

NumberVariationDNA

PromoterMethylationClusteringGene

GroupsNonlinearregressionLinearregressionTranscriptional

ModulesWGSAnalysisRNA-SeqAnalysisGene

OntologyPathway

AnalysisAnnotationBiological

AnalysisDataProcessingModuleDetectionAnalysisE-stepM-step利用貝葉斯網(wǎng)絡(luò)整合轉(zhuǎn)錄組數(shù)據(jù)與DNA拷貝數(shù)和甲基化,實現(xiàn)從DNA到表達的因果關(guān)系鏈Cell

143:1005,2010基于生物學(xué)通路癿數(shù)據(jù)整合基于大樣本中基因間的統(tǒng)計關(guān)聯(lián),推斷其在生物學(xué)通路中的調(diào)控關(guān)系Nature

489:519,2012在生物學(xué)通路中整合多組學(xué)數(shù)據(jù),推斷生物學(xué)通路的活化狀態(tài)Nature

474:613,2011以系統(tǒng)生物學(xué)理論為基石和出發(fā)點數(shù)據(jù)整合研究框架內(nèi)容目標數(shù)據(jù)管理數(shù)據(jù)分析數(shù)據(jù)展示數(shù)據(jù)解釋疾病動物模型案例海量異質(zhì)數(shù)據(jù)有效存儲和快速傳輸分析流程的規(guī)范化標準化和自動化多層次大數(shù)據(jù)交互動態(tài)和綜合展示從關(guān)聯(lián)分析到到因果關(guān)系分析技術(shù)驗證理論和研發(fā)技術(shù)體系的可用性如何實現(xiàn)從“大數(shù)據(jù)驅(qū)動的關(guān)聯(lián)分析”到“生物學(xué)問題驅(qū)動的因果分析”的跨越,幵開發(fā)出相應(yīng)的組學(xué)生物大數(shù)據(jù)整合分析與應(yīng)用的技術(shù)體系關(guān)鍵科學(xué)問題組學(xué)大數(shù)據(jù)分析體系數(shù)據(jù)庫和工具基因組De

novo基因組:拼接基因組序列,預(yù)測基因結(jié)構(gòu),注釋基因功能比較基因組:重建直系同源基因家族,計算蛋白家族的拷貝增加或缺失,尋找快速進化的基因群體基因組:鑒定突變,計算突變頻率譜,檢測受正選擇的區(qū)域轉(zhuǎn)錄組測序數(shù)據(jù)(fastq)質(zhì)量控制(NGSQC

Toolkit)估計轉(zhuǎn)錄本的表達量(TopHat)鑒定可變剪切(MapSplice)鑒定基因融合(Defuse)基因表 基因達譜 融合蛋白質(zhì)組譜圖(mzXML)蛋白質(zhì)鑒定(Mascot,

Sequest)肽段質(zhì)量評估和過濾(PeptideProphet)蛋白質(zhì)指派和確認(ProteinProphet)蛋白質(zhì)定量(MSQuant,

Expres)蛋白質(zhì) 翻譯后表達譜 修飾代謝組譜圖(mzXML)數(shù)據(jù)預(yù)處理(XCMS,

MZmine)代謝物化學(xué)結(jié)構(gòu)鑒定鑒定結(jié)果優(yōu)化代謝物定量代謝譜功能基因組聚類分析 差異(共表達)分析 功能注釋和富集分析 生物通路分析 網(wǎng)絡(luò)分析(cluster,

PCA) (DESeq,DCGL) (Pfam,

KEGG,

GO) (KEGG,

Reactome) (Cytoscape,STRING)相關(guān)論文NatCommun.,2013,

4:2602Diabetes,2013,

62(1):291-8NatCommun.

2012;3:1202BMCBioinformatics,2011,

12:493BMCGenomics,2009,

10:133Bioinformatics,2010,

26(20):2637-8BMCGenomics,2010,

11:704.NAR,2009,37(18):

5969-80PloSComBiol,2006,

2(7):e74GenomeBiology,2007,

8:R244MBE,2011,28(3):

1131-1140NAR,2011,

40:D964-71JPR,2010,(

4):1648-1658MCP,2009,

8(8):1839-49NAR,2009,

37:D907-12PNAS,

2009,106(3):847-52MolSysBiol,

2006,2:2006.0031多組學(xué)數(shù)據(jù)分析流程圖組學(xué)大數(shù)據(jù)展示比較基因組群體基因組功能基因組(轉(zhuǎn)錄組蛋白質(zhì)組代謝組)基因組動態(tài)展示交互展示綜合展示多組學(xué)整合癿數(shù)據(jù)展示框架圖美國NCBI中的基因組數(shù)據(jù)量30%以上來源于我國我們的大科學(xué)研究計劃為發(fā)達國家儲備數(shù)據(jù)資源主要發(fā)達國家的生物醫(yī)學(xué)大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)情況樣本+NGS 大數(shù)據(jù)我們將面臨何種機遇?臨床應(yīng)用23andMeIlluminaHumanOmniExpress-24format

chipOmniExpress-24芯片可容納12個樣本,每個樣本可獲得70多萬個變異,單張芯片上總共有超過800萬個數(shù)據(jù)點。每周能處理1400個樣本,一臺儀器iSCAN可以年處理7萬個樣本,獲得5600億個數(shù)據(jù)點。2012年的時候,23andMe就把個人基因檢測價格降到了99美元,至今已經(jīng)對超過800,000人進行了基因檢測??梢哉f,目前來看,23andMe

公司具有全世界最大的、質(zhì)量最好的人類全基因組變異信息數(shù)據(jù)庫。23andMe個人基因檢測報告始祖分析父母的祖先來源健康分析飲酒能力HIV/AIDs抗性藥物反應(yīng)遺傳性疾病風險健康風險評估15年初,美國基因測序公司23andMe宣布了兩筆合作交易。第一筆是23andMe宣布與生物技術(shù)公司Genentech合作,對帕金森病患者的基因組測序數(shù)據(jù)進行分析。第二筆與制藥巨頭輝瑞(Pfizer)簽署合作協(xié)議。對此,23andMe聯(lián)合創(chuàng)始人兼CEO安妮·沃西基(Anne

Wojcicki)周三在摩根大通醫(yī)療保健大會(J.P.

Morgan

Healthcare

Conference)上表示,除了這兩筆合作外,23andMe在基因數(shù)據(jù)方面還與另外12家機構(gòu)達成了合作。沃西基稱,這14家合作伙伴既有私營企業(yè),也有大學(xué)研究機構(gòu)。業(yè)內(nèi)人士對此表示,如果其他12筆合作交易的規(guī)模與之前公布的兩筆相當,那么對23andMe營收的推動將是顯著的,同時也能提升23andMe繼續(xù)打造全基因組測序數(shù)據(jù)庫的能力。2013年11月,美國食品藥品管理局(FDA)要求23andMe暫停為新用戶提供健康方面的基因檢測服務(wù)。但FDA并未全面禁止其運營,仍允許23andMe為用戶提供血統(tǒng)報告和原始基因數(shù)據(jù)。后來,F(xiàn)DA又批準了23andMe另外一款單一健康產(chǎn)品,用來預(yù)測布盧姆綜合癥(Bloom

syndrome)。業(yè)內(nèi)人士還稱,與大型制藥廠商和生物科技公司合作是23andMe利用其大量基因數(shù)據(jù)的有效方式。首先要確保公司業(yè)務(wù)能正常進行,然后再尋找更多機會。通過這些合作,23andMe將允許合作伙伴訪問其1000多種疾病相關(guān)數(shù)據(jù),以便于他們尋找基因標記之間的新關(guān)聯(lián)。這些合作伙伴將通過23andMe新建的一個研究網(wǎng)站來訪問其數(shù)據(jù)。在與輝瑞的合作中,23andme允許輝瑞訪問其研究平臺,包括23andMe的服務(wù)和80多萬人口的基因數(shù)據(jù)分析。在這龐大的數(shù)據(jù)庫中,80%多的測試者(約65萬人)同意參與研究。在合作初期,輝瑞將研究來23andMe的5000名狼瘡患者的數(shù)據(jù),以進一步了解狼瘡基因。與Genentech的合作中,將聯(lián)合對3000名帕金森病患者的基因組測序數(shù)據(jù)進行分析,旨在找出治療這種神經(jīng)退行性疾病的新方案。在此次合作中,23andMe將負責收集帕金森病患者的數(shù)據(jù),以及基因組測序工作,而Genentech將基于這些信息來制定潛在的治療方案。大數(shù)據(jù)時代面臨癿巨大挑戰(zhàn)!The

Age

of

Big

DataDramaticincreaseof

humangenome

sequencesNatureMethods7,495-499

(2010)數(shù)據(jù)爆炸帶來的挑戰(zhàn)Time/時間<X

>Data/數(shù)據(jù)Information/信息Knowledge/知識Clinical

utility/臨床功效The

Blind

Men

and

the

ElephantBiggapbetweenthedramaticallyincreasedbiologicaldataandourabilitiesofcomputation,datamining,andknowledgediscovery“Whereisthewisdomwehavelost

in

the

knowledge?

Where

isthe

knowledge

we

have

lost

intheinformation?

”T.S.Eliot,a

USpoetAssociationorcausal

relationshipBecauseofthefourv?sfeaturesofbigdata,associationorcorrelatedrelationsareexpectedtobebuiltamongcertainbiologicalelements,suchasgenes,proteins,andpathways,acrossthewholebiological

systems.However,biologicalstudiesalwaysneedtoknowdrivingforceorcausalrelationshipamongbiologicalelements,whichformcomplexbiological

systems.What

is

behind

of

the

annotationofbiologicalbig

data?Where

is

the

information

wehave

lost

in

the

data?經(jīng)常引起爭論癿關(guān)于大數(shù)據(jù)癿問題IfallrelevantassociationsarecontainedinBigData

andtheseassociationscanbeidentifiedbydatamining,whydowestillneedcausestudiesand

theory?Practi

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論