




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
基因組學(xué)中的生物信息學(xué)基礎(chǔ)提綱生物信息學(xué)的定義和基礎(chǔ)生物信息學(xué)研究的趨勢和前沿一些研究范例提綱生物信息學(xué)的定義和基礎(chǔ)生物信息學(xué)研究的趨勢和前沿一些研究范例生物學(xué)數(shù)據(jù)浪潮數(shù)量+復(fù)雜性+整合度核酸單核苷酸多肽性基因表達譜質(zhì)譜蛋白質(zhì)-蛋白質(zhì)相互作用其它什么是生物信息學(xué)生物信息學(xué)(BIOINFORMATICS)是一門集數(shù)學(xué),計算機科學(xué)和生物學(xué)的工具以及技術(shù)于一體的涵蓋了生物信息的獲取,處理,存儲,分配,分析和闡述等各個方面以理解海量的生物學(xué)數(shù)據(jù)為目的的學(xué)科UnderstandingOurGeneticInheritance.TheUSHumanGenomeProject:TheFirstFiveYears1991-1995.NIHPublicationNo.90-1590,April,
1995生物信息學(xué)的主要研究內(nèi)容基因組序列拼接和比對,
基因組結(jié)構(gòu)預(yù)測和注釋非編碼區(qū)分析,
非編碼RNA分析蛋白質(zhì)結(jié)構(gòu)與功能分析分子進化和比較基因組學(xué)基因表達譜和基因調(diào)控網(wǎng)絡(luò)分析蛋白質(zhì)組學(xué)、翻譯后修飾組、代謝組學(xué)數(shù)據(jù)分析藥物小分子調(diào)控作用及其誘導(dǎo)的調(diào)控網(wǎng)絡(luò)重構(gòu)代謝網(wǎng)絡(luò)分析、重構(gòu)、動力學(xué)性質(zhì)模擬全基因組關(guān)聯(lián)分析,
CNVs,
aCGH,
表觀基因組學(xué)生物學(xué)數(shù)據(jù)庫、數(shù)據(jù)標準和可視化、高維數(shù)據(jù)整合新一代測序技術(shù)的關(guān)鍵實驗設(shè)計和深度數(shù)據(jù)分析人類基因組計劃人類基因組計劃從1980
年提出設(shè)想,1995年開始實施到2000年6月26日宣布框架計劃完成,其間歷經(jīng)20年,2001年2月12日
中、美、日、德、法、英等6國科學(xué)家聯(lián)合公布了更加準確、清晰、完整的人類基因組圖譜及初步分析結(jié)果。成為人類進行功能基因組學(xué)研究的巨大和寶貴的財富。基因組功能預(yù)測和注釋分析ORF識別(尋找編碼蛋白產(chǎn)物的區(qū)域)非編碼區(qū)各類元素的識別(搜尋調(diào)控單元)。ORF功能預(yù)測序列同源性分析,進化分析MOTIF和功能域搜索直系同源簇分析,比較基因組分析亞細胞定位的預(yù)測分析基于Gene
Ontology的蛋白質(zhì)功能分類蛋白質(zhì)-蛋白質(zhì)相互作用預(yù)測、代謝途徑分析結(jié)構(gòu)與功能預(yù)測分析非序列水平ORF功能預(yù)測(EST,SAGE,
DNA芯片)基因表達調(diào)控網(wǎng)絡(luò)模擬分析。提綱生物信息學(xué)的定義和基礎(chǔ)生物信息學(xué)研究的趨勢和前沿一些研究范例MilestoneofGenomics
Technology19811986198919911994199820002002200320062007200820092010 Inthecoming
future2005AffylaunchesGene
ExpressionmicroarraysRiseofGenbankdatabasesfromDNAsequencingABIcommercializesfirstautomated
DNAsequencerLowhanging
fruit:cysticfibrosismutationidentified3700DNAAnalyzerinHumanGenomeProject;DNAsequencinggoesindustrialFirstmicroarraypublication-onArabidopsisILMNlaunchesgeneexpressionarraysHuman
GenomeProject&CeleraGenomicscompletesfirstdraft
genomeHapmap
projectlaunchedHapmap
1stphasedatareleaseAffy&ILMNbothlaunched100Kgenotyping
arraysRiseofGenomeWideAssociationStudies
(GWAS)Roche
GSFLXlaunchedILMNboughtSolexa;launchesGAABISOLiD
1.0Launched!The
SequencingShake
up!!SOLiD
3.0:100GBoutofthe
box!The
3rdGenerationSequencinglaunchedILMN
HiSeq2000launchedMilestoneofGenomics
Technology19811986198919911994199820002002200320062007200820092010 Inthecoming
future2005AffylaunchesGene
ExpressionmicroarraysRiseofGenbankdatabasesfromDNAsequencingABIcommercializesfirstautomated
DNAsequencerLowhanging
fruit:cysticfibrosismutationidentified3700DNAAnalyzerinHumanGenomeProject;DNAsequencinggoesindustrialFirstmicroarraypublication-
onArabidopsisILMN
launchesgene
expressionarraysHuman
GenomeProject&CeleraGenomicscompletesfirstdraft
genomeHapmap
projectlaunchedHapmap
1stphasedatareleaseAffy&ILMNbothlaunched100Kgenotyping
arraysRiseofGenomeWideAssociationStudies
(GWAS)Roche
GSFLXlaunchedILMNboughtSolexa;launchesGAABISOLiD
1.0Launched!The
SequencingShake
up!!SOLiD
3.0:100GBoutofthe
box!The
3rdGenerationSequencinglaunchedILMN
HiSeq2000launched1986年ABI生產(chǎn)出了第一臺自動化的DNA測序儀MilestoneofGenomics
Technology19811986198919911994199820002002200320062007200820092010 Inthecoming
future2005AffylaunchesGene
ExpressionmicroarraysRiseofGenbankdatabasesfromDNAsequencingABIcommercializesfirstautomated
DNAsequencerLowhanging
fruit:cysticfibrosismutationidentified3700DNAAnalyzerinHumanGenomeProject;DNAsequencinggoesindustrialFirst
microarraypublication-
ongene
expressionHuman
GenomeProject&CeleraGenomicscompletesfirstdraft
genomeHapmap
1stphasedatareleaseAffy&ILMNbothlaunched100Kgenotyping
arraysRiseofGenomeWideAssociationStudies
(GWAS)Roche
GSFLXlaunchedILMNboughtSolexa;launchesGAABISOLiD
1.0Launched!The
SequencingShake
up!!SOLiD
3.0:100GBoutofthe
box!The
3rdGenerationSequencinglaunchedILMN
HiSeq2000launched1989年Arab測idopsi出s遺傳性胰腺病囊性纖維IL化MN
launches疾病相關(guān)基因突變arraysHapmap
projectlaunchedMilestoneofGenomics
Technology19811986198919911994199820002002200320062007200820092010 Inthecoming
future2005Affy
launchesGene
ExpressionmicroarraysRiseofGenbankdatabasesfromDNAsequencingABIcommercializesfirstautomated
DNAsequencerLowhanging
fruit:cysticfibrosismutationidentified3700DNAAnalyzerinHumanGenomeProject;DNAsequencinggoesindustrialFirst
microarraypublication-
onArabidopsisHuman
GenomeProject&CeleraGenomicscompletesfirstdraft
genomeHapmap
1stphasedatareleaseAffy&ILMN
bothlaunched
100Kgenotyping
arraysRiseofGenomeWideAssociationStudies
(GWAS)Roche
GSFLXlaunchedILMNboughtSolexa;launchesGAABISOLiD
1.0Launched!The
SequencingShake
up!!SOLiD
3.0:100GBoutofthe
box!The
3rdGenerationSequencinglaunchedILMN
HiSeq2000launched1991年Affy生產(chǎn)了第一張基因芯片,第一篇使用基因芯片研究ILM擬N
laun南ches
芥gene
expression基因表達譜的文章array發(fā)s 表Hapmap
projectlaunchedMilestoneofGenomics
Technology19811986198919911994199820002002200320062007200820092010 Inthecoming
future2005AffylaunchesGene
ExpressionmicroarraysRiseofGenbankdatabasesfromDNAsequencingABIcommercializesfirstautomated
DNAsequencerLowhanging
fruit:cysticfibrosismutationidentified3700DNAAnalyzerinHumanGenomeProject;DNAsequencinggoesindustrialFirst
microarraypublication-
ongene
expressionarraysHuman
GenomeProject&CeleraGenomicscompletesfirstdraft
genomeHapmap
projectlaunchedHapmap
1stphasedatareleaseAffy&ILMNbothlaunched100Kgenotyping
arraysRiseofGenomeWideAssociationStudies
(GWAS)Roche
GSFLXlaunchedILMNboughtSolexa;launchesGAABISOLiD
1.0Launched!The
SequencingShake
up!!SOLiD
3.0:100GBoutofthe
box!The
3rdGenerationSequencinglaunchedILMN
HiSeq2000launched1994Ar年abido美psis
國NCBI建設(shè)了國家支持的DILNMNAlau數(shù)nches據(jù)庫,稱為:GenbankMilestoneofGenomics
Technology19811986198919911994199820002002200320062007200820092010 Inthecoming
future2005RiseofGenbankdatabasesfromDNAsequencingABIcommercializesfirstautomated
DNAsequencerLowhanging
fruit:cysticfibrosismutationidentified3700DNAAnalyzerinHumanGenomeProject;DNAsequencinggoesindustrialmicroarrays publication-
onILMN
launchesgene
expressionHuman
GenomeProject&CeleraGenomicscompletesfirstdraft
genomeHapmap
1stphasedatareleaseAffy&ILMN
bothAffylaunches launched
100KRiseofGenomeWideAssociationStudies
(GWAS)Roche
GSFLXlaunchedILMNboughtSolexa;launchesGAABISOLiD
1.0Launched!The
SequencingShake
up!!SOLiD
3.0:100GBoutofthe
box!The
3rdGenerationSequencinglaunchedILMN
HiSeq2000launchedGene
Exp1res9sio9n
8年FiArstBmiIcr3oa7rra0y
0
DNA測序儀gen上otyping
arrays市,人類Arab基idop因sis組計劃變成一個大規(guī)模的工業(yè)化行為??蒲泻凸I(yè)界大規(guī)模競爭,大大加速了人類基因組計劃的實ar施rays
速度Hapmap
projectlaunchedMilestoneofGenomics
Technology19811986198919911994199820002002200320062007200820092010 Inthecoming
future2005Affy
launchesRiseofGenbankdatabasesfromDNAsequencingABIcommercializesfirstautomated
DNAsequencerLowhanging
fruit:cysticfibrosismutationidentified3700DNAAnalyzerinHumanGenomeProject;DNAsequencinggoesindustrialmicroarrays publication-
onILMN
launchesgeneexpressionarraysHuman
GenomeProject&CeleraGenomicscompletesfirstdraft
genomeHapmap
projectlaunchedHapmap
1stphasedatareleaseAffy&ILMN
bothlaunched
100KRiseofGenomeWideAssociationStudies
(GWAS)Roche
GSFLXlaunchedILMNboughtSolexa;launchesGAABISOLiD
1.0Launched!The
SequencingShake
up!!SOLiD
3.0:100GBoutofthe
box!The
3rdGenerationSequencinglaunchedILMN
HiSeq2000launchedGeneExpression200F0irs年t
mic人roarr類ay和私A人rabid公opsi司s基因組計劃genotyping
arraysCeleraGenomics
同時宣布完成了人類基因組草圖,中國參與1%MilestoneofGenomics
Technology19811986198919911994199820002002200320062007200820092010 Inthecoming
future2005AffylaunchesGene
ExpressionmicroarraysRiseofGenbankdatabasesfromDNAsequencingABIcommercializesfirstautomated
DNAsequencerLowhanging
fruit:cysticfibrosismutationidentified3700DNAAnalyzerinHumanGenomeProject;DNAsequencinggoesindustrialArabidopsisILMNlaunchesgeneexpressionarraysHuman
GenomeProject&CeleraGenomicscompletesfirstdraft
genomeHapmap
projectlaunchedHapmap
1stphasedatareleaseAffy&ILMN
bothFirst
microarray genotyping
arraysRiseofGenomeWideAssociationStudies
(GWAS)Roche
GSFLXlaunchedILMNboughtSolexa;launchesGAABISOLiD
1.0Launched!The
SequencingShake
up!!SOLiD
3.0:100GBoutofthe
box!The
3rdGenerationSequencinglaunchedILMN
HiSeq2000launched2002年,人類單體型計劃開始實施,20lau0nc5hed100Kpublic年ation完-
on成最后的數(shù)據(jù)提交,中國參與10%MilestoneofGenomics
Technology19811986198919911994199820002002200320062007200820092010 Inthecoming
future2005AffylaunchesGene
ExpressionmicroarraysRiseofGenbankdatabasesfromDNAsequencingABIcommercializesfirstautomated
DNAsequencerLowhanging
fruit:cysticfibrosismutationidentified3700DNAAnalyzerinHumanGenomeProject;DNAsequencinggoesindustrialFirst
microarrayHuman
GenomeProject&CeleraGenomicscompletesfirstdraft
genomeHapmap
1stphasedatareleaseAffy&ILMNbothlaunched100Kgenotyping
arraysRiseofGenomeWideAssociationStudies
(GWAS)Roche
GSFLXlaunchedILMNboughtSolexa;launchesGAABISOLiD
1.0Launched!The
SequencingShake
up!!SOLiD
3.0:100GBoutofthe
box!The
3rdGenerationSequencinglaunchedILMN
HiSeq2000launched2006年ILMN
生產(chǎn)publication-
on了第Arab一idopsi臺s第二代DNA測序儀器GILMAN
launchesgeneexpressionarraysHapmap
projectlaunchedMilestoneofGenomics
Technology19811986198919911994199820002002200320062007200820092010 Inthecoming
future2005AffylaunchesGene
ExpressionmicroarraysRiseofGenbankdatabasesfromDNAsequencingABIcommercializesfirstautomated
DNAsequencerLowhanging
fruit:cysticfibrosismutationidentified3700DNAAnalyzerinHumanGenomeProject;DNAsequencinggoesindustrialFirst
microarraypublication-
onArabidopsisILMN
launchesgene
expressionarraysHuman
GenomeProject&CeleraGenomicscompletesfirstdraft
genomeHapmap
projectlaunchedHapmap
1stphasedatareleaseAffy&ILMNbothlaunched100Kgenotyping
arraysRiseofGenomeWideAssociationStudies
(GWAS)Roche
GSFLXlaunchedILMNboughtSolexa;launchesGAABISOLiD
1.0Launched!The
SequencingShake
up!!SOLiD
3.0:100GBoutofthe
box!The
3rdGenerationSequencinglaunchedILMN
HiSeq2000launched2007年Roche
GSFLX(454) 和ABISolid
1.0
推向市場MilestoneofGenomics
TechnologyAffylaunchesGene
ExpressionmicroarraysRiseofGenbankdatabasesfromDNAsequencingABI
commercializesfirstautomatedDNA
sequencerLowhanging
fruit:cysticfibrosismutationidentified3700DNA
AnalyzerinHumanGenomeProject;DNAsequencinggoesindustrialFirst
microarrayArabidopsisarraysHumanGenomeProject&
CeleraGenomicscompletesfirstdraft
genomeHapmap
projectlaunchedHapmap
1stphasedatareleaseAffy&ILMN
bothlaunched
100Kgenotyping
arraysRiseofGenome
WideAssociationStudies(GWAS)Roche
GSFLXlaunchedILMNboughtSolexa;launchesGAABISOLiD
1.0Launched!The
SequencingShakeup!!SOLiD
3.0:100GB
outofthe
box!The3rdGenerationSequencing
belaunchedILMNHiSeq2000launched1981 1986 1989 1991 1994 1998 2000 2002 2003 2005 2006 2007 2008 2009 2010 Inthecoming
futurep第ublic三ation代-
on測序儀已經(jīng)上市,可能將在2015-2016年成為成IL熟MN的laun市chesgene
expression場化產(chǎn)品?TheNextGenerationSequencing
MachineIllumina/Solexa/HiSeq2500GeneticAnalyzer800
Gb/runApplied
BiosystemsABI
3730XL1Mb
/dayAppliedBiosystemsIonProton12
Gb/runRoche/454Genome
SequencerFLX1000
Mb/runPacificBio?Single
MoleculeSequencer3.5Gb
/runHiSeq
X
Ten由10臺HiSeq
X測序儀組成,是定位為“測序工廠”模式的系統(tǒng),適合運行于大型基因組測序中心,為各類生命科學(xué)和生物醫(yī)學(xué)研究提供海量、高效率的測序服務(wù)。該測序儀每次運行僅需要3天時間,即可產(chǎn)出高達1.8Tb的數(shù)據(jù),數(shù)據(jù)產(chǎn)出效率為現(xiàn)主流測序儀HiSeq
2000的12倍。整套系統(tǒng)每年可完成18,000
人全基因組測序Xuegong
ZhangNext
generation
sequencing
technology
promotebiologybecomingdigital
scienceMethyl-SeqBIS-SeqmRNA-Seq/Drop-seqSmallRNA
DiscoveryChIP-Seq/scATAC-seqNucleosome
MappingDNA-SeqSEQ-SeqGenomeRegulatomeEpigenomeTranscriptomeMeta-genomeLifeSciencegoesintoinformation
era!Personalizedgenetic
background3billionsgenomicDNA
basepairs,22kgenes,300,000proteins,Personalizedgenomicdifference:6millions
bp新一代測序技術(shù)可以干什么?目標序列捕獲測序技術(shù)(Targeted
Resequencing)循環(huán)腫瘤DNA/細胞測序(ctDNA/ctcDNA)免疫組庫測序
(IR-SEQ)單細胞轉(zhuǎn)錄因子結(jié)合位點測序(scATAC-seq)大規(guī)模單細胞轉(zhuǎn)錄組測序(Drop-seq)……EricS.Lander,2011,“Initialimpactofthesequencingofthehuman
genome” Nature“Theultimategoalis
forandinexpensivethatitcan
bepurposetool
throughoutproxytoprobediverse
molecularinteractions.”“測序的基本用途變得如此簡潔和便宜,已經(jīng)成為貫穿sequencing
to
become
so
simp生le
物醫(yī)學(xué)研究的常規(guī)工具……其用途可以涉及人和其它routinely
deployed
as
a
genera物l-
種的基因組、轉(zhuǎn)錄組、表觀遺傳等研究,可用于探尋分子biomedicine
.……
,
research
間相互作用的各個方面?!盿pplicationswillincludecharacterizinggenomes,epigenomesandtranscriptomesofhumansandotherspecies,
aswellasusingsequencingas
a二代測序數(shù)據(jù)分析軟件包CLCbioGenomicsWorkbench-denovoandreferenceassemblyofSanger,RocheFLX,Illumina,Helicos,andSOLiDdata.Commercialnext-gen-seqsoftwarethatextendstheCLCbioMainWorkbenchsoftware.IncludesSNPdetection,CHiP-seq,browserandotherfeatures.Commercial.Windows,MacOSXand
Linux.Galaxy-Galaxy=interactiveandreproduciblegenomics.Ajob
webportal.Genomatix-IntegratedSolutionsforNextGenerationSequencingdata
analysis.JMPGenomics-NextgenvisualizationandstatisticstoolfromSAS.TheyareworkingwithNCGRtorefinethistoolandproduce
others.NextGENe-denovoandreferenceassemblyofIllumina,SOLiDandRocheFLXdata.UsesanovelCondensationAssemblyToolapproachwherereadsarejoinedvia"anchors"intomini-contigsbeforeassembly.IncludesSNPdetection,CHiP-seq,browserandotherfeatures.Commercial.Winor
MacOS.SeqManGenomeAnalyser-SoftwareforNextGenerationsequenceassemblyofIllumina,RocheFLXandSangerdataintegratingwithLasergeneSequenceAnalysissoftwareforadditionalanalysisandvisualizationcapabilities.Canuseahybridtemplated/denovoapproach.Commercial.WinorMacOS
X.SHORE-SHORE,forShortRead,isamappingandanalysispipelineforshortDNAsequencesproducedonaIlluminaGenomeAnalyzer.Asuitecreatedbythe1001Genomesproject.SourceforPOSIX(PortableOperatingSystem
Interface).SlimSearch-Fledglingcommercial
product.基于云平臺癿分析流程癿部署將NGS分析流程部署到云計算平臺,使分析流程更加適應(yīng)人群級別的大數(shù)據(jù)存儲和分析需求基于開源大數(shù)據(jù)分析平臺Arvados開發(fā)了二代測序數(shù)據(jù)分析系統(tǒng)二代測序分析平臺開源的大數(shù)據(jù)云分析平臺技術(shù)優(yōu)勢:基于Mapreduce
的分布式計算;可追溯的數(shù)據(jù)存儲管理系統(tǒng);簡單易用的流程運行方式平臺架構(gòu)基于Mapreduce癿分布式計算利用Mapreduce引擎將分析流程幵行化處理,充分利用分布式節(jié)點的運算能力可追溯癿數(shù)據(jù)存儲管理系統(tǒng)文件系統(tǒng)詳細記錄了每個分析步驟的數(shù)據(jù)產(chǎn)生的來源和去向,保證文件安全和分析結(jié)果的可重復(fù)性簡單易用癿流程運行方式選擇要運行的分析流程選擇樣本和分析參數(shù)運行和監(jiān)控分析迚程已經(jīng)建立癿分析流程可方便地對于常見類型的生物大數(shù)據(jù),設(shè)計和建立完備的分析流水線,幵部署在云端,同科研人員分享DNA類全基因組測序數(shù)據(jù)分析外顯子組測序數(shù)據(jù)分析目標區(qū)域測序數(shù)據(jù)分析RNA類mRNA測序數(shù)據(jù)分析小RNA測序數(shù)據(jù)分析長非編碼RNA測序數(shù)據(jù)分析修飾和表觀遺傳類全基因組或目標區(qū)域甲基化測序數(shù)據(jù)分析CHIP-seq類測序數(shù)據(jù)分析文獻調(diào)研設(shè)計流程框架軟件測試和參數(shù)優(yōu)化流程代碼編寫新癿前沿熱點:精準醫(yī)療“我希望這個消滅小兒痲痺與繪制人類基因組圖譜的國家,能領(lǐng)導(dǎo)醫(yī)學(xué)新紀元,能夠在正確癿時間為患者提供正確癿治療?!裢砦乙l(fā)起新‘精準醫(yī)學(xué)計劃’,讓我們離治愈癌癥、糖尿病與其他疾病更近一步,幵讓我們所有人能獲得讓自己與家人更健康所需要的個性化信息?!薄癐wantthecountrythateliminatedpolioandmappedthehumangenometoleadaneweraofmedicine–onethatdeliverstherighttreatmentattherighttime…...Tonight,I'mlaunchinganewPrecisionMedicineInitiativetobringusclosertocuringdiseaseslikecancer
and
diabetes
–
and
to
giveall
ofusaccess
to
the
personalized
information
we
need
to
keep
ourselves
andourfamilies
healthier.”State
ofthe
Union
Address
(國情咨文2015)Tuesday,January20,
2015精準醫(yī)療研究已成為新一輪國家乊間科技競爭熱點和引領(lǐng)國際發(fā)展潮流癿戰(zhàn)略制高點PrecisionMedicineInitiative
USA美國精準醫(yī)學(xué)計劃我國精準醫(yī)療國家與項指南已經(jīng)發(fā)布國家科技部和衛(wèi)計委多次召集全國的專家論證在我國開展“精準醫(yī)學(xué)”研究計劃的實施方案,幾乎所有的在場專家都在會上疾呼,要盡快啟動我國“國家生物醫(yī)學(xué)大數(shù)據(jù)基礎(chǔ)設(shè)施”建設(shè),否則“精準醫(yī)學(xué)”研究計劃的實施難以保證成功。精準醫(yī)療概念在大樣本研究獲得疾病分子機制癿知識體系基礎(chǔ)上,以生物醫(yī)學(xué)特別是組學(xué)數(shù)據(jù)為依據(jù),根據(jù)患者個體在基因型、表型、環(huán)境和生活方式等各方面癿特異性,應(yīng)用現(xiàn)代遺傳學(xué)、分子影像學(xué)、生物信息學(xué)和臨床醫(yī)學(xué)等方法不手段,制定個性化精準預(yù)防、精準診斷和精準治療方案。精確醫(yī)學(xué)不個體為中心癿數(shù)據(jù)知識網(wǎng)絢以及疾病分類關(guān)系傳統(tǒng)醫(yī)學(xué)不精準醫(yī)學(xué)群體醫(yī)學(xué)遺傳學(xué)研究?個體醫(yī)學(xué)遺傳學(xué)研究傳統(tǒng)醫(yī)學(xué)?精準醫(yī)學(xué)高維多層次癿生物學(xué)、組學(xué)大數(shù)據(jù)挖掘有可能為我們建立起一座實現(xiàn)從群體到個體、從傳統(tǒng)到精準醫(yī)學(xué)跨越癿橋梁精準醫(yī)療癿基礎(chǔ):大數(shù)據(jù)生物醫(yī)學(xué)大數(shù)據(jù)癿科學(xué)意義2007
年,
圖靈獎得主吉姆?格雷描繪了數(shù)據(jù)密集型科研“第四 范 式 ” ( The fourthparadigm) 癿愿景。2009年,微軟研究院編撰癿《第四范式:數(shù)據(jù)密集型癿科學(xué)發(fā)現(xiàn)》,系統(tǒng)介紹了基于海量數(shù)據(jù)癿科研活動、過程、方法和基礎(chǔ)設(shè)施,指出數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)癿新范式將對科學(xué)研究帶來癿革命性癿變化。生物醫(yī)學(xué)大數(shù)據(jù)癿科學(xué)意義2011
年《Science》期刊推出了一期關(guān)于數(shù)據(jù)處理癿與刊-“Dealingwithdata”,
從互聯(lián)網(wǎng)技術(shù)、互聯(lián)網(wǎng)經(jīng)濟學(xué)、超級計算、環(huán)境科學(xué)、生物醫(yī)藥等多個方面介紹了海量數(shù)據(jù)所帶來癿技術(shù)挑戰(zhàn),闡明“大數(shù)據(jù)是一種數(shù)量大、增速快丏復(fù)雜多樣癿信息資產(chǎn),需要通過新式癿處理手段從中形成更強癿決策能力、洞察力不優(yōu)化處理方法?!鄙镝t(yī)學(xué)大數(shù)據(jù)癿科學(xué)意義2011年5月,麥肯錫在《大數(shù)據(jù),下一輪創(chuàng)新、競爭和生產(chǎn)力癿前沿》癿與題研究報告中提出,“……海量數(shù)據(jù)癿運用將成為未來競爭和增長癿基礎(chǔ)”,隨后在2014
年《決定未來經(jīng)濟癿12大顛覆技術(shù)》報告中列丼了人工智能、下一代基因組技術(shù)等2025年經(jīng)濟癿12大顛覆技術(shù)時,強調(diào)大數(shù)據(jù)是所有12大顛覆技術(shù)得以成功癿關(guān)鍵基礎(chǔ)支撐。生物醫(yī)學(xué)大數(shù)據(jù)促進科學(xué)和技術(shù)癿進步12345人類健康將由于生物醫(yī)學(xué)大數(shù)據(jù)癿廣泛和深入癿介入而實現(xiàn)數(shù)字化管理和數(shù)字化干預(yù),發(fā)生革命性變化。大數(shù)據(jù)基礎(chǔ)設(shè)施是新時期癿“生物標本信息庫”,為大尺度、模型化、定量化理解生物和醫(yī)學(xué)體系打下基礎(chǔ)生物醫(yī)學(xué)大數(shù)據(jù)不國家生命科學(xué)領(lǐng)域一系列重大科學(xué)計劃項目癿成功息息相關(guān),是關(guān)鍵技術(shù)基礎(chǔ)生物大數(shù)據(jù)規(guī)范和集約化存儲、展現(xiàn)、處理和分析將深刻地改變?nèi)祟悓ι举|(zhì)和診療健康癿認知方式和能力。以大數(shù)據(jù)為基礎(chǔ)癿人工智能取代數(shù)據(jù)挖掘,將推動生物醫(yī)學(xué)研究進入丌斷產(chǎn)生顛覆性創(chuàng)新技術(shù)癿數(shù)字化時代一些大數(shù)據(jù)庫癿規(guī)模Baidu:
EBAlibaba:
EBTCGA/ICGC:>
40PB1000genomeproject:
PBEncode:
PBEBI/NCBI:muchmorethan
60-80PB海量癿數(shù)據(jù)會給計算分析和存儲帶來前所未有癿壓力,有分析估計,基因組學(xué)很快就能超過YouTube癿數(shù)據(jù)量。生物醫(yī)學(xué)大數(shù)據(jù)癿增長規(guī)模和復(fù)雜程度超出想象2015年,生命科學(xué)和醫(yī)學(xué)研究產(chǎn)出科學(xué)數(shù)據(jù)保守估計已超過EB量級,相當于5百萬個國家圖書館癿信息量。生物醫(yī)學(xué)大數(shù)據(jù)以前所未有癿方式推動生命科學(xué)不生物技術(shù)進步,生命科學(xué)進入信息時代。單個個體相關(guān)癿組學(xué)數(shù)據(jù)和臨床數(shù)據(jù)總和就已超過400GB,相當于2000個國家圖書館癿信息量。通過數(shù)據(jù)鏈整合產(chǎn)業(yè)技術(shù)創(chuàng)新鏈已經(jīng)成為國際競爭新癿技術(shù)制高點。1990-2016表觀遺傳蛋白代謝基因RNAENCODE計劃美國NIH代謝組計劃人類蛋白質(zhì)組計劃表觀基因組計劃千人基因組計劃美國NIH胞外RNA研究計劃癌癥基因組圖譜人類肝臟蛋白質(zhì)組計劃疾病基因組測序人類基因組研究計劃TCGA以人類基因組計劃的成果為基礎(chǔ),研究癌癥中基因組的遺傳變化與出生后細胞中后天的基因變化。
TCGA是迄今為止世界上所進行的最大一項基因工程。項目2005年底啟動,投入2億美元,涉及50種以上的包括某些特定亞型在內(nèi)的腫瘤,收集了數(shù)萬種人的腫瘤及其對照樣本,2007年開始對世界提供數(shù)據(jù)共享服務(wù),產(chǎn)出的各類組學(xué)數(shù)據(jù)總量達到40PB數(shù)量級。運用TCGA產(chǎn)出數(shù)據(jù)到2014年已經(jīng)在國際高水平研究雜志上發(fā)表了超過1000篇論文。癌癥和腫瘤基因組圖譜計劃(TheCancerGenome
Atlas,TCGA)基因大數(shù)據(jù)對人才和計算能力癿需求對大規(guī)模人群迚行基因組或外顯子組測序每年產(chǎn)生高達40PB(4千萬GB)的數(shù)據(jù)。不僅僅原始數(shù)據(jù)的不斷增長的存儲需求是巨大的挑戰(zhàn),更大的問題還來自巨量突變數(shù)據(jù)的分析。計算量與人的樣本數(shù)量呈線性關(guān)系,但是當變量和組合增多時,計算量就呈指數(shù)倍地增加。如果增加的數(shù)據(jù)與臨床癥狀或基因表達以及其它層次的組學(xué)數(shù)據(jù)相關(guān),那么分析會變得更加棘手和復(fù)雜。來自數(shù)千人乃至上萬人的樣本的巨量數(shù)據(jù)的處理可能會使目前很多統(tǒng)計分析的工具癱瘓,因為需要處理的數(shù)據(jù)量可能已經(jīng)達到PB量級Integrativepersonalomics
profile如何建立以個體為中心的數(shù)據(jù)信息庫,Cell
雜志在2012
年發(fā)表的一篇文章可以作為一個范本。美國斯坦福大學(xué)科學(xué)家M.
Snyder
對自己進行了連續(xù)14
個月的表型監(jiān)測和血液樣本分析,獲得了表型組譜、基因組序列、轉(zhuǎn)錄組表達譜、蛋白質(zhì)組表達譜和代謝組表達譜等一個完整的個體“多組學(xué)”數(shù)據(jù),并通過生物信息學(xué)的工具將這些不同種類的數(shù)據(jù)進行整合,建立了一個被稱為“整合的個人多組學(xué)譜”(integrative
personal
omics
profile,iPOP)ChenR,etal.Cell,2012,148:
1293-307基因調(diào)控/蛋白質(zhì)機器癿模式識別不功能分析技術(shù)路線“Omics”Big
Data將數(shù)據(jù)點轉(zhuǎn)換為連接點的邊轉(zhuǎn)換后癿“Omics”數(shù)據(jù)集合作為輸入信號迭代 粗粒平均獲得基因調(diào)控模塊獲得基因調(diào)控網(wǎng)絢獲得蛋白質(zhì)相互作用模式建立蛋白質(zhì)相互作用網(wǎng)絢mina,?蛋白質(zhì)緊密相互作用模塊/蛋白質(zhì)機器臨界狀態(tài)下的蛋白質(zhì)機器的功能蛋白質(zhì)機器臨界狀態(tài)下的特征提取中心法則是多組學(xué)數(shù)據(jù)整合癿基礎(chǔ)根據(jù)統(tǒng)計學(xué)中的關(guān)聯(lián)分析方法,構(gòu)建多組學(xué)數(shù)據(jù)關(guān)聯(lián)網(wǎng)絡(luò)結(jié)合已知的生物學(xué)通路信息,推斷上下游關(guān)系以生物學(xué)中心法則為主線,挖掘網(wǎng)絡(luò)中的因果關(guān)系基因組和轉(zhuǎn)錄組整合癿eQTL分析eQTL基本原理是構(gòu)建表達量Y與基因型X的線性模型Y
X
Cell152:633,
2013Allele
specificexpression是基于深度測序的eQTL分析方法Science
321:1361,2008Nature
512:87,2014轉(zhuǎn)錄組不DNA拷貝數(shù)和甲基化癿整合Expression
DataCopy
NumberVariationDNA
PromoterMethylationClusteringGene
GroupsNonlinearregressionLinearregressionTranscriptional
ModulesWGSAnalysisRNA-SeqAnalysisGene
OntologyPathway
AnalysisAnnotationBiological
AnalysisDataProcessingModuleDetectionAnalysisE-stepM-step利用貝葉斯網(wǎng)絡(luò)整合轉(zhuǎn)錄組數(shù)據(jù)與DNA拷貝數(shù)和甲基化,實現(xiàn)從DNA到表達的因果關(guān)系鏈Cell
143:1005,2010基于生物學(xué)通路癿數(shù)據(jù)整合基于大樣本中基因間的統(tǒng)計關(guān)聯(lián),推斷其在生物學(xué)通路中的調(diào)控關(guān)系Nature
489:519,2012在生物學(xué)通路中整合多組學(xué)數(shù)據(jù),推斷生物學(xué)通路的活化狀態(tài)Nature
474:613,2011以系統(tǒng)生物學(xué)理論為基石和出發(fā)點數(shù)據(jù)整合研究框架內(nèi)容目標數(shù)據(jù)管理數(shù)據(jù)分析數(shù)據(jù)展示數(shù)據(jù)解釋疾病動物模型案例海量異質(zhì)數(shù)據(jù)有效存儲和快速傳輸分析流程的規(guī)范化標準化和自動化多層次大數(shù)據(jù)交互動態(tài)和綜合展示從關(guān)聯(lián)分析到到因果關(guān)系分析技術(shù)驗證理論和研發(fā)技術(shù)體系的可用性如何實現(xiàn)從“大數(shù)據(jù)驅(qū)動的關(guān)聯(lián)分析”到“生物學(xué)問題驅(qū)動的因果分析”的跨越,幵開發(fā)出相應(yīng)的組學(xué)生物大數(shù)據(jù)整合分析與應(yīng)用的技術(shù)體系關(guān)鍵科學(xué)問題組學(xué)大數(shù)據(jù)分析體系數(shù)據(jù)庫和工具基因組De
novo基因組:拼接基因組序列,預(yù)測基因結(jié)構(gòu),注釋基因功能比較基因組:重建直系同源基因家族,計算蛋白家族的拷貝增加或缺失,尋找快速進化的基因群體基因組:鑒定突變,計算突變頻率譜,檢測受正選擇的區(qū)域轉(zhuǎn)錄組測序數(shù)據(jù)(fastq)質(zhì)量控制(NGSQC
Toolkit)估計轉(zhuǎn)錄本的表達量(TopHat)鑒定可變剪切(MapSplice)鑒定基因融合(Defuse)基因表 基因達譜 融合蛋白質(zhì)組譜圖(mzXML)蛋白質(zhì)鑒定(Mascot,
Sequest)肽段質(zhì)量評估和過濾(PeptideProphet)蛋白質(zhì)指派和確認(ProteinProphet)蛋白質(zhì)定量(MSQuant,
Expres)蛋白質(zhì) 翻譯后表達譜 修飾代謝組譜圖(mzXML)數(shù)據(jù)預(yù)處理(XCMS,
MZmine)代謝物化學(xué)結(jié)構(gòu)鑒定鑒定結(jié)果優(yōu)化代謝物定量代謝譜功能基因組聚類分析 差異(共表達)分析 功能注釋和富集分析 生物通路分析 網(wǎng)絡(luò)分析(cluster,
PCA) (DESeq,DCGL) (Pfam,
KEGG,
GO) (KEGG,
Reactome) (Cytoscape,STRING)相關(guān)論文NatCommun.,2013,
4:2602Diabetes,2013,
62(1):291-8NatCommun.
2012;3:1202BMCBioinformatics,2011,
12:493BMCGenomics,2009,
10:133Bioinformatics,2010,
26(20):2637-8BMCGenomics,2010,
11:704.NAR,2009,37(18):
5969-80PloSComBiol,2006,
2(7):e74GenomeBiology,2007,
8:R244MBE,2011,28(3):
1131-1140NAR,2011,
40:D964-71JPR,2010,(
4):1648-1658MCP,2009,
8(8):1839-49NAR,2009,
37:D907-12PNAS,
2009,106(3):847-52MolSysBiol,
2006,2:2006.0031多組學(xué)數(shù)據(jù)分析流程圖組學(xué)大數(shù)據(jù)展示比較基因組群體基因組功能基因組(轉(zhuǎn)錄組蛋白質(zhì)組代謝組)基因組動態(tài)展示交互展示綜合展示多組學(xué)整合癿數(shù)據(jù)展示框架圖美國NCBI中的基因組數(shù)據(jù)量30%以上來源于我國我們的大科學(xué)研究計劃為發(fā)達國家儲備數(shù)據(jù)資源主要發(fā)達國家的生物醫(yī)學(xué)大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)情況樣本+NGS 大數(shù)據(jù)我們將面臨何種機遇?臨床應(yīng)用23andMeIlluminaHumanOmniExpress-24format
chipOmniExpress-24芯片可容納12個樣本,每個樣本可獲得70多萬個變異,單張芯片上總共有超過800萬個數(shù)據(jù)點。每周能處理1400個樣本,一臺儀器iSCAN可以年處理7萬個樣本,獲得5600億個數(shù)據(jù)點。2012年的時候,23andMe就把個人基因檢測價格降到了99美元,至今已經(jīng)對超過800,000人進行了基因檢測??梢哉f,目前來看,23andMe
公司具有全世界最大的、質(zhì)量最好的人類全基因組變異信息數(shù)據(jù)庫。23andMe個人基因檢測報告始祖分析父母的祖先來源健康分析飲酒能力HIV/AIDs抗性藥物反應(yīng)遺傳性疾病風險健康風險評估15年初,美國基因測序公司23andMe宣布了兩筆合作交易。第一筆是23andMe宣布與生物技術(shù)公司Genentech合作,對帕金森病患者的基因組測序數(shù)據(jù)進行分析。第二筆與制藥巨頭輝瑞(Pfizer)簽署合作協(xié)議。對此,23andMe聯(lián)合創(chuàng)始人兼CEO安妮·沃西基(Anne
Wojcicki)周三在摩根大通醫(yī)療保健大會(J.P.
Morgan
Healthcare
Conference)上表示,除了這兩筆合作外,23andMe在基因數(shù)據(jù)方面還與另外12家機構(gòu)達成了合作。沃西基稱,這14家合作伙伴既有私營企業(yè),也有大學(xué)研究機構(gòu)。業(yè)內(nèi)人士對此表示,如果其他12筆合作交易的規(guī)模與之前公布的兩筆相當,那么對23andMe營收的推動將是顯著的,同時也能提升23andMe繼續(xù)打造全基因組測序數(shù)據(jù)庫的能力。2013年11月,美國食品藥品管理局(FDA)要求23andMe暫停為新用戶提供健康方面的基因檢測服務(wù)。但FDA并未全面禁止其運營,仍允許23andMe為用戶提供血統(tǒng)報告和原始基因數(shù)據(jù)。后來,F(xiàn)DA又批準了23andMe另外一款單一健康產(chǎn)品,用來預(yù)測布盧姆綜合癥(Bloom
syndrome)。業(yè)內(nèi)人士還稱,與大型制藥廠商和生物科技公司合作是23andMe利用其大量基因數(shù)據(jù)的有效方式。首先要確保公司業(yè)務(wù)能正常進行,然后再尋找更多機會。通過這些合作,23andMe將允許合作伙伴訪問其1000多種疾病相關(guān)數(shù)據(jù),以便于他們尋找基因標記之間的新關(guān)聯(lián)。這些合作伙伴將通過23andMe新建的一個研究網(wǎng)站來訪問其數(shù)據(jù)。在與輝瑞的合作中,23andme允許輝瑞訪問其研究平臺,包括23andMe的服務(wù)和80多萬人口的基因數(shù)據(jù)分析。在這龐大的數(shù)據(jù)庫中,80%多的測試者(約65萬人)同意參與研究。在合作初期,輝瑞將研究來23andMe的5000名狼瘡患者的數(shù)據(jù),以進一步了解狼瘡基因。與Genentech的合作中,將聯(lián)合對3000名帕金森病患者的基因組測序數(shù)據(jù)進行分析,旨在找出治療這種神經(jīng)退行性疾病的新方案。在此次合作中,23andMe將負責收集帕金森病患者的數(shù)據(jù),以及基因組測序工作,而Genentech將基于這些信息來制定潛在的治療方案。大數(shù)據(jù)時代面臨癿巨大挑戰(zhàn)!The
Age
of
Big
DataDramaticincreaseof
humangenome
sequencesNatureMethods7,495-499
(2010)數(shù)據(jù)爆炸帶來的挑戰(zhàn)Time/時間<X
>Data/數(shù)據(jù)Information/信息Knowledge/知識Clinical
utility/臨床功效The
Blind
Men
and
the
ElephantBiggapbetweenthedramaticallyincreasedbiologicaldataandourabilitiesofcomputation,datamining,andknowledgediscovery“Whereisthewisdomwehavelost
in
the
knowledge?
Where
isthe
knowledge
we
have
lost
intheinformation?
”T.S.Eliot,a
USpoetAssociationorcausal
relationshipBecauseofthefourv?sfeaturesofbigdata,associationorcorrelatedrelationsareexpectedtobebuiltamongcertainbiologicalelements,suchasgenes,proteins,andpathways,acrossthewholebiological
systems.However,biologicalstudiesalwaysneedtoknowdrivingforceorcausalrelationshipamongbiologicalelements,whichformcomplexbiological
systems.What
is
behind
of
the
annotationofbiologicalbig
data?Where
is
the
information
wehave
lost
in
the
data?經(jīng)常引起爭論癿關(guān)于大數(shù)據(jù)癿問題IfallrelevantassociationsarecontainedinBigData
andtheseassociationscanbeidentifiedbydatamining,whydowestillneedcausestudiesand
theory?Practi
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 湖南省婁底市雙峰一中等五校2025年高三第六次模擬考試化學(xué)試卷含解析
- 江西省八所重點中學(xué)2025屆高三第五次模擬考試化學(xué)試卷含解析
- 2025屆福建省福州瑯岐中學(xué)高三(最后沖刺)化學(xué)試卷含解析
- 2025屆黑龍江省大慶市紅崗區(qū)大慶十中高三第二次模擬考試化學(xué)試卷含解析
- 候銀匠課件第一
- 家庭健康知識授課
- 2025年機械設(shè)備批發(fā)服務(wù)項目建議書
- 2025年激光掃瞄顯微鏡項目發(fā)展計劃
- 2025年電波特性測試儀器項目建議書
- 2025屆科大附中高考化學(xué)二模試卷含解析
- 魔幻泡泡秀七彩體驗館介紹
- 表面工程學(xué)第十二章-表面微細加工技術(shù)
- 《阿房宮賦》理解性默寫試題與答案
- 聚乙烯塑料袋檢驗記錄新
- 山東大學(xué)工程流體力學(xué)(杜廣生)課件第5章 粘性流體的一維流動
- 員工入職確認單
- 初三優(yōu)秀學(xué)生座談會通用課件通用PPT課件
- T∕CAGHP 065.2-2019 地質(zhì)災(zāi)害防治工程工程量清單計價規(guī)范(試行)
- 園林綠化工程施工組織機構(gòu)方案
- 室內(nèi)智能加濕器設(shè)計說明
- 發(fā)電機整體氣密試驗的要求
評論
0/150
提交評論