計(jì)算系統(tǒng)生物學(xué)導(dǎo)論2_第1頁(yè)
計(jì)算系統(tǒng)生物學(xué)導(dǎo)論2_第2頁(yè)
計(jì)算系統(tǒng)生物學(xué)導(dǎo)論2_第3頁(yè)
計(jì)算系統(tǒng)生物學(xué)導(dǎo)論2_第4頁(yè)
計(jì)算系統(tǒng)生物學(xué)導(dǎo)論2_第5頁(yè)
已閱讀5頁(yè),還剩76頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

TheIntroductionof

ComputationalSystemsBiology

計(jì)算系統(tǒng)生物學(xué)導(dǎo)論WangDongAssociateProfessor

Life’sComplexityPyramid

GenomeGeneexpressionProteinexpressionProteininteractionPathwayApyramidofcomponents,fromthespecificatthebottomtotheuniversalatthetop.高通量生物信息檢測(cè)與“omics”Genomics(基因組)Geneidentification&charaterisation

Static,butcompletelyspecifiedTranscriptomics(表達(dá)組)ExpressionprofilesofmRNADynamic,context-dependentProteomics(蛋白質(zhì)組)functions&interactionsofproteinsDynamic,context-dependentStructuralGenomics(結(jié)構(gòu)組)LargescalestructuredeterminationCellinomics(細(xì)胞組:代謝組,互作組)MetabolicPathwaysCell-cellinteractionsPharmacogenomics(藥物基因組)Genome-baseddrugdesignproteinRNADNAtranscriptiontranslationreplicationTheCentralDogmaofMolecularBiology

DNAistranscribedintoRNAwhichisthentranslatedintoprotein

MeasuredbyMicroarraycDNAchipcDNAMicroArraysDNAMicroArraysusehybridizationtechnologytoexaminegeneexpressionAttachdifferentDNAsontoaslideasagridofsmallspots,oneforeachgene-upto50,000perslideHybridizeamixtureoffluorescentlylabeledcDNAsextractedfromcellsafterdifferenttreatments-controlisgreenandexperimentalisredExamineexpressionpatternsbylookingatlevelsoffluorescenceforallgenesinarrayExtractmRNAACCTG...GACCTG...GACCTG...GTTCTG...ATTCTG...ATTCTG...AGGCTT...CGGCTT...CGGCTT...CATCTA...AATCTA...AATCTA...AACGGG...TACGGG...TACGGG...TCGATA...GCGATA...GCGATA...G????????????????????????????????????????????????????????????????????????????????????????????????????Sample1Sample2ConverttocDNAandLabelwithFluorescentDyesACCTG...GACCTG...GACCTG...GTTCTG...ATTCTG...ATTCTG...AGGCTT...CGGCTT...CGGCTT...CATCTA...AATCTA...AATCTA...AACGGG...TACGGG...TACGGG...TCGATA...GCGATA...GCGATA...GSample1Sample2????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????Sample1Sample2MixLabeledcDNAACCTG...GACCTG...GACCTG...GTTCTG...ATTCTG...ATTCTG...AGGCTT...CGGCTT...CGGCTT...CATCTA...AATCTA...AATCTA...AACGGG...TACGGG...TACGGG...TCGATA...GCGATA...GCGATA...GSample1Sample2????????????????????????????????????????????????????????????????????????????????????????????????????ACCTG...GACCTG...GACCTG...GTTCTG...ATTCTG...ATTCTG...AGGCTT...CGGCTT...CGGCTT...CATCTA...AATCTA...AATCTA...AACGGG...TACGGG...TACGGG...TCGATA...GCGATA...GCGATA...GSample1Sample2HybridizecDNAtotheSlide????????????????????????????????????????????????????????????????????????????????????????????????????ACCTG...GACCTG...GACCTG...GTTCTG...ATTCTG...ATTCTG...AGGCTT...CGGCTT...CGGCTT...CATCTA...AATCTA...AATCTA...AACGGG...TACGGG...TACGGG...TCGATA...GCGATA...GCGATA...GSample1Sample2ExciteDyeswithLaser????????????????????????????????????????????????????????????????????????????????????????????????????ACCTG...GACCTG...GACCTG...GTTCTG...ATTCTG...ATTCTG...AGGCTT...CGGCTT...CGGCTT...CATCTA...AATCTA...AATCTA...AACGGG...TACGGG...TACGGG...TCGATA...GCGATA...GCGATA...GSample1Sample2Scan????????????????????????????????????????????????????????????????????????????????????????????????????QuantifySignalsACCTG...G7652138TTCTG...A57084388GGCTT...C8566765ATCTA...A120813442ACGGG...T67849762CGATA...G67239Sample1Sample2AffymetrixGeneChiptechnology(Summary)Short(25mer)Oligonucleotides

40-60kDNAoligoson~2.5cm2glasssurface.Technologycombinesoligonucleotidesynthesiswithphotolithographiccomputerchiptechnology.

Theoligonucleotidesaresynthesizedontheslide.AffymetrixGeneChipsprobepairMismatchprobecells(12-20/gene)Eachgeneisrepresentedbya“probeset”consistingof12-20probesof25nteach.Eachprobehasacorresponding“mismatch”probewithasinglebasedifferenceatthe13thnucleotide.LabeledRNAishybridizedtothearray,andameasureofabundanceiscalculatedbasedontheamountofhybridizationseenfortheentireprobeset,correctingforhybridizationtothemismatchprobes,whichindicatespossiblenon-specificeffects.Aprobeset=11-20PM,MMpairsTheremaybe5,000-100,000probesetsperchipSpottedvs.Affymetrixarrays

SpottedcDNAarrays|AffymetrixarraysOneprobe/gene(EST)11-20probepairs/geneProbesofvaryinglengthProbesare25-mers2targetsamples/array1targetsample/arrayEachbeadiscoveredwithhundredsofthousandsofcopiesofaspecificoligonucleotidethatactasthecapturesequencesConsistencyofcDNAmicroarraydataevaluatedbymultipleclones

representingthesameunigeneFlowchartBackgroundDatasetsResults

BackgroundForcDNAmicrarrays,multipleclonesarealsomeasuredforatranscripttoevaluatetheconsistencyofmicroarraydata.Ideally,suchmultipleclones,especiallythereplicateones,shouldhavesimilarmeasurements.ForAffymetrixoligonucleotidemicroarrays,byanalyzingthecorrelationofmeasurementsformultipleprobesetsrepresentingthesametranscript,manystudieshaveinvestigatedthedataqualityinfluencedbyprobedesignsandannotations.BackgroundThissketchpicture(map,diagram)canhelpusunderstandthemultipleclonedesignationincDNAmicroarray.Foreachgene,specificcDNAclonesaredesignedandspottedoncDNAmicroarray.Sometime,toevaluatetheconsistencyofmicroarraydata,multipleclonesarealsomeasuredforthesameunigene.

基因芯片設(shè)計(jì)時(shí),對(duì)于每一個(gè)基因,一般取其特異性部位進(jìn)行點(diǎn)樣。有時(shí)為了評(píng)價(jià)檢測(cè)數(shù)據(jù)的一致性,采用多次clone來(lái)測(cè)量同一Unigene。這種多次clone包括兩類:

這些clone對(duì)應(yīng)同一個(gè)基因,但屬不同序列片段,即DC。從本質(zhì)上看,DC設(shè)計(jì)主要針對(duì)具有特異性克隆的探針。DifferentClones(DC)

第一種clone的設(shè)計(jì)針對(duì)的是同一Unigene的不同特異性片段。

即在芯片上進(jìn)行簡(jiǎn)單多次重復(fù)點(diǎn)樣。由于這些clone彼此相同,因此稱為RC。這種設(shè)計(jì)的目的是想控制系統(tǒng)的隨機(jī)性(噪音)。replicateclones(RC)

第二種clone的設(shè)計(jì)針對(duì)的是同一Unigene的相同特異性片段。Themultipleclonescanbeclassifiedintotwotypes:differentsequencesegmentsforatranscript(DC)replicatesequencesegmentforatranscript(RC)Background對(duì)應(yīng)基因不同片段的多個(gè)探針檢測(cè)(DC)對(duì)同一個(gè)片段完全相同探針的多次檢測(cè)(RC)對(duì)應(yīng)同一個(gè)基因的重復(fù)檢測(cè)包括:ThreecDNAmicroarraydatasetsandcloneannotation

Gastric

Liver

Prostate

Totalnumberofclone439172309346205Numberofthereduplicativeclone27777942783NumberofclonewithUniGeneannotation

357593792118383195303766939966TotalnumberofUniGene253992075714519129322626721341NumberofDCswithUniGene1468522731613798721641224741NumberofRCswithUniGene1554164857561113941472

*ThefirstandsecondlinesrepresenttheannotationresultsusingSOURCEdatabaseinApr.2008andOct.2006respectively.Gastric

Liver

Prostate

Totalnumberofclone439172309346205Numberofthereduplicativeclone27777942783NumberofclonewithUniGeneannotation

357593792118383195303766939966TotalnumberofUniGene253992075714519129322626721341NumberofDCswithUniGene1468522731613798721641224741NumberofRCswithUniGene1554164857561113941472ThefirstandsecondlinesrepresenttheannotationresultsusingSOURCEdatabaseinApr.2008andOct.2006respectively.三套cDNA數(shù)據(jù)集及其注釋結(jié)果現(xiàn)象顯示:更新后的數(shù)據(jù)庫(kù)注釋的可靠性的確有所提高。ThedashlinesandsolidlinesrepresenttheresultsusingtheannotationdatainApr.2008andOct.2006respectively.ThedistributionsofthecorrelationsfortheDCparis

Although,theaveragePCCsoftheDCsincreasedgreatlywhenusingtheupdatedannotationdatain2008,therearestillquitalotDCsshowingthenegativeandlowercorrelationbetweenthem.Result三套癌數(shù)據(jù)集中DCs的相關(guān)性分布結(jié)果:2008年注釋更新后的DC平均PCC較2006年注釋的有所提高,說(shuō)明更新后刪除了一部分注釋錯(cuò)誤的探針。但仍存在大量的負(fù)相關(guān)和低相關(guān)。08注釋06注釋08注釋06注釋08注釋06注釋ThelinesrepresentthedistributionsofthePearsoncorrelationcoefficients(PCCs)forDCsexcludedinApr.2008ThedistributionsofthecorrelationforDCsexcludedinApr.2008Thisresultpartiallydemonstratesthattheexcludedclonesmightbewronglyannotatedin2006.previousworkThesolidlinesanddashdotlinesrepresenttheresultsusingtheannotationdatainOct.2006andApr.2008respectively.ThedashedlinesrepresenttheresultsfortheDCpairsexcludedaccordingtotheannotationdatainApr.2008DistributionsofthecorrelationsfortheDCpairsinthecancerdatasetsThedashdotlinesandsolidlinesrepresenttheresultsusingtheannotationdatainOct.2006andinApr.2008respectively.DistributionsofthecorrelationsfortheRCpairsinthecancerdatasetsThedashlinesandsolidlinesrepresenttheresultsusingtheannotationdatainApr.2008andOct.2006respectively.三套癌數(shù)據(jù)集中RCs的相關(guān)性分布盡管2008年注釋更新后的DC平均PCC有很大提高,但仍存在大量的負(fù)相關(guān)和低相關(guān)。DistributionsofmeasurementcorrelationsfortheDCandRCpairswithindifferentsignalintensityrangestheaveragePCCsforboththeDCandRCpairsdecreasedasthesignalintensitydecreased三套癌數(shù)據(jù)集中intensity對(duì)相關(guān)性的影響隨著Intensity的提高探針的相關(guān)性也隨之提高,探針對(duì)于低表達(dá)檢測(cè)能力值得繼續(xù)研究。通過(guò)差異基因(DEG)中相關(guān)性系數(shù)的分布,研究DEG對(duì)重復(fù)clone負(fù)相關(guān)的篩選能力DEG篩選方法能有效的過(guò)濾表達(dá)譜中的系統(tǒng)誤差和噪音顯示篩選出的差異基因中DC和RC出現(xiàn)較少的負(fù)相關(guān)現(xiàn)象

不論是DC還是RC,都是對(duì)應(yīng)同一unigene,像這樣的重復(fù)clone,尤其是RC,本應(yīng)有十分相近的表達(dá)值,它們之間應(yīng)該有很高的相關(guān)性。探究這種重復(fù)clone之間存在的負(fù)相關(guān)和低相關(guān)產(chǎn)生的原因必然會(huì)對(duì)基因表達(dá)數(shù)據(jù)的可靠性分析有著重要的影響。結(jié)論基因芯片數(shù)據(jù)處理對(duì)基于基因表達(dá)譜的疾病分類的影響

DepartmentofBioinformatics,HarbinMedicalUniversity,HarbincDNA芯片

缺失值估計(jì)方法分類算法和分類效果實(shí)驗(yàn)數(shù)據(jù)集和數(shù)據(jù)預(yù)處理結(jié)果結(jié)論cDNA芯片可以進(jìn)行整個(gè)基因組范圍的基因表達(dá)平行分析,快速有效地獲得大量基因的表達(dá)信息?;虮磉_(dá)譜分析的一個(gè)主要應(yīng)用領(lǐng)域是結(jié)合各種機(jī)器學(xué)習(xí)方法進(jìn)行無(wú)監(jiān)督疾病亞型發(fā)現(xiàn)與有監(jiān)督疾病預(yù)測(cè)。

但由于很多原因,比如芯片擦傷、灰塵或者雜交失敗以及圖象污染等,使我們得到的大量基因芯片數(shù)據(jù)中有不合格的檢測(cè)點(diǎn)。從而使得我們得到的芯片數(shù)據(jù)中具有大量的缺失值。

SamplesGenesSampleannotationsGeneannotationsGeneexpressionlevelsbackMissingvalue缺失值估計(jì)方法現(xiàn)在采用的許多機(jī)器學(xué)習(xí)算法需要我們輸入一個(gè)完整的數(shù)據(jù)矩陣,不允許矩陣中存在缺失值。因此,針對(duì)此問(wèn)題,已有許多研究提出了補(bǔ)缺失值的方法:

補(bǔ)零

—K近鄰

貝葉斯主成分

最小二乘法等通過(guò)各種補(bǔ)缺失值的方法,可以避免分類器處理含有缺失值的數(shù)據(jù)。

back

數(shù)據(jù)集五套數(shù)據(jù)有缺失值基因的比率(GMV)和總?cè)笔?OMV)以及各個(gè)梯度下的基因數(shù)目

MR:某一個(gè)基因在數(shù)據(jù)中所有的樣本中缺失的數(shù)據(jù)點(diǎn)

例如,一個(gè)基因在59張芯片中表達(dá)值有10個(gè)是缺失的,則該基因的缺失率為:10/59=0.17(17%)back

數(shù)據(jù)預(yù)處理為了減少系統(tǒng)誤差影響,以使不同芯片的數(shù)據(jù)相互之間可以進(jìn)行比較,必須進(jìn)行標(biāo)準(zhǔn)化。對(duì)值取以2為底的對(duì)數(shù)轉(zhuǎn)換后,再對(duì)每張基因芯片進(jìn)行片內(nèi)標(biāo)準(zhǔn)化處理,使每張芯片上的表達(dá)值的中值為0。我們采用BRBArrayTools中提供的減中值(Median)的標(biāo)準(zhǔn)化方法,即針對(duì)每一張基因芯片進(jìn)行片內(nèi)標(biāo)準(zhǔn)化,每一個(gè)基因的表達(dá)值為未標(biāo)準(zhǔn)化之前的表達(dá)值減去該張基因芯片所有基因表達(dá)值的中值。back

分類算法我們分析各種補(bǔ)缺失值的方法對(duì)支持向量機(jī)、K近鄰、決策樹(shù)3種最常用的有監(jiān)督疾病分類算法的影響。-K近鄰分類器(KNN):取11近鄰進(jìn)行分析。-支持向量機(jī)(SVM):采用一元多項(xiàng)式核函數(shù)-決策樹(shù)(CART):選用CART算法。back

分類效果實(shí)驗(yàn)本文采用留一法LOOV(Leave-One-OutValidation)評(píng)價(jià)分類器的性能。在LOOV證實(shí)過(guò)程中,我們每次抽取一個(gè)樣本為檢驗(yàn)樣本,以剩余的樣本構(gòu)成訓(xùn)練集,利用訓(xùn)練集訓(xùn)練分類器,然后對(duì)檢驗(yàn)樣本進(jìn)行檢驗(yàn)。我們用分類準(zhǔn)確率(正確分類樣本數(shù)占樣本總數(shù)的比率)來(lái)評(píng)價(jià)分類器性能:

真陽(yáng)性數(shù)(TP),真陰性數(shù)(TN),假陽(yáng)性數(shù)(FP),假陰性數(shù)(FN)back

結(jié)果-采用表達(dá)譜上基因所有基因分類

-采用差異基因分類-采用功能表達(dá)譜分類back

采用表達(dá)譜上基因所有基因分類back采用差異基因分類基因芯片分析的一個(gè)主要的目標(biāo)就是尋找差異表達(dá)基因(differentiallyexpressedgene,DEG)。目前,已有多種方法用來(lái)尋找差異表達(dá)基因。如t檢驗(yàn),ANOVA,SAM等。我們這里采用SAM(Significanceanalysisofmicroarrays)的方法,并且控制錯(cuò)誤發(fā)現(xiàn)率(FalseDiscoveryRate,FDR)小于10%。back采用功能表達(dá)譜分類基于廣泛使用的geneontology(GO)的注釋體系,采用超幾何分布方法檢驗(yàn)差異表達(dá)基因注釋到每個(gè)功能結(jié)點(diǎn)的非隨機(jī)性,選擇顯著富集差異表達(dá)基因的功能結(jié)點(diǎn)(或稱功能模塊)(p<0.05),進(jìn)一步處理后建立功能表達(dá)譜。我們規(guī)定只對(duì)每個(gè)功能類內(nèi)的基因的個(gè)數(shù)不少于5個(gè)的進(jìn)行分析,差異功能類的選擇標(biāo)準(zhǔn)為,在具有顯著性的功能單元中,如果某概念其某一個(gè)子概念同樣是具有顯著性的功能單元時(shí),則只保留其相應(yīng)的子概念。功能表達(dá)譜的構(gòu)建

本文討論算術(shù)均值和中位數(shù)兩種指標(biāo),并將顯著富集差異表達(dá)基因的功能節(jié)點(diǎn)的基因分為上調(diào)和下調(diào)基因,分別建立功能表達(dá)指標(biāo)。對(duì)每個(gè)待分類樣本計(jì)算每個(gè)功能類的功能表達(dá)指標(biāo),即得到該樣本的功能表達(dá)譜K近鄰方法補(bǔ)缺失值的功能表達(dá)譜分類準(zhǔn)確率

結(jié)論建議保留缺失率(MR)<=5%的基因補(bǔ)缺失值。當(dāng)保留缺失率(MR)>5%的基因時(shí),因?yàn)檩^大缺失率基因的加入使得分類效果降低SVM分類器最穩(wěn)??;CART分類器最不穩(wěn)定;KNN分類器在采用差異基因分類時(shí)穩(wěn)健采用K近鄰、最小二乘、貝葉斯主成分三種缺失值估計(jì)方法對(duì)SVM和KNN分類器的分類結(jié)果影響不大,而采用補(bǔ)零的方法的結(jié)果較差基于功能表達(dá)譜的分類結(jié)果與差異基因的分類結(jié)果相似。但功能表達(dá)譜本質(zhì)上是具有知識(shí)性、層次性、模塊性的特征空間,具有特征可解釋性,特征空間穩(wěn)健性,特征噪音穩(wěn)健性,特征降維,降低特征冗余、相關(guān)性等特點(diǎn)back

Oligo基因芯片的異常值處理

對(duì)有監(jiān)督疾病分類的影響問(wèn)題的提出芯片中異常值的處理方法數(shù)據(jù)集和數(shù)據(jù)預(yù)處理分類算法和分類效果實(shí)驗(yàn)實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)結(jié)論問(wèn)題的提出基因芯片檢測(cè)信息的預(yù)處理對(duì)基于基因表達(dá)數(shù)據(jù)的各項(xiàng)后續(xù)分析的影響是基因表達(dá)譜研究的重要問(wèn)題之一。

預(yù)處理層面:探針集水平和表達(dá)水平。(1)在探針集水平層面,已設(shè)計(jì)各種預(yù)處理技術(shù)如dChip,GCRMA,RMA和MAS等。(2)在表達(dá)水平層面,數(shù)據(jù)中存在異常值,但還沒(méi)有合理的異常值的限定方法。本文主要分析基因在表達(dá)水平上,不同異常值的限定方法處理對(duì)疾病樣本分類的影響。異常值處理方法采用Dudoit等提出的數(shù)據(jù)預(yù)處理流程,限定檢測(cè)值的最大值為16000和最小值為100,低于最小值的檢測(cè)值按最小值處理,高于最大值的檢測(cè)值按最大值處理。采用限定最小值為10。設(shè)定最大值為10000、16000

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論