高級醫(yī)學統(tǒng)計學:遺傳統(tǒng)計學簡介_第1頁
高級醫(yī)學統(tǒng)計學:遺傳統(tǒng)計學簡介_第2頁
高級醫(yī)學統(tǒng)計學:遺傳統(tǒng)計學簡介_第3頁
高級醫(yī)學統(tǒng)計學:遺傳統(tǒng)計學簡介_第4頁
高級醫(yī)學統(tǒng)計學:遺傳統(tǒng)計學簡介_第5頁
已閱讀5頁,還剩125頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

遺傳統(tǒng)計學簡介

AnIntroductiontoGeneticStatisticsMedicalStatisticsII1主要內(nèi)容遺傳學基礎(chǔ)遺傳統(tǒng)計方法樣本含量的計算遺傳學基礎(chǔ)ChromosomeDNAGeneGenotypeGenomeVariationSNPsGeneticMarkerHaplotypeHaplotypeBlocktagSNPsInheritanceModelsLDMappingGeneMappingsChromosome人有23對染色體人類X染色體(左)和Y染色體(右)1879年,德國生物學家弗萊明(Fleming·w)用染料染色的方法觀察細胞核中的絲狀和粒狀的物質(zhì)的分布。1883年,美國學者提出了遺傳基因在染色體上的學說。1888年,正式被命名為染色體。1902年,美國生物學家沃爾特·薩頓和鮑維里推測基因位于染色體上。1928年,摩爾根證實染色體是基因的載體,獲得生理醫(yī)學諾貝爾獎。Chromosome1953年,美國的沃森和英國的克里克提出DNA雙螺旋結(jié)構(gòu)的分子模型,為20世紀以來生物學方面最偉大的發(fā)現(xiàn)。1956年,美籍遺傳學家JoeHinTjio(1919–2001,蔣有興)和Levan首次發(fā)現(xiàn)人的體細胞的染色體數(shù)目為46條,標志著人類細胞遺傳學的建立。Chromosome7染色體形態(tài)示意圖ChromosomeChromosomeChromosome染色體的結(jié)構(gòu)示意圖染色體的結(jié)構(gòu)繩珠模型(1974年,Kornberg和Thomas)Chromosome染色體的結(jié)構(gòu)Chromosome染色體的第一級和第二級結(jié)構(gòu)染色體的結(jié)構(gòu)Chromosome染色體的二級結(jié)構(gòu)-螺旋管模型染色體的結(jié)構(gòu)Chromosome染色體的二級結(jié)構(gòu)-螺旋管模型染色體的結(jié)構(gòu)Chromosome染色體的三級結(jié)構(gòu)-超級螺旋管染色體的結(jié)構(gòu)Chromosome染色體的四級結(jié)構(gòu)染色體的結(jié)構(gòu)Chromosome染色體的四級結(jié)構(gòu)J.D.沃森(左)和F.克里克(右)和他們的DNA雙螺旋結(jié)構(gòu)(1953)DNADNADNA20

DNA分子是由兩條核苷酸鏈以互補配對原則所構(gòu)成的雙螺旋結(jié)構(gòu)的分子化合物。

DNADNA的基本單位—脫氧核苷酸DNAGene基因是染色體中具有遺傳效應(yīng)的DNA片斷。LocusAllele位于一對同源染色體的相同位置上控制某一性狀的不同形態(tài)的基因。Genotype相同基因座上的所有等位基因的組合。Phenotype由不同基因型與環(huán)境共同作用,生物體可觀測到的物理或生理性狀。Genotype人類基因組計劃(HGP)人類基因組單體型圖計劃(HapMapProject)千人基因組計劃(1000Genomes

Project)GenomeTheBeginning“Wehavejuststartedtherealjourneytowardsfullyunderstandingbiologicaldiversitiesaroundusfromitsfundamentalbuildingblocks,theDNA”GenomeInhumanbeings,99.9percentbasesaresame;Remaining0.1percentmakesapersonunique.Differentattributes/characteristics/traitshowapersonlooks;diseasesheorshedevelops.VariationThesevariationscanbe:Harmless ChangeinphenotypeHarmful Diabetes,Huntington'sdisease,hemophilia…LatentVariationsfoundincodingandregulatoryregions,arenotharmfulontheirown,andthechangeineachgeneonlybecomesapparentundercertainconditionse.g.susceptibilitytolungcancer.VariationTypesofMutations:SubstitutionsInsertions/DeletionsDuplicationsRearrangementsSubstitutionsofasinglenucleotiderepresent10%to50%ofhumangenomevariation.VariationASNPisdefinedasasinglebasechangeinaDNAsequencethatoccursinasignificantproportion(morethan1percent)ofalargepopulation.指染色體DNA序列中的某個位點由于單個核苷酸的變化而引起的多態(tài)性,在群體中的頻率>1%。SNPsSNPsmay/maynotalterproteinstructureAgeneticmarkerisageneorDNAsequencewithaknownlocationonachromosomethatcanbeusedtoidentifyindividualsorspecies.SNPs(數(shù)量多,穩(wěn)定、易于快速基因分型)Canbeusedtostudytherelationshipbetweenaninheriteddiseaseanditsgeneticcause.GeneticMarkerHaplotype:acombinationofallelesatnearbypolymorphicsites.

同一染色體上DNA序列變異的特定組合;HaplotypeSNP1SNP2

C/T

G/TTherearefourhaplotypespossible:

C --- G

C --- T

T --- T

T --- G

IngeneralfornSNPs,thereare2npossiblehaplotypes.Haplotype假如某個個體的兩個位點的基因型都是純合型的,設(shè)分別為(1,1)(2,2)即:則該個體的單體型是確定的(unambiguous),為12/12。Haplotype假如某個個體的兩個位點的基因型都是雜合型的,設(shè)分別為(1,2)(1,2)即:則該個體的單體型是不確定的(ambiguous),為11/22或者21/12。HaplotypeHaplotypeInferenceMolecularmethodsInferencethroughrelativesStatisticalinferenceHaplotypeHaplotypeBlockComefromempiricalobservations;thepatternsofLDcanbecharacterizedbyaseriesofhighLDregions,‘haplotypeblocks’,separatedbysegmentsofverylowLD.Theblockstructureisbelievedtobetheresultofrecombinationhotspots.Somediseasemaybeduetooneofthehaplotypesthatwasenrichedinfrequency.Haplotypescanbedividedintoblocks.OnlyasmallfractionoftheSNPsinablockaresufficienttouniquelyidentifythecommonhaplotypesineachblock.ThoseSNPsarereferredasrepresentativeortagSNPsHaplotypeBlockDefinition:(1)AcontiguoussetofmarkersinwhichtheaverageD’isgreaterthansomepredeterminedthreshold(Reichetal.2001);(2)Aregionwhereasmallnumberofcommonhaplotypescanaccountforthemajorityofchromosomes(Patiletal.2001);(3)Achromosomalsegmentwithreducedlevelofhaplotypediversity;(4)RegionswithbothlimitedhaplotypediversityandstrongLDbutallowingintermediatemarkerstobeskipped(Dawsonetal.2002);(5)RegionswithabsolutelynoevidenceforhistoricalrecombinationbetweenanypairofSNPs(Wangetal.2002).HaplotypeBlocks1s2s3s4s5s6s7s8s9s10hap1:0010110111hap2:0000110110hap3:0011101101hap4:0101011101tagSNPs:ArepresentativeSNPenablingtoinfer(orpredict)therestofremainingSNPswithinthegroup.Aexampleoffourhaplotypes.WheretwoSNPs(tagSNPs)aresufficienttoidentifyeachofthefourhaplotype.tagSNPsAaInheritanceModelsGenotypeGroupModelAAAaaaAisDominantAisRecessiveAisCo-DominantInheritanceModelsLDMapping現(xiàn)代遺傳學的一個主要的目標就是探討復(fù)雜性疾病(complextraits)的遺傳性基礎(chǔ)。什么基因或者什么等位基因容易導(dǎo)致某種特定疾病患病風險的增加?以及它們?nèi)绾魏铜h(huán)境及其它隨機因素一起共同導(dǎo)致某種表型?傳統(tǒng)定位克隆的方法是通過家系資料來對我們感興趣的染色體區(qū)域進行連鎖分析。連鎖分析已經(jīng)在符合孟德爾遺傳的疾病中取得了成功,但是對于定位復(fù)雜性疾病的致病基因來說,這種方法就并不始終十分有效。使用連鎖分析方法時,染色體區(qū)域有好幾個centimorgans,包含著幾百個基因。此后使用使用LD關(guān)聯(lián)研究來研究功能基因或者發(fā)揮功能的突變基因。LDMapping考慮到使用連鎖分析來研究復(fù)雜性疾病中具有較小效應(yīng)的致病基因面臨著很大的挑戰(zhàn);Risch和Merikangas(1996)等提出使用關(guān)聯(lián)研究進行定位克隆要比基于家系的連鎖分析更為有效。LDMappingLD是關(guān)聯(lián)研究的理論基礎(chǔ)。Linkagedisequilibrium指的是單體型中等位基因的非獨立性。連鎖分析是基于家系資料的,而人群中無關(guān)聯(lián)的個體的等位基因的關(guān)聯(lián)成為連鎖不平衡。與連鎖分析從家系中進行抽樣相比,關(guān)聯(lián)分析從無關(guān)聯(lián)的人群中進行抽樣,所以更容易觀察到更多的重組現(xiàn)象,所以關(guān)聯(lián)研究更適合于精細定位。LDMappingMarkersthatarephysicallyclosetendtoremainassociatedwiththeancestralmutationevenasrecombinationlimitstheextentoftheregionofassociationovertime.ThehypothesisofLDmappingAncestralhaplotypeLDMappingPrincipleLD,whichhasanon-randomassociationofhaplotypestoadisease,islikelystrongestaroundtheDS(DiseaseSusceptibility)gene.Alocuswillmostlikelybewherethestrongestassociationsare.LDMapping致病位點LDMappingSNP1SNP2SNP3SNP4SNP5SNP6MarkerLDWhyLDMapping?Advantage:NopedigreesneededUtilizeshistoricalrecombinationeventsScreensthewholepopulationatonceDisadvantages:StatisticalnightmareScreensthewholepopulationatonceLDMappingPrinciple:Peoplewhohavesimilarphenotypicvaluesshouldhavehigherchancethantheexpectedlevelsofsharingofgeneticmaterialnearthegenesthatinfluencethosetraits.MarkerGenotypeDiseaseGenotypeDiseasePhenotypeLinkage,linkagedisequilibriumanalysisBiologyProximityGeneMappingsLinkageMappingMeasuresthesegregationofallelesandaphenotypewithinafamily.UsecrossoveroccurringduringmeiosisIIGenesthatarephysicallyclosetogetheraremorelikelytobeco-inheritedGenesthatarephysicallyfarapartonthechromosomearelesslikelytobeco-inherited.Detectoverbroadchromosomalregionsongenome.Linkagedisequilibrium(AssociationStudy)evaluatetheevidenceofadirectcorrelationbetweenamarkeralleleandadiseaseriskallele.Sharingofgeneticmaterial:actualsharingofthesameallele(Linkagedisequilibriumcoefficient:LD)GeneMappings主要內(nèi)容遺傳學基礎(chǔ)遺傳統(tǒng)計方法樣本含量的計算遺傳統(tǒng)計方法利用統(tǒng)計學方法研究基因和環(huán)境在人類群體中如何導(dǎo)致疾??;疾病如何遺傳。Hardy-Weinberg平衡檢驗連鎖分析LD的度量病例對照設(shè)計的統(tǒng)計分析單純病例設(shè)計的統(tǒng)計分析家系為基礎(chǔ)的各種設(shè)計GWAS的設(shè)計和分析遺傳統(tǒng)計方法Hardy-Weinberg

平衡基因型頻率在一代隨機交配后達到平衡,且以后一直保持這種平衡。隨機婚配任一對夫妻兩個人作為隨機變量是獨立的;獨立分離父母傳遞等位基因給后代是互相獨立的;當HW平衡滿足時令:A和a分別表示一個基因的兩種等位基因;A為突變型;a為野生型;P(A)=pP(a)=q=1-pHW平衡定律若親代基因型具有HW平衡比例,則在隨機婚配下,子代也具有HW平衡比例;若親代基因型不具有HW平衡比例,在隨機婚配下,則子代將具有HW平衡比例;檢驗HW平衡O為每種基因型的觀察頻數(shù)E為每種基因型的期望頻數(shù)ν=1檢驗HW平衡高血壓病的遺傳流行病學調(diào)查,197人的DNA樣本,ACE位點上三個基因型分別為AA,Aa和aa,人數(shù)為26,93,78。偏離HW平衡InbreedingPopulationStratificationSelectionDeleting目前主要是作為一種質(zhì)控手段;例如GWAS中,刪除P<1e-6的SNP。Hardy-Weinberg平衡檢驗連鎖分析LD的度量病例對照設(shè)計的統(tǒng)計分析單純病例設(shè)計的統(tǒng)計分析家系為基礎(chǔ)的各種設(shè)計GWAS的設(shè)計和分析遺傳統(tǒng)計方法連鎖分析兩個位點如果在同一條染色體上且接近,便是連鎖的。連鎖分析:尋找和疾病位點連鎖的標志物。使用家系數(shù)據(jù)減數(shù)分裂(Meiosis)和交叉(crossover)交叉在非姐妹染色單體之間發(fā)生;在相同位點;最大交換是50%。連鎖分析連鎖分析重組:同源染色體非姐妹染色單體間基因的互換重組:同源染色體非姐妹染色單體間基因的互換連鎖分析重組率重組率:同源染色體非姐妹染色單體間有關(guān)基因的染色體片段發(fā)生重組的頻率,用重組配子數(shù)占總配子數(shù)的百分比估計。度量基因間連鎖程度或距離的參數(shù);位置相近,重組率低,緊密連鎖;位置相遠,重組或交換次數(shù)多,重組率高,不連鎖。連鎖分析重組率是度量基因間連鎖(物理相近)程度或距離的參數(shù)。重組率—>0%,連鎖強度越大,兩個位點間的基因之間交換越少;重組率—>50%,連鎖強度越小,兩個位點間的基因之間交換越大。一般而言,距離越近,重組率越低;連鎖分析:估計在當前樣本下最可能的重組率θ;

DISMarkerParametricmethodEstimaterecombinationfractionbetweenamarkerlocusandanunobservedtraitlocus.Outof4informativemeiosis,2arerecombinants=>1/2Non-parametricmethodCountthenumberofallelestwoaffectedsibsshareidenticalbydescent(IBD).Ifthemarkerislinkedtothediseaselocus,theaffectedsibswilltendtosharethediseaseallelemoreoftenthantheywouldatamarkerunlinkedtothediseaselocus.

Father

DAdaMother

dadadaDAdadadadAdaDaNon-RecombinantsRecombinants123413131234123413141324IBD=2IBD=1IBD=0Mother=>Father=>連鎖分析參數(shù)連鎖分析極大似然法(maximumlikelihood,ML)統(tǒng)計學中用的最廣泛的估計方法之一;建立假設(shè);建立似然函數(shù);估計;檢驗假設(shè);結(jié)論;Thelikelihoodlikelihood=probabilityofdatagiventheparametersExample:phase-knownfullyinformativecaseobserveddata:R=no.ofrecombinations,NR=noofnon-recomb.parameter:therecombinationfraction

=Pr(recombination)likelihoodisproportionalto:

R(1-)NRLinkageisexpressedasaLODscore(Z);a“l(fā)ogarithmofodds”參數(shù)連鎖分析連鎖分析:檢驗?zāi)澄稽c是否與疾病位點存在連鎖Ascertainwhethertherecombinationfractionthetabetweentwolocideviatessignificantlyfrom0.5.Ifthetaisdifferentfrom0.5,weneedtomakethebestestimateoftheta,sincethisparametertellsushowclosethelinkedlociare.Lods>1,提示連鎖;Lods>3,提示肯定連鎖;Lods<-2,否定連鎖需要搜集的信息每個成員的患病狀態(tài)每個成員的Marker親緣關(guān)系根據(jù)上述條件,可以估算出重組發(fā)生了多少次連鎖不平衡(linkagedisequilibrium)如果同一條染色體上,兩個位點上某兩個等位基因不是獨立出現(xiàn)(非隨機相關(guān)),稱為連鎖不平衡(LD),否則稱為連鎖平衡(LE)。假設(shè)有兩個位點,Allele分別為A/a和B/b,則在滿足HW平衡時:D=x11-p1p2單倍型觀察到的頻率LELDABX11p1p2p1p2+DAbX12p1q2p1q2-DaBX21p2q1p2q1-DabX22p2q2p2q2+DLDmeasurement:D’istheabsoluteratioofDcomparedwithitsmaximumvalue.D’=1:completeLDR2isthestatisticalcorrelationoftwomarkers:WhenR2=1,knowingthegenotypesofallelesofoneSNPisdirectlypredictiveofgenotypeofanotherSNPMarkers

ABCDIndividual1:ABcDIndividual2:AbCdIndividual3:ABcdLD的度量TableTwobytworelatingfrequenciestoallelefrequenciesattwolociAaBg11g01p2bg10g00q2p1q1LD的度量linkagedisequilibriumparameter:D=g11g00

–g10g01=(plp2)(q1q2)-(plq2)(p2ql)Iftheallelesatthelociarerandomlyassociated,thenD=0;Dasameasureofthedegreeofnonrandomassociation.Tightlinkageisonepossibleexplanationforassociationbetweentwoloci.LinkagedisequilibriumLDinitsstrictsensemeansassociationduetolinkage.LD的度量LEWONTIN(1964)WhereDmax=min(p1q2,q1p2)whenD>0;WhereDmax=min(p1p2,q1q2)whenD<0.Rangesbetween-1and+1.±1impliesatleastoneofthepossiblehaplotypeswasnotobserved.LD的度量TheLDmeasure(alsocalledr2)Rangesbetween0and1;1whenthetwomarkersprovideidenticalinformation;0whentheyareinperfectequilibrium.LD的度量LD的度量CLPTM1L±20kbChr5:

1,371,007 1,398,002LD的度量1或-1代表沒有重組;若AF接近,高D’說明一個位點可以作為另外一個位點的好的替代;小樣本時不穩(wěn)定;若MAF很小會膨脹。1代表兩個位點信息完全相同;一般建議采用。AaBg11g01p2bg10g00q2p1q1關(guān)聯(lián)性分析關(guān)聯(lián)性分析病例-對照設(shè)計回顧性病例-對照設(shè)計是關(guān)聯(lián)性研究中最常用的、最具有性價比的設(shè)計。GenotypeRelativeRisks(GRR)AAAaaa合計病例r0r1r2r對照s0s1s2s合計n0n1n2n不同遺傳模型對應(yīng)的檢驗方法共顯性模型:Pearsonχ2檢驗,自由度為2顯性模型:合并(AA和Aa),Pearsonχ2檢驗,自由度為1隱性模型:合并(aa和Aa),Pearsonχ2檢驗,自由度為1AAAaaa合計病例r0r1r2r對照s0s1s2s合計n0n1n2n相加模型:方法1:計算allele的頻率方法2:Cochran-ArmitageTest(TrendTest)Aa合計病例2r0+r1r1+2r22r對照2s0+s1s1+2s22s合計2n02n12nAssociationofAllelesandGenotypesofrs1333049(‘3049)withMyocardialInfarctionCN(%)GN(%)

2(1df)P-valueCases2,132(55.4)1,716(44.6)55.11.2x10-13Controls2,783(47.4)3,089(52.6)AllelicOddsRatio=1.38CCN(%)CGN(%)GGN(%)

2(2df)P-valueCases586(30.5)960(49.9)378(19.6)59.71.1x10-14Controls676(23.0)1,431(48.7)829(28.2)HeterozygoteOddsRatio=1.47HomozygoteOddsRatio=1.90SamaniNetal,NEnglJMed2007;357:443-453.遺傳模型的選擇沒有金標準!在沒有先驗時,可以采用AdditiveModel利用回歸模型進行檢驗Y為連續(xù)性應(yīng)變量時,線性回歸利用回歸模型進行檢驗Y為2分類時,logistic回歸模型相加模型顯性模型隱性模型共顯性模型建議可以通過共顯性模型選擇最終的模型其他結(jié)局變量有序分類結(jié)局:有序分類的logistic回歸生存時間:Cox比例風險模型CNSNeurosciTher.

2012Aug;18(8):636-40Epub2012May22.The

uncoupling

protein

2

-866G

>a

polymorphism

isassociatedwiththeriskof

ischemic

stroke

in

Chinese

type

2diabetic

patients.ChaiY,

GuB,

QiuJR,

YiHG,

ZhuQ,

ZhangL,

HuG.其他結(jié)局變量其他結(jié)局變量CNSNeurosciTher.

2012Aug;18(8):636-40Epub2012May22.The

uncoupling

protein

2

-866G

>a

polymorphism

isassociatedwiththeriskof

ischemic

stroke

in

Chinese

type

2diabetic

patients.ChaiY,

GuB,

QiuJR,

YiHG,

ZhuQ,

ZhangL,

HuG.單純病例設(shè)計僅使用病例,沒有對照。對回歸系數(shù)的檢驗,可以提示基因環(huán)境的交互作用。以魏生才等進行的尋常型銀屑病患者環(huán)境因素研究為例,調(diào)查176例患者,用PCR—SSP方法檢測HLADQA1*0104,DQA1*0201,DQA1*0501等位基因,探討這些等位基因與環(huán)境暴露的交互作用。單純病例設(shè)計采用單純病例設(shè)計方法,結(jié)果表明:HLADQA1*0104等位基因與精神緊張呈負相乘交互作用,OR=0.41,P=0.042。提示該等位基因可能有減弱因精神緊張而誘發(fā)尋常型銀屑病的危險性。單純病例設(shè)計單純病例設(shè)計的應(yīng)用條件單純病例研究與傳統(tǒng)的病例對照研究相比,交互作用估計精度提高??梢砸虮苊膺z傳背景不同所造成的選擇性偏倚。應(yīng)用時要求基因型與暴露無關(guān)。只能估計交互作用,不能估計基因和環(huán)境因素的主效應(yīng)。以家庭為單位的抽樣以家庭為單位的抽樣Family-basedDesign下的假設(shè):H0a:既無關(guān)聯(lián),又無連鎖;(M4)H0b:有連鎖,但是無關(guān)聯(lián);(M1)H0c:有關(guān)聯(lián),但是無連鎖;(M3)H1:既有關(guān)聯(lián)又有連鎖;(M2,M5)常見的以家庭為單位的設(shè)計病例-父母親對照設(shè)計(case-parentsdesign)傳遞的2個等位基因作為病例,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論