醫(yī)學專業(yè)-畢業(yè)論文_第1頁
醫(yī)學專業(yè)-畢業(yè)論文_第2頁
醫(yī)學專業(yè)-畢業(yè)論文_第3頁
醫(yī)學專業(yè)-畢業(yè)論文_第4頁
醫(yī)學專業(yè)-畢業(yè)論文_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

摘要人類多數(shù)(80%)疾病屬于復雜疾病,復雜疾病一般是由多個遺傳基因及環(huán)境因素共同交互作用而發(fā)生發(fā)展的,并且往往具有家族聚集傾向性、遺傳異質(zhì)性等特征,表型與基因型間沒有簡單對應關系?,F(xiàn)代醫(yī)學研究認為疾病的發(fā)生、易感性及對藥物的反應差異性等復雜性狀與基因突變或遺傳多態(tài)性密切相關。因此,利用遺傳多態(tài)性標記對復雜疾病相關基因進行精確定位是目前研究的熱點和難點。在本文的研究中我們提出了利用單核甘酸多態(tài)性(SNPs)標記對復雜疾病基因作圖(定位)及互作網(wǎng)絡構(gòu)建的新方法,并將該方法應用于GAW14發(fā)布的酒精中毒數(shù)據(jù)相關互作多基因定位問題上,取得了良好的效果。我們對比了現(xiàn)有的基因定位分析方法,基于連鎖分析和關聯(lián)分析的基因定位方法多是針對單個疾病特征標記來研究,忽略了多個可能疾病特征標記間復雜互作的綜合效應。本文中的研究中,我們將基因定位問題看作提取疾病特征標記(比如SNPs)的模式識別問題,提出了SNP協(xié)作簇的特征提取算法MPISC,這里我們。這是一種新的全局分析方法,這種全局分析方法能夠較好地反映多基因互作、多基因和環(huán)境因素共同作用等情況。復雜疾病是受遺傳機制和環(huán)境因素共同控制的,因此在我們的復雜疾病互作多基因定位方法的研究中綜合考慮到了這兩方面的因素。首先將具有家系結(jié)構(gòu)的SNP遺傳譜轉(zhuǎn)化為IBD譜,然后基于MPISC算法提取那些IBD分布在兩類受累同胞對組中顯著差異的SNP協(xié)作簇。這些SNP協(xié)作簇不僅可以定位復雜疾病相關多基因,而且反應相關基因的互作關系,可以進一步構(gòu)建SNP虛擬互作網(wǎng)絡,進而映射為基因之間的互作關系,最終完成對復雜疾病互作多基因精確定位和基因互作網(wǎng)絡構(gòu)建。關鍵詞復雜疾??;基因定位;SNP虛擬互作網(wǎng)絡;基因互作網(wǎng)絡AbstractAbouteightypercentofcommonhumandisordersbelongtocomplextrait.Complexdiseasesareoftencausedbytheinteractionofmanylociandenvironmentaleffects,andexhibitastrongfamilialcomponentandpopulationgeneticheterogeneity.Asimplerelationshipbetweentheobservablephenotypesandtheunderlyinggeneticeffectsdoesnotexist.Variantshavebeendeemedtoconfersusceptibilitytocommondiseasesandresponsetodrugtherapyinmodernmedicinestudy.Itadvancesachallengeforgenemappingusingpolymorphicmarkers.Consequently,inourstudyweproposeanewideaforlocatinginteractivemultiplegenesandconstructingtheirinteractivenetworkresponsibletocomplexdiseaseutilizingsingle-nucleotidepolymorphisms(SNPs).WedemonstratethepropertiesofthisnovelapproachviaanapplicationtothealcoholismdatainGAW14.Wehavemadecomparisonsamongcurrentmethodsforgenemapping.Mostmethodsbasedonlinkageanalysisandassociationanalysisconsidersonemarkeratatimeanddoesnottakeintoaccountthecorrelatedstructureofmultiplelinkedmarkers.Inthispaper,wetreatthepuzzleforgenemappingasapatternrecognitionproblemandproposeafeatureselectionalgorithm(MPISC)tomineSNPcombinationremarkablyassociatedwithcomplextrait..Thismethodoffersusanewwayforgenemappingfromaglobalview.Complexdiseasesarecontrolledbygeneticmechanismandenvironmentaleffects.Hence,inourmethodofgenemappingforinteractivemultiplegeneswetakeintoaccountbothofthefactors.WetransformtheprofileofSNPintoIBDprofilingandusetheMPISCalgorithmproposedtoextractSNPcombinationwithdifferentialIBDdistributionsamongtheaffectedgroupsofsibpairs.WecangeneratedummyinteractionnetworkofSNPsbasedontheminedSNPcombinations,andfurtherreflecttheinteractionsamonggenesthataremappedbytheSNPsandconstructinteractionnetworkofgenes.Keywordscomplexdisease;genemapping;dummyinteractionnetworkofSNPs;interactionnetworkofgenes目錄TOC\o"1-5"\h\z\o"CurrentDocument"摘要 I\o"CurrentDocument"Abstract II\o"CurrentDocument"第1章緒論 1\o"CurrentDocument"課題背景 1\o"CurrentDocument"復雜疾病研究面臨的問題 1\o"CurrentDocument"遺傳多態(tài)性標記的發(fā)展 1\o"CurrentDocument"國內(nèi)外研究現(xiàn)狀 3\o"CurrentDocument"本課題的主要研究內(nèi)容及意義 5\o"CurrentDocument"本課題的來源 6\o"CurrentDocument"第2章基因定位方法的研究 7\o"CurrentDocument"引言 7\o"CurrentDocument"基本概念 7\o"CurrentDocument"連鎖分析方法 8\o"CurrentDocument"參數(shù)分析法 8\o"CurrentDocument"非參數(shù)分析法 9\o"CurrentDocument"關聯(lián)或連鎖不平衡的分析方法 10\o"CurrentDocument"群體關聯(lián)分析 11\o"CurrentDocument"以家系為基礎的連鎖不平衡分析 11\o"CurrentDocument"連鎖與關聯(lián)分析方法的比較 12\o"CurrentDocument"本章小結(jié) 13\o"CurrentDocument"第3章復雜疾病基因定位與網(wǎng)絡構(gòu)建方法 14弓I言 14\o"CurrentDocument"基于SNP遺傳譜構(gòu)造IBD譜數(shù)據(jù) 14\o"CurrentDocument"相關概念 14\o"CurrentDocument"SNP遺傳譜數(shù)據(jù) 15\o"CurrentDocument"IBD數(shù)據(jù)的計算原理 15\o"CurrentDocument"S.A.G.E.遺傳分析系統(tǒng)的功能及應用 17\o"CurrentDocument"IBD譜的構(gòu)造 17\o"CurrentDocument"SNP協(xié)作簇提取算法(MPISC) 18\o"CurrentDocument"建立SNP虛擬互作網(wǎng)絡 19\o"CurrentDocument"計算SNP與疾病的關聯(lián)度 19\o"CurrentDocument"網(wǎng)絡的結(jié)點和邊 20\o"CurrentDocument"生成SNP虛擬互作網(wǎng)絡 21\o"CurrentDocument"基因作圖與互作網(wǎng)絡構(gòu)建 21\o"CurrentDocument"由SNP定位到gene 21\o"CurrentDocument"建立基因間的互作關系 24\o"CurrentDocument"本章小結(jié) 24\o"CurrentDocument"第4章SNP協(xié)作簇的特征提取方法 25\o"CurrentDocument"模式特征提取算法的研究 25\o"CurrentDocument"最優(yōu)搜索算法 25\o"CurrentDocument"次優(yōu)搜索算法 25\o"CurrentDocument"MPISC算法 27\o"CurrentDocument"算法思想 28\o"CurrentDocument"知識表示(編碼) 29\o"CurrentDocument"初始化種群 30\o"CurrentDocument"適應度函數(shù)計算(SVM) 30\o"CurrentDocument"選擇算子 30\o"CurrentDocument"交叉算子 31\o"CurrentDocument"變異算子 32\o"CurrentDocument"加速進化 32\o"CurrentDocument"本章小結(jié) 33\o"CurrentDocument"第5章試驗結(jié)果與分析 34\o"CurrentDocument"數(shù)據(jù)來源 34\o"CurrentDocument"數(shù)據(jù)預處理 34\o"CurrentDocument"構(gòu)造IBD譜 34\o"CurrentDocument"補缺失值 35\o"CurrentDocument"SNP虛擬互作網(wǎng)絡的構(gòu)建 35\o"CurrentDocument"SNP協(xié)作簇的提取 35\o"CurrentDocument"SNP協(xié)作簇的篩選標準 36\o"CurrentDocument"與疾病顯著相關的SNP 36\o"CurrentDocument"SNP虛擬互作網(wǎng)絡 39\o"CurrentDocument"互作多基因的定位及網(wǎng)絡的構(gòu)建 39\o"CurrentDocument"生物學驗證 39\o"CurrentDocument"MPISC算法的評價 40\o"CurrentDocument"算法的搜索效率 40\o"CurrentDocument"參數(shù)e的選取對搜索結(jié)果的影響 41\o"CurrentDocument"與其它算法的比較 42\o"CurrentDocument"本章小結(jié) 44\o"CurrentDocument"第6章復雜疾病基因作圖及網(wǎng)絡構(gòu)建系統(tǒng)的實現(xiàn) 45弓|言 45\o"CurrentDocument"系統(tǒng)描述 45\o"CurrentDocument"數(shù)據(jù)管理模塊 45\o"CurrentDocument"數(shù)據(jù)預處理模塊 45\o"CurrentDocument"SNP組合提取模塊 46\o"CurrentDocument"頻數(shù)統(tǒng)計模塊 48\o"CurrentDocument"注釋模塊 48\o"CurrentDocument"可視化模塊 49\o"CurrentDocument"系統(tǒng)實現(xiàn)所用技術 51\o"CurrentDocument"本章小結(jié) 51\o"CurrentDocument"結(jié)論 52\o"CurrentDocument"參考文獻 53\o"CurrentDocument"攻讀學位期間發(fā)表的學術論文 56\o"CurrentDocument"哈爾濱工業(yè)大學碩士學位論文原創(chuàng)性聲明 57\o"CurrentDocument"哈爾濱工業(yè)大學碩士學位論文使用授權書 57\o"CurrentDocument"致謝 58-hi-第1章緒論課題背景復雜疾病研究面臨的問題許多復雜疾病具有家族聚集傾向,而且這些疾病極少是由單基因缺陷引起的,即其并非遵循簡單Mendel遺傳規(guī)律⑴,它們往往是由多基因互作以及多基因和環(huán)境因素相互作用積累所致,因此,稱之為多基因病(多基因遺傳病)。該類疾病病因復雜,而且往往具有遺傳異質(zhì)性,基因型與表型間沒有簡單對應關系,通過遺傳多態(tài)性標記進行定位和鑒定復雜疾病的相關基因是目前研究的熱點和難點。(1)多基因互作及微效基因的困擾復雜疾病的特點往往是由多個中效、微效基因共同決定疾病的復雜性狀,僅一個基因的改變對疾病的發(fā)生、發(fā)展,以及對藥物作用的影響不大,其中某一個或某些基因位點僅對應于該疾病的某個亞型、某個癥狀或體征⑵。(2)環(huán)境因素的影響復雜疾病的發(fā)病率,即疾病外顯性(Penetrance)取決于后天環(huán)境因素影響的性質(zhì)及程度⑶。(3)遺傳異質(zhì)性一些臨床上表現(xiàn)相同或相似的疾病實際上可能由不同的致病基因控制,這種遺傳現(xiàn)象稱為遺傳異質(zhì)性。復雜疾病實際上可能是由一組致病基因、或易感基因、或環(huán)境因素不同,而表型相似的疾病組成,如糖尿病,群體中也存在具有遺傳易感性但不發(fā)病或尚未發(fā)病的亞群,缺乏對疾病形成過程中環(huán)境作用的有效控制途徑,必然導致研究對象的內(nèi)部異質(zhì)性,從而影響疾病相關基因的研空?⑷7Lo遺傳多態(tài)性標記的發(fā)展基因組DNA是生物體各種生理、病理性狀的物質(zhì)基礎。人類眾多個體的基因組序列的一致性高達99%以上,但個體之間各種性狀的差異仍然很大,包括對疾病的易感性、對同一疾病治療藥物的反應性等。在同一生物集團中明顯存在兩種以上不同的遺傳性狀,而且出現(xiàn)頻率較高,稱為遺傳的多態(tài)性(polymorphism),而遺傳物質(zhì)DNA的多態(tài)性如RFLP(RestrictionFragmentLengthPolymorphism),MS(Microsatellite)>ABO血型、HLA和單核甘酸多態(tài)性SNP(SingleNucleotidePolymorphism)是個體間差異的遺傳學基礎。第一代遺傳標志:限制性片段長度多態(tài)性RFLP⑸;第二代遺傳標記為微衛(wèi)星標志MS,又稱短串聯(lián)重復STR,是指DNA基因組中小于10個核甘酸的簡單重復序列,在染色體上分布較均勻,信息量明顯高于RFLP成為遺傳連鎖分析的有用標志⑹。同時MS也成為物理圖譜的標志,從而促進了遺傳圖譜與物理圖譜的整合⑺;第三代遺傳標志:單核昔酸多態(tài)性標志SNP,主要是指在基因組水平上由單個核昔酸的變異所引起的DNA序列多態(tài)性。其意義已超出了遺傳作圖的范圍,成為研究基因多樣性和識別、定位疾病相關基因的一種新型手段網(wǎng)。作為第三代遺傳標記,SNPs在基因組中具有高密度和高保守的特點,人類30億個堿基中每千個堿基出現(xiàn)一次,初步估計在整個基因組共有300萬以上的SNPs。大多數(shù)SNPs位于基因組的非編碼區(qū),并且有些位于基因組編碼區(qū)的SNPs所致編碼序列的改變并不影響翻譯后的氨基酸序列,這種SNPs對個體的表現(xiàn)型是無影響的,但是有的SNPs位于基因啟動子中,導致基因轉(zhuǎn)錄活性的上升或下降,造成該蛋白的表達量上升或下降,進一步影響其生物學活性.有些位于蛋白質(zhì)編碼區(qū)的SNPs可能影響翻譯后關鍵的功能基團的氨基酸序列,從而影響蛋白質(zhì)的功能,最終導致對特定環(huán)境或病因的反應敏感性。SNP用作遺傳標記具有以下優(yōu)點:(l)SNP在人群中是二等位基因性的,在任何人群中其等位基因頻率都可估計出來。(2)它在基因組中的分布較微衛(wèi)星標記廣泛得多。(3)與串聯(lián)重復的微衛(wèi)星位點相比,SNP是高度穩(wěn)定的,尤其是處于編碼區(qū)的SNP(cSNP),而前者的高突變率容易引起對人群的遺傳分析出現(xiàn)困難。(4)部分位于基因內(nèi)部的SNP可能會直接影響產(chǎn)物蛋白質(zhì)的結(jié)構(gòu)或基因表達水平,因此,它們本身可能就是疾病遺傳機制的候選改變位點。(5)易于進行自動化、規(guī)模化分析,縮短了研究時間。由于SNP的二態(tài)性,非此即彼,在基因組篩選中SNPs往往只需+/-的分析,而不用分析片段的長度,這就利于發(fā)展自動化技術篩選或檢測SNPs。國內(nèi)外研究現(xiàn)狀近十兒年來,隨著人類基因組計劃研究的快速進展,應用統(tǒng)計與計算機技術已對大量的簡單Mendel遺傳的400余種疾病進行了基因定位,其中有許多已被定位克隆。目前人類疾病基因組學研究主要關注的目標是對那些表型與基因型間并不存在嚴格的--對應關系的、更為廣泛的復雜遺傳疾病的遺佞學機理的揭示。復雜疾病一般由多種遺傳基因與環(huán)境因素以及它們的相互作用所控制,在人群中比較常見,如糖尿病、肥胖癥、骨質(zhì)疏松癥、高血壓、心血管疾病等。復雜性狀疾病具有以下特點:遺傳模式尚未確定、群體遺傳異質(zhì)性強、外顯率低、多基因參與、單一基因作用微弱,同時還受一組環(huán)境因素的作用,另外它還有時還表現(xiàn)為數(shù)量性狀⑶。隨著STR和SNP等遺傳標記的發(fā)現(xiàn),已有大量的遺傳標記可用于遺傳性狀的連鎖定位分析l⑼。到目前為止,發(fā)現(xiàn)大約有1300個基因的突變已被證實與疾病有關。然而,我們對復雜疾病的相關基因的識別仍然沒有一致的最有效的分析方法,目前人類疾病基因定位的理論策略主要包括以下三種分析方法:基于連鎖(linkage)的分析方法、基于關聯(lián)(Association)或連鎖不平衡LD(LinkageDisequilibrium)的分析方法和基因芯片表達數(shù)據(jù)分析方法。這幾種方法都是非常有用的工具,并且在搜尋潛在復雜性狀的基因時,三者可以相互補充。基因定位的連鎖分析方法一般是以有關遺傳標志為“路標”,以被定位基因與其連鎖基因的重組率為“遺傳學距離”,進行基因定位。連鎖分析考察同一染色體上兩個基因座的物理距離是否相臨近。兩個連鎖的(物理上臨近的)基因座上等位基因更易于一-起分離,即它們一起作為一個單位由父母傳遞給后代,這種現(xiàn)象偏離了自由組合的孟德爾第二定律。人們認為,已知的標記系統(tǒng)和待推定的疾病基因座之間的連鎖證據(jù)是此疾病由一種遺傳機制造成的最有力的統(tǒng)計證據(jù)。連鎖分析僅涉及到基因座的位置,用位置來定位基因,而不考慮此基因的生化功能。這種方法稱為"定位克隆"(PositionalCloning)""。,個家庭中父親(母親)的兩個基因座上等位基因由于連鎖而共同分離的情況可能與另一個家庭中發(fā)生的分離情況不同。由連鎖而發(fā)生的共分離現(xiàn)象只能在家庭內(nèi)部才可以觀察到,因此,考察連鎖必須有家庭數(shù)據(jù)。連鎖分析方法主要分為基于模型的參數(shù)分析法,及與模型無關的非參數(shù)分析法?;谀P偷膮?shù)分析法如對數(shù)優(yōu)勢記分法,在分析前要已知所研究性狀的遺傳模式、等位基因的數(shù)目及每種基因型的外顯率,分析中僅僅未知的變量是重組率6。非參數(shù)方法中常是通過測量家系中兩個患病或兩個非患病個體或一個患者及??個非患者標記基因的相似程度來判斷致病基因與標記基因是否連鎖,這種相似或相異程度常用同胞或親屬對間共享IBD(IdenticalByDescent)或IBSQdenticalByState)的概率來評價,主要的非參數(shù)方法有患病同胞對法和患病家系成員法。關聯(lián)研究和連鎖不平衡分析是一種基于觀察的標記位點等位基因與致病基因位點間存在連鎖不平衡LD的分析法。連鎖不平衡表示兩位點是緊密連鎖的,兩位點越靠近則LD程度越強。因此,標記位點與致病基因越近、突變率越低、雜合度越高,用標記檢出致病基因位點的機率就越高。主要的關聯(lián)分析方法有群體關聯(lián)分析和以家系為基礎的連鎖不平衡分析。傳統(tǒng)的病例-對照研究是基于群體而非家系的疾病關聯(lián)分析,它通過隨機選擇病例和對照,然后比較其在標記等位基因和基因型頻率上的差異來說明位點與疾病的關聯(lián)性。其缺點是:陽性結(jié)果可能由混雜因素造成,如不同分層人群(StratifiedPopulations)混雜在一起造成的虛假聯(lián)系。為了克服不同分層人群混雜的影響,相應產(chǎn)生了基于家庭的病例一對照研究方法。近年來有人提倡用患者核心家系成員(雙親及同胞)作為相關分析對照組,如單倍型相對風險率分析HRR(HaplotypeRelativeRisk嚴1及傳遞/連鎖不平衡分析TDT(TransmissionDisequilibriumTest)1"】等,其中較受推崇的是TDT。連鎖分析與關聯(lián)分析在鑒定復雜性狀基因上有一定的局限性,用這些方法很難發(fā)現(xiàn)大量相關基因的交互作用。而基因芯片表達數(shù)據(jù),一份基因芯片表達數(shù)據(jù)通常包含上千個基因的表達水平,因此包含了基因間的相互影響的大量的生物信息?;蛐酒夹g是90年代的重大科技進展之一,既有重要的基礎研究價值,又有明顯的產(chǎn)業(yè)化前景?;蛐酒?genechip)也叫DNA芯片或DNA微陣列。采用原位合成或顯微打印技術,將大量的DNA探針固化于硅片等支持物表面,產(chǎn)生二維DNA探針陣列,然后與標記的樣品進行雜交,檢測雜交信號的強度及分布,進而對靶分子的序列和數(shù)量進行分析,可以快速、并行、高效地檢測基因表達水平。目前,常用的統(tǒng)計分析方法有差異表達分析,聚類分析。差異表達分析通過組間比較,找到那些在不同組織之間和同一組織的不同條件和狀態(tài)(如正常與有病)下的有差異表達的基因,差異性表達分析常用到一些參數(shù)方法,如t檢驗、方差分析與線性模型。聚類分析則將有相似表達行為的基因進行歸類。聚類分析可分為兩類:無監(jiān)督的聚類分析與有監(jiān)督的聚類分析”,I。本課題的主要研究內(nèi)容及意義隨著人類基因組項目的完成,特別是以高密度分布于人類基因圖譜上的多態(tài)性標記——單核甘酸多態(tài)性SNP的發(fā)掘應用,多基因遺傳病的研究傾向?qū)⑹谴笠?guī)模的病例-對照研究和數(shù)量結(jié)果分析,本文主要對基于SNP遺傳譜的復雜疾病基因作圖及網(wǎng)絡構(gòu)建方法進行了研究。本文主要研究的內(nèi)容如下:(1)分析了復雜疾病的研究現(xiàn)狀。復雜性狀疾病即多基因疾病,受多個基因相互作用及環(huán)境因素的共同影響,明顯地不符合孟德爾遺傳規(guī)律,缺乏一個固定的模式,無法設置參數(shù)并套用參數(shù)分析公式進行連鎖分析。另外,與孟德爾疾病相比,這些復雜性狀更為常見,使基因突變的機會大大增加,從而影響了基因定位時目的基因的確定,增加了關聯(lián)分析的難度。而且多基因遺傳病在不同家系中甚至在??個大家系中存在遺傳異質(zhì)性,使這些家系資料無法累加。因此,對多基因疾病進行遺傳分析比較困難。單核甘酸多態(tài)性SNPs是疾病易感性、外顯性、抵抗性以及藥物反應性等生物學性狀差別的重要遺傳學基礎。很多疾病與基因突變或基因多態(tài)有關,分析基因型數(shù)據(jù),特別是將SNPs數(shù)據(jù)與疾病致病因素相關聯(lián)的計算方法是生物信息學研究的重點之一。(2)對現(xiàn)有的基因定位方法進行了研究,對各種方法進行了分析和比較。基于連鎖分析和關聯(lián)分析的基因定位方法多是針對單個疾病特征標記來研究,忽略了多個可能疾病特征標記間復雜互作的綜合效應。在本文的研究中,不同于傳統(tǒng)的單基因研究方式,我們更關注于對基因的相互作用、多個基因組合與疾病關系的研究,我們將基因定位問題看作提取疾病特征標記(SNPs)的模式識別問題,并對現(xiàn)有的模式特征提取算法進行了分析比較,提出了基于SNP組合的特征提取算法。這是一?種新的全局分析方法,這種全局分析方法能夠較好地反映多基因互作、多基因和環(huán)境因素共同作用等情況。(3)提出了復雜疾病基因定位及互作網(wǎng)絡構(gòu)建方法。復雜疾病是受遺傳機制和環(huán)境因素共同控制的,因此在我們的復雜疾病互作基因定位方法的研究中綜合考慮到了這兩方面的因素。首先將具有家系結(jié)構(gòu)的SNP遺傳譜轉(zhuǎn)化為IBD譜,用受累同胞對作為樣本集,其中,IBD作為SNP的遺傳一致性指標,融入了遺傳家系結(jié)構(gòu)信息。視同胞對受累狀態(tài)為兩樣本類,IBD為遺傳一-致性的概率分布,然后用基于SNP組合的特征提取算法提取那些IBD分布在兩類樣本中顯著差異的SNP協(xié)作簇。這些SNP協(xié)作簇不僅可以定位復雜疾病相關多基因,而且反應了相關基因間的互作關系,可以進?步構(gòu)建SNP虛擬互作網(wǎng)絡,進而映射為基因之間的互作關系,最終完成對復雜疾病互作多基因精確定位和基因互作網(wǎng)絡構(gòu)建。(4)我們將此方法,應用于"GeneticAnalysisWorkshop14"國際會議提供的酒精中毒數(shù)據(jù)集的復雜互作多基因的定位研究上,并對實際操作中遇到的問題和得到的結(jié)論進行了分析,并對實驗結(jié)果作了生物學分析,驗證了方法的有效性。本課題的來源本課題來源于國家自然科學基金(30571034)項目:基于生物譜的復雜疾病基因識別系統(tǒng)融合分析方法研究及國家自然科學基金(30570424)項目:復雜疾病多靶點發(fā)現(xiàn)及靶點間網(wǎng)絡關系識別方法研究。第2章基因定位方法的研究引言目前人類疾病基因定位的理論策略主要包括以下三種分析方法:基于連鎖的分析方法、基于關聯(lián)或連鎖不平衡LD的分析方法和基因芯片表達數(shù)據(jù)分析方法。這兒種方法都是非常有用的工具,并且在搜尋潛在復雜性狀的基因時,三者可以相互補充。在本文中我們主要對前兩種利用遺傳標記進行基因定位的方法進行了研究。在基因病研究中,各種常用遺傳分析方法都是建立在一種生物現(xiàn)象一染色體重組基礎之上的,染色體上的兩個位點間相距越遠,發(fā)生重組的機率越高。因此,由標記位點與疾病位點間的重組率可估算出兩者間的遺傳距離及連鎖程度。在家系中,重組率可通過連鎖分析的方法進行計算;而在無親緣關系的群體中,重組以連鎖不平衡的形式表現(xiàn)出來,這是進行關聯(lián)分析的基礎。基本概念(1)連鎖與重組率每個基因都按一定的順序排列在染色體上,同一條染色體上的基因互相連鎖,傾向于共同地傳給子代。另一方面,細胞在第一次減數(shù)分裂時,同源染色體的兩條非姐妹染色單體之間可發(fā)生交換(CrossingOver),這種交換發(fā)生在染色體交叉(Chiasma)的地方。從而在第二次減數(shù)分裂完成后形成的四個配子中可出現(xiàn)基因重組。在兩對非等位基因之間發(fā)生交換的頻率稱為重組率(RecombinationFrequency)?一般說來,兩對非等位基因之間的相對距離越大,基因交換和重組的概率越高。當兩個位點緊密連鎖時,則重組率接近于Oo當兩個位點在一條染色體上相距很遠,則在它們之間染色體發(fā)生奇數(shù)次交換與偶數(shù)次交換的概率大致相等,重組率將接近于0.5,這時難以區(qū)分這兩個位點是在同一條染色體上,還是在不同染色體上“叫(2)基因的交叉干涉及圖距基因的交叉干涉(GeneticChiasmInterference)是指染色體一段區(qū)域中發(fā)生交換影響鄰近區(qū)域中的交換。一般認為,在人類染色體中存在正交叉干涉,即一個區(qū)域中的交換將減少鄰近區(qū)域中交換發(fā)生的機會。圖函數(shù)(MapFunction)常用來將非加性的重組率轉(zhuǎn)換成可加的圖距(MapDistance)o不同的圖函數(shù)對應不同的交叉干涉模型或交叉分布假設1⑹。連鎖分析方法基因定位的連鎖分析方法-一般是以有關遺傳標志為“路標”,以被定位基因與其連鎖基因的重組率為“遺傳學距離”,進行基因定位。連鎖分析考察同一染色體上兩個基因座的物理距離是否相臨近。兩個連鎖的(物理上臨近的)基因座上等位基因更易于一起分離,即它們一起作為一個單位由父母傳遞給后代,這種現(xiàn)象偏離了自由組合的孟德爾第二定律。連鎖分析是用來確定人類基因組上疾病易感基因位置的一種方法。人們認為,已知的標記系統(tǒng)和待推定的疾病基因座之間的連鎖證據(jù)是此疾病由?種遺傳機制造成的最有力的統(tǒng)計證據(jù)。連鎖分析僅涉及到基因座的位置,用位置來定位基因,而不考慮此基因的生化功能。這種方法稱為“定位克隆二一個家庭中父親(母親)的兩個基因座上等位基因由于連鎖而共同分離的情況可能與另…個家庭中發(fā)生的分離情況不同。由連鎖而發(fā)生的共分離現(xiàn)象只能在家庭內(nèi)部才可以觀察到,因此,考察連鎖必須有家庭數(shù)據(jù)。連鎖分析是基因定位中的主要策略之一,它是利用家系遺傳信息中基因間的重組率計算出兩基因之間的染色體圖距。根據(jù)疾病有無合適的遺傳模式,可分為基于模型的參數(shù)分析法,和與模型無關的非參數(shù)分析法。參數(shù)分析法優(yōu)勢對數(shù)分數(shù)法LODS(LogOddsScore)法1⑺是由著名的遺傳學家NewtonMorton于1955年在Fisher似然性估計的原理上提出的一種參數(shù)分析法,亦稱為模式依賴的連鎖分析法,即一般所指的連鎖分析法。主要檢測在兩基因以某一重組率(。)相連鎖時,出現(xiàn)這種情況的似然性(L)有多大。LODS法計算的統(tǒng)計量是Z(LodScore),計算公式為式(2-1):Z(6)=logL(e)/L(l/2) (2-1)可簡單定義為(0<^<0.5)與不連鎖(。=0.5)的相似性的比值的對數(shù)。該分析方法利用一個家系中所有成員之間的遺傳信息,為致病基因選擇一個合適的遺傳模式Ml,將致病基因指定于一個特定座位。另設一個模型M0,符合無效假設即致病基因與Ml中所涉及的染色體區(qū)域無連鎖關系。通過Lodscore的方法對統(tǒng)計量Z進行顯著性檢驗,以判斷Ml是否成立。LODS法對連鎖的判斷能力較強,不僅能確定連鎖程度,而且可確定遺傳距離。另外,LODS值計算一般以遞歸式進行,即數(shù)據(jù)被分為多個適當大小的子集,一次計算一個子集,其結(jié)果附加到下一個子集中,依次類推。因此,運用LODS法時,不同家系的計算結(jié)果可以相加,無時間限制,直至可做出判斷為止。當致病基因的遺傳模型被正確建立時,LODS法的分析效力高于其它方法,但作為?種參數(shù)連鎖分析方法,它對遺傳參數(shù)如基因頻率、基因傳遞率及外顯率等依賴性較大,其分析結(jié)果受到遺傳模型設定的影響,錯誤的模型可能會導致錯誤的結(jié)論。因此,該法主要適用于已知遺傳方式的單基因遺傳病的基因定位。非參數(shù)分析法此法不依賴于疾病的遺傳模式,被認為是多基因疾病的理想分析法。這是?種建立在等位基因共享基礎上的分析法,其研究對象限于家系中成對的患病成員,通過比較兩個患病者在同一座位上獲得的來自共同祖先的同一等位基因的頻率,將之與按孟德爾獨立分離方式所應獲得的期望頻率相比較,若兩者間差異有顯著性,則可認為該等位基因與致病基因之間存在連鎖不平衡。常用的非參數(shù)分析法有患病同胞對法和患病家系成員法。(1)患病同胞對法患病同胞對法ASP(AffectedSib-Pair>⑻的原理是,如同胞對均為患者,他們將共有帶有致病基因的那段染色體,通過標記物確定個體的基因型,可找出染色體上共有超出理論值的區(qū)域,從而對疾病基因進行定位。ASP法分析中引入一個基本概念,即血緣一致性IBD"9],是指子代中共有的一段DNA區(qū)域或共有的等位基因來源于一個共同祖先。顯然,同胞對攜帶IBD的機會要高于其他親屬對,更明顯高于隨機孟德爾分離群體20。一般來說,當ASP中某個遺傳標記的IBD超過隨機同胞對的5%~10%(P<0.05)時,即可對該標記與某個易感基因存在連鎖關系做出初步判斷。兩組間IBD頻率的差異可經(jīng)/檢驗確認。理想的ASP研究應具備雙親樣本資料,以此來判斷受累同胞對的標記等位基因是否同源,即來自雙親中的同一個等位基因。另外,ASP法常需分析大量的患病同胞對(一般需要400對或更多),才能得出比較滿意的結(jié)果,取樣較困難。該法還由于研究對象限于同胞對,因此浪費了許多家系結(jié)構(gòu)所含的信息。這些均限制了ASP連鎖分析的應用。(2)患病家系成員法患病家系成員法APM(AffectedPedigreeMember)是ASP的延伸,其原理與ASP法相同,只是把研究對象擴展到整個家系的所有成員(包括患病的成對遠親),從而解決ASP法分析時家系資料不足的問題。APM法與ASP法不同的是,以分析家系中所有個體的狀態(tài)一致性IBS以代替IBD,即兩者在同一標記座位上存在相同等位基因,不論其是否來源于同一祖先。這造成了它在某些可以確定IBD的情況下仍然使用IBS,浪費了一部分信息,所以其分析遺傳標記和易感基因連鎖的有效性則比ASP低。它只能確定致病基因與一個較大的染色體區(qū)域的連鎖關系,而不能用于致病基因的精細定位。目前,APM法較多用于同胞對收集較困難的晚發(fā)性多基因遺傳病的遺傳分析。ASP法和APM法均是對等位基因共享進行估計,結(jié)果以最大LODS值MLS(MaximumLodScore)表示。在材料適當?shù)那闆r下,其分析效能同參數(shù)分析方法相當。因此,非參數(shù)分析方法??捎脴藴实倪B鎖程序進行計算。應用非參數(shù)分析方法分析是不需要準確設定疾病的遺傳模式,不受遺傳參數(shù)的影響,對遺傳異質(zhì)性容許度大,且對系譜材料要求低,所以適用于不符合孟德爾遺傳方式的復雜疾病的連鎖定位分析。另外,該法可研究兩個不相連鎖位點對疾病的聯(lián)合作用,即多位點分析,以解析復雜疾病易感基因間的相互關系。但非參數(shù)分析法在檢出效力及分析可靠性上較參數(shù)連鎖分析低,它也不能像LODS法那樣得出遺傳標記和易感基因之間的距離。關聯(lián)或連鎖不平衡的分析方法如果兩個基因座上的等位基因是隨機關聯(lián)的,即不獨立,這種情況就叫做等位基因關聯(lián)(AllelicAssociation)或者連鎖不平衡LDP,關聯(lián)通常反映了分子標記與性狀功能突變之間在統(tǒng)計學上的非獨立性(連鎖不平衡),但并不一定意味著因果關系。如果一個群體在初始狀態(tài)下連鎖不平衡(第工0),在隨機婚配條件下,在n代以后,有&=(1-分節(jié)0。因此連鎖不平衡狀態(tài)隨著代數(shù)增加逐漸演變?yōu)槠胶鉅顟B(tài)。當連鎖很弱,即重組率。很大(接近1/2)時,連鎖不平衡參數(shù)將隨著代數(shù)的增加而迅速減小。如果兩個基因座緊密連鎖,重組率0很?。ń咏?),則不平衡狀態(tài)將持續(xù)很多代,因此,在實際研究中,大的連鎖不平衡參數(shù)值在一定程度上可以被認為是連鎖的證據(jù)。連鎖分析考察重組,因此,考察連鎖必須有家庭數(shù)據(jù),而由等位基因關聯(lián)性(或連鎖不平衡性)可以由一般的群體數(shù)據(jù)觀察到,有的連鎖不平衡現(xiàn)象可能是因為群體混雜造成的,但過大的連鎖不平衡通常被視為緊密連鎖的證據(jù)。傳統(tǒng)的連鎖分析的結(jié)果通常是將基因定位在較大(例如~30cM)的基因組區(qū)域,而連鎖不平衡被視為一種精細定位的方法。Ott(1999)指出,對于那些遠系繁殖的大群體,連鎖不平衡通常只能延伸到0.3cM。關聯(lián)分析方法網(wǎng)是一種基于觀察的標記位點等位基因與致病基因位點間存在連鎖不平衡(LD)的分析法。連鎖不平衡表示兩位點是緊密連鎖的,兩位點越靠近則LD程度越強。因此,標記位點與致病基因越近、突變率越低、雜合度越高,用標記檢出致病基因位點的機率就越高。群體關聯(lián)分析這是一種建立在群體水平上的關聯(lián)研究方法,又稱病例-對照研究,是基于群體而非家系的疾病關聯(lián)分析,它通過隨機選擇病例和對照,然后比較其在標記等位基因和基因型頻率上的差異來說明位點與疾病的關聯(lián)性。其缺點是:陽性結(jié)果可能由混雜因素造成,如不同分層人群(StratifiedPopulations)混雜在一起造成的虛假聯(lián)系。為了克服不同分層人群混雜的影響,相應產(chǎn)生了基于家庭的病例一對照研究方法。以家系為基礎的連鎖不平衡分析(1)單倍型相對風險分析單倍型相對風險分析HRR是基于家系的病例一對照研究方法。例如:假定在一個標記基因座上有兩個等位基因,假設確定了n個患病的子女,他們分別來自n個不同的家庭。在這n個家庭中,父母將有4n個標記基因,其中2n個傳遞給了下一代,構(gòu)成病例組(受累傳遞組)個體的基因型;另外2n個沒有傳遞,作為對照組(未傳遞組)虛擬個體的基因型。通過傳統(tǒng)的病例一對照研究,比較傳遞組與未傳遞組的標記等位基因和基因型頻率是否有差異。(2)傳遞不平衡檢驗TDT是1993年Spielman提出的一-種基于連鎖不平衡的分析方法,一般用于親代的標記等位基因是雜合型,觀察可能的易感標記等位基因傳遞給患病子代的概率。統(tǒng)計用卡方檢驗比較致病基因在傳遞及不傳遞等位基因中的頻率。設b為父母傳遞相關等位基因A1的例數(shù),c為傳遞無關等位基因A2的例數(shù),則/=S-c)/(b+c);無效假設:3(1-28)=0(其中b為連鎖不平衡常數(shù),。為重組率),拒絕無效假設就意味著兩位點間存在連鎖不平衡且連鎖。一般情況下,當通過病例一對照研究已經(jīng)揭示在人群水平上某標記位點與某性狀(如疾病)間存在某種關聯(lián)性(無論是真實還是虛假的關聯(lián))時,進行傳遞/不平衡檢驗可排除可能的虛假關聯(lián)。傳遞不平衡檢驗TDT方法是假定在一個疾病基因座上有兩個等位基因D1和D2,在標記基因座上有兩個等位基因Ml和M2o假設確定了n個患病的子女,他們分別來自n個不同的家庭。在這n個家庭中,父母將有4n個標記基因,其中2n個傳遞給了下一代,另外2n個沒有傳遞。若標記基因座在疾病基因座的附近,且疾病等位基因源于最近的一次基因突變,那么,與疾病等位基因相關聯(lián)的標記等位基因?qū)⒁愿叩念l率出現(xiàn)在患病的個體中(相對于正常個體而言),這個關聯(lián)的標記等位基因相對于另一個標記等位基因的不平衡傳遞表明了標記基因座和疾病基因座之間存在連鎖與關聯(lián)。與非參數(shù)連鎖分析方法相比,TDT只需家系中有一個患病子代,資料收集相對較容易。另外,在存在連鎖不平衡的前提下,TDT方法比非參數(shù)連鎖分析法(ASP,APM)靈敏度高,對于遺傳效能較弱的位點也能檢測到,而且與上述方法相比,達到同樣的檢驗效能所需的樣本量大大減少。但對于與致病位點緊密連鎖而與標記位點不存在連鎖不平衡的位點(即連鎖平衡),TDT不能提供連鎖證據(jù)。另外,由于這種方法需要有雙親資料,在一些發(fā)病較晚的疾病中雙親多已亡故,故不易獲得標本。因而許多遺傳流行病學家提出許多改進方法,如Curtis提出的以正常同胞對為對照的方法以及Spielman提出的同胞一TDT(sTDT)的方法等。連鎖與關聯(lián)分析方法的比較關聯(lián)分析與連鎖分析有本質(zhì)的區(qū)別,關聯(lián)分析檢測在--個群體中疾病和等位基因的相關性存在與否,連鎖分析檢測在一個家系中等位基因與疾病的傳遞是否相關。前者側(cè)重群體的基因頻率,后者側(cè)重基因的遺傳特性。關聯(lián)分析為非參數(shù)性分析且樣本容易收集,適合于多基因遺傳病的分析。另外,關聯(lián)分析的檢出率較連鎖分析高,檢出距離也較連鎖分析準確。因此,在復雜疾病的分析中,關聯(lián)分析比連鎖分析更為優(yōu)越12支但相關分析也有缺點,其最大的潛在問題是對照組的選擇?;疾〗M與對照組種族及臨床情況若不匹配,尤其是種族組成差異造成的兩組間標記位點等位基因頻率及易感基因頻率的差異,則可導致假陽性結(jié)果,即群體分層問題。解決的措施一是盡可能選擇一個相對同源的群體,如相同地區(qū)、年齡、種族的人群或在一些人口流動性極小、相對比較均一的隔離人群中進行相關分析,二是選擇以受累家系為基礎的內(nèi)在對照組31。本章小結(jié)本章主要介紹了兩類人類疾病基因定位的方法:基于連鎖的分析方法、基于關聯(lián)或連鎖不平衡的分析方法。它們都是建立在染色體重組生物現(xiàn)象基礎之上的,以遺傳標記作為路標,通過標記位點與疾病位點間的重組率來估算兩者間的遺傳距離進而來定位致病基因?;谶B鎖的分析方法中介紹了優(yōu)勢對數(shù)分數(shù)法、患病同胞對法、患病家系成員法;基于關聯(lián)的分析方法中介紹了群體關聯(lián)分析、單倍型相對風險分析、傳遞不平衡檢驗等方法,并分析了各種方法的應用范圍和局限。第3章復雜疾病基因定位與網(wǎng)絡構(gòu)建方法引言復雜性狀疾病具有以下特點:遺傳模式尚未確定、群體遺傳異質(zhì)性強、外顯率低、多基因參與、單一基因作用微弱,同時還受一組環(huán)境因素的作用,另外它還有時還表現(xiàn)為數(shù)量性狀。到目前為止,發(fā)現(xiàn)大約有1300個基因的突變已被證實與疾病有關。然而,我們對復雜疾病的相關基因的識別仍然沒有一致的最有效的分析方法。復雜性狀疾病即多基因疾病,受多個基因相互作用與環(huán)境因素的共同影響,明顯地不符合孟德爾遺傳規(guī)律,缺乏一個固定的模式,無法設置參數(shù)并套用參數(shù)分析公式進行連鎖分析。另外,與孟德爾疾病相比,這些復雜性狀更為常見,使基因突變的機會大大增加,從而影響了基因定位時目的基因的確定,給關聯(lián)分析帶來了困難。而且多基因遺傳病在不同家系中甚至在一個大家系中存在遺傳異質(zhì)性,使這些家系資料無法累加。因此,對多基因疾病進行遺傳分析比較困難。隨著人類基因組項目的完成,特別是以高密度分布于人類基因圖譜上的多態(tài)性標記——單核甘酸多態(tài)性SNP的發(fā)掘應用,多基因遺傳病的研究傾向?qū)⑹谴笠?guī)模的病例一對照研究和數(shù)量結(jié)果分析,這為多基因遺傳病易感基因的定位展示了更為廣闊的前景。在本文中的研究中我們將基因作圖問題看作提取疾病特征標記的模式識別問題,這是一種新的全局分析方法。這種全局分析方法能夠較好地反映多基因互作、多基因和環(huán)境因素共同作用等情況。基于SNP遺傳譜構(gòu)造IBD譜數(shù)據(jù)相關概念這里我們將存在協(xié)同作用的一組SNPs稱為SNP協(xié)作簇。(1)表現(xiàn)型(Phenotype):指可觀察到的個體性狀,例如身高、體重、血型、是否患有某種疾病等均為表現(xiàn)型。(2)基因(Gene):一般指決定某一特定性狀的DNA功能單位,它是一段具有特定結(jié)構(gòu)的連續(xù)的DNA序列。(3)基因座(Locus):每個基因在染色體上都有特定的位置,又稱位點?;蜃袝r亦用來表述染色體上--個可識別的多態(tài)性DNA標記(marker)或DNA片段。(4)等位基因(Allele):指同??基因的不同形式或多態(tài)性DNA標記位點的多態(tài)性DNA片段。等位基因常常用字母或數(shù)字表示,如A,a,B,b,l,2,3。(5)基因型(Genotype):-對同源染色體上的兩個等位基因組成基因型,如AA,Aa,aa0具有相同等位基因的個體稱為純合子(Homozygote),如AA或aa;具有不同等位基因的個體稱為雜合子(Heterozygote),如Aa。(6)等位基因的基因頻率:一個群體中某一等位基因在其位點上可能出現(xiàn)的比率或百分率稱為這個等位基因的基因頻率,P(A)=0.3o,表示在此群體中這個位點上有30%的等位基因為“A”,任何一個位點上所有的等位基因頻率之和為lo(7)基因型頻率:是指在某個群體中攜帶不同基因型的個體所占的比率,如P(Aa)=0.3,指具有基因型Aa的個體在此群體中所占的比率為30%。SNP遺傳譜數(shù)據(jù)如表3-1是帶有家系信息(家系ID、個體ID、父親ID、母親ID)的SNP遺傳譜數(shù)據(jù),包含各種表型性狀的測量值,其中某種性狀可作為疾病狀態(tài)的量度,可將樣本區(qū)分為患病與未患病,從而作為樣本的類別標簽;包含染色體上各SNP標記位點處的基因型數(shù)據(jù),因為SNP具有二態(tài)性,用1代表一種等位基因,2代表另一種等位基因,0代表缺失狀態(tài)。如果直接對這樣的SNP遺傳譜數(shù)據(jù)進行分析,丟失了樣本個體之間的家系信息,并且這樣的數(shù)據(jù)也不便于分析處理,所以在我們的工作中,首先要對SNP遺傳譜數(shù)據(jù)進行預處理將其轉(zhuǎn)換為IBD譜數(shù)據(jù),其所依據(jù)的原理和意義見下節(jié)介紹。IBD數(shù)據(jù)的計算原理在完全外顯且無連鎖時,受累同胞對共享0、1和2個等位基因的概率分別0.25、0.5與0.25。Haseman和Elston1972推導出了在隨機婚配時,不同婚配類型,不同基因型的同胞共享IBD的情況。當父母的基因型未知時,同胞間共享1BD的概率可以結(jié)合人群中不同婚配類型的概率而得到31。表3TSNP遺傳譜數(shù)據(jù)Table3-1ContentofSNPprofilingdata家系信息(pedigree)表型數(shù)據(jù)SNP基因型數(shù)據(jù)PIDIDDADMOMSEXALDX1tsc0565952tsc099207910100100000011000110110001311F31/11/110100100000021000110110001311F31/11/2100201000000300F51/22/210121100000041000036610001491F50/01/210086100000051000003510000537M51/21/2Chakravarti等[27乜987年通過同胞對間的一致性概率”建立了重組率與IBD共享率之間的關系TOC\o"1-5"\h\z-=〃+(1-加 (3-1)對于一個完全外顯的隱性疾病,當父母婚配類型為xOd時;(1-")2女=。Pk=,2y/Q-y/) k =1 (3-2)材2 k =2而對于一個完全外顯的顯性疾病,當父母婚配類型為4/時;任 k =0P*.= i k =l (3-3)k=21978年,Suarez等建立了廣義的1個易感位點,兩個等位基因的模型12叫假定D為某性狀的易感等位基因,且P(D)=p,P(d)=q;基因型DD,Dd與dd的外顯率分別為人,力和/"2°貝1JKp=p2fo+2pqf[+q2f2yA=2pq(p(力一/o)+q(f2-力)> (3-4)%=p2/(/0-2力+%)2K.為人群中此性狀的發(fā)生率,力,力分別指加性方差(由不同等位基因的加性作用所引起的方差)與顯性方差(由基因型中組成等位基因的共同作用所引起的方差)。IBD共享率為TOC\o"1-5"\h\zj__(一——+(2〃一?2-?)% ,_?4 4(K;+:+為2(步2c,、< ;—r- K=1 (3-3)4(K;+孕+知+(*-=)% ,_7十 - t.r K-乙4(K; +孕+知由上可知受累同胞對共享IBD的概率依賴于疾病等位基因頻率,外顯率和真實的重組率。值的大小31。S.A.G.E.遺傳分析系統(tǒng)的功能及應用S.A.GE.是集多功能于一體的醫(yī)學遺傳學群體與家系資料計算機分析系統(tǒng)。傳統(tǒng)統(tǒng)計分析方法及世界通用的軟件(如SAS、SPSS等)在實踐中應用廣泛,但傳統(tǒng)統(tǒng)計方法難以將親緣關系等因素考慮在內(nèi),不能充分利用遺傳信息,不適用于家系資料的分析。S.A.GE.系統(tǒng)針對醫(yī)學遺傳疾病與群體流行病的特點,充分利用疾病的流行與遺傳信息,不斷發(fā)展和完善傳統(tǒng)的統(tǒng)計方法,充實最新的數(shù)量方法,解決實際問題。S.A.GE.具有很強的遺傳流行病學數(shù)據(jù)分析功能,可用于估計疾病發(fā)作年齡的分布(AGEON)、數(shù)量性狀與遺傳標記的關聯(lián)分析(ASSOC)、受累親屬對(兄弟、祖孫、姑(舅)侄/甥(女)等)的連鎖分析(DESPAIR)、家庭相關性分析(FCOR)、性狀與標記之間的LODS連鎖分析(LODLINK)、多位點基因作圖(MAPLOC)、分離分析(SegregationAnalysisPrograms)>親屬對連鎖分析(RELPAL)、同胞對連鎖分析(SIBPAL)、傳遞不平衡性檢測(TDTEX)等刖1。這里我們應用S.A.GE.的SIBPAL工具進行受累同胞對共享IBD概率的計算。IBD譜的構(gòu)造將SNP遺傳譜數(shù)據(jù)轉(zhuǎn)換成IBD譜數(shù)據(jù),融入了家系信息,將親緣關系等因素考慮在內(nèi),可以解決由人群混雜帶來的假陽性;并且將IBD作為SNP的描述指標,將原來的不規(guī)則數(shù)據(jù)轉(zhuǎn)化為實數(shù)型數(shù)據(jù),更便于分析;從表型數(shù)據(jù)中提取出患病狀態(tài)作為類別信息,這樣可以從分類效能的角度來評價SNP組合的重要性。(1)構(gòu)建樣本空間對于一個二值性狀,可以定義一個受累同胞對的表型為:G2=concordantaffected,同胞對中的兩個同胞都患病。=discordant,同胞對中只有一個患病。Gn=concordantunaffected,同胞對中的兩個同胞都未患病。在我們的分析中我們?nèi)コ薲iscordantsibpairs樣本,只考慮G2和G0這兩類互斥的同胞對樣本,這樣我們的樣本集就兩類化了。(2)構(gòu)建特征空間對應于每一個同胞對我們定義一個特征向量X,它包含了這個sib-pair在??條染色體上所有被檢測標記位點處共享IBD概率的信息,這些概率是由S.A.G.E.的SIBPAL功能模塊計算出來的。這個特征向量也可以包含一些臨床指標。但由于在我們的研究中主要關注的是基因突變對疾病易感性的影響,因此沒有考慮臨床性狀的信息。SNP協(xié)作簇提取算法(MPISC)我們希望通過對病例和對照的實際樣本、-定數(shù)量SNPs的檢測(可看作向量X),從而尋找疾病有無或輕重的變量和向量X之間的關系。現(xiàn)有的基于連鎖分析、關聯(lián)分析的研究多是針對X的單個分量展開,忽略了各分量之間的關系。由于復雜疾病的機制涉及多個基因的累加作用,以及某些環(huán)境因子的作用,與這些基因相關的SNPs及其特定組合可能是造成疾病易感性最重要的原因,這里我們把存在協(xié)同作用的SNPs組成的集合稱為協(xié)作簇。因此SNP的組合分析將是對復雜疾病多基因聯(lián)合作用分析的新方法。多個SNP位點協(xié)同作用的內(nèi)在機制比較復雜,比如單倍型(Haplotype)或不同染色體不同基因的SNP共同決定同一表型。我們提出了基于模式特征提取思想的MPISC(MappingPotentialImportantSNPCluster)算法,它能夠從各分量之間的關系入手,研究多個可能致病因素的綜合效果,挖掘出潛在的、重要的、SNP協(xié)作簇(子集),詳細算法介紹見第4章。建立SNP虛擬互作網(wǎng)絡計算SNP與疾病的關聯(lián)度我們提出的MPISC算法可以很快地搜索到較小規(guī)模的較優(yōu)的SNP特征子集,它的最終解一定是搜索過的同等規(guī)模的解中性能最優(yōu)的解,但由于初始群體規(guī)模的有限、遺傳操作的隨機性和人為干涉推動進化的影響,它實際上是在一個很小的局部空間中進行搜索,因此MPISC算法執(zhí)行-?次得到的最終解未必真正具有實際意義,并且由于遺傳異質(zhì)性的存在,很可能實際中就存在多組SNP子集與疾病的易感性有關。因此我們采取RE(RelevancyEvaluate)的方法是:Stepl:執(zhí)行一次MPISC算法得到的個SNP特征子集;Step2:根據(jù)實際問題設置一定的閾值,如果這個特征子集的適應度值超過此閾值,就把它作為潛在的重要的樣本分類器保留下來,重新轉(zhuǎn)到Stepl執(zhí)行,直到得到一定數(shù)量R的SNP子集。Step3:我們引入一個0(/)算法Count來統(tǒng)計單個SNP及SNP的各種組合在上面挖掘到的/?個SNP特征子集中出現(xiàn)的頻數(shù)(frequence),并用出現(xiàn)頻率作為SNP與疾病關聯(lián)度的評價指標,用具有顯著意義的SNP配對作為SNP之間互作關系的依據(jù)。由于每一次執(zhí)行MIPSC算法來搜尋特征子集,都是相當于在原始特征空間的一個局部范圍內(nèi)進行搜索,由于初始化種群的不同,算法是跳躍在不同的局部空間中進行搜索,基于這樣搜索策略,使得搜索的范圍比較廣且很容易跳出局部最優(yōu)。如果把每次搜索的結(jié)果進行累加整合,就可以反映整個特征空間的性質(zhì)。Count算法可以實現(xiàn)在這些挖掘到的子集中尋找規(guī)模大于SMALLEST并且小于LARGEST的所有SNP組合模式出現(xiàn)的頻數(shù)。當SMALLEST=1,LARGEST=2時,就可以得到出現(xiàn)的單個SNP及兩個SNP的配對。Count算法描述如下:輸入:挖掘到的R個SNP子集輸出:SNP的各種組合出現(xiàn)的頻數(shù)Stepl:初始化一個空的arrayG(l...n)Step2:Do(loop)Step2.1:初始化一-個空的arrayP,并設置一個變量c=0Step2.2:fori=1ton-1,forj=i+ltonStep2.2.1:letR=G(i)r\G(j)Step2.2.2:ifSMALLEST<size(R)andR隹PthenP(c)=/?;c=c+1Step2.3:nextj,nextStep2.4:ifsize(P(i))<LARGEST,(i=0,...c)letP(i)eCores;G()<-P();〃=size(G())Step3:While(c<>0)Step4:重新搜索所有子集,計算組合出現(xiàn)的次數(shù)。網(wǎng)絡的結(jié)點和邊這里,我們提出了-一種隨機重排(Permutation)的方法來對SNP及SNP配對的出現(xiàn)頻數(shù)進行顯著性檢驗,確定篩選的閾值,將出現(xiàn)頻數(shù)超過閾值的SNP作為網(wǎng)絡的結(jié)點,出現(xiàn)頻數(shù)顯著的SNP配對之間有邊相連,并將其出現(xiàn)頻數(shù)作為邊的權值。Permutation的具體方法描述如下:Stepl:隨機打亂原樣本集的類別標簽,但保持正例與反例樣本的比例;Step2:對新產(chǎn)生的樣本集執(zhí)行上一節(jié)中介紹的RE操作,并將SNP及SNP配對按其出現(xiàn)頻率進行排序,得到一組SNP與SNP配對的列表。Step3:重復執(zhí)行Stepl—Step2,得到〃次隨機擾動的結(jié)果,由于我們打亂了類標簽,也就是說挖掘到的SNP組合不依賴于原始的樣本類別信息。Step5:對每次隨機擾動的結(jié)果進行顯著性檢驗,取0.01分位數(shù)處的SNP及SNP配對出現(xiàn)的頻數(shù)值,取這〃個頻數(shù)值的平均值作為閾值來篩選具有顯著性意義的SNP及SNP配對。生成SNP虛擬互作網(wǎng)絡基于上一節(jié)的方法篩選出來的具有顯著意義的SNP及其配對生成SNP互作網(wǎng)絡,以SNP為網(wǎng)絡的結(jié)點,并按其在染色體上的位置順序排布,出現(xiàn)在同一配對中的SNP之間有一條半圓弧相連,并以此配對的統(tǒng)計頻數(shù)作為邊的權重。這樣形成的互作網(wǎng)絡即能夠反映SNP之間的互作關系及互作的強弱,又能反映SNP之間的距離對互作的影響。研究表明有些SNP位點本身很可能就是導致疾病的根源,通過在網(wǎng)絡中挖掘那些具有很多邊的SNP結(jié)點作為Hub結(jié)點,可以為找到致病SNP給出一定的指示信息。示意如圖3-1:圖3-1SNP虛擬互作網(wǎng)絡示意圖Figure3-1sketchmapofthedummyinteractionnetworkofSNPs基因作圖與互作網(wǎng)絡構(gòu)建在上面的分析中,我們已經(jīng)可以得到潛在的重要的疾病易感性SNP位點,并簡單的勾畫出這些位點間的互作關系。我們采取如下的策略來定位互作基因。由SNP定位至ljgenedbSNP(SingleNucleotidePolymorphismDatabase)—單核甘酸多態(tài)性數(shù)據(jù)庫,包括SNPs,小范圍的插入/缺失,多態(tài)重復單元,和微衛(wèi)星變異。dbSNP包含種族特異的頻率和基因型數(shù)據(jù),實驗條件,分子上下文,及中性多態(tài)和臨床變異的定位信息。dbSNP內(nèi)核甘酸序列變異的類型和構(gòu)成如下:①單個核甘酸的置換,99.77%;②小片段插入/切除多態(tài),0.21%;③序列不變區(qū),0.02%;④微衛(wèi)星重復,0.001%;⑤命名變異(NamedVariants),<0.001%;(6)特征不明確的雜合子分析(Assay),<0.001%o由于沒有最小等位基因頻率或者功能中性(functionalneutrality)的要求,dbSNP包括疾病引起的臨床性突變和中性的多態(tài)性。除了由提交者和NCBI共同指定的記錄標識符外,dbSNP錄入的信息包括序列多態(tài)性、特定的實驗條件、對攜帶這一變異的人群的描述以及人群或個體的基因頻率等資料。如圖3-2所示dbSNP內(nèi)的SNP(多態(tài)性和臨床變異)資源與NCBI的其他資源是相互聯(lián)系的。NCBI的工作模式是在dbSNP內(nèi)進行變異分類,在GenBank、序列標記位點數(shù)據(jù)庫(dbSTS)、參照序列、基因定位鏈接(LocusLink)或特定基因記錄(UniGenerecords)內(nèi)進行序列的功能描述。對于基因序列變異產(chǎn)生的詳細生化或者表現(xiàn)型的改變NCBI并不直接進行評注。鏈接到外部數(shù)據(jù)庫的dbSNP內(nèi)的每一鏈接都具有特定表型變異的信息軸(Axes)或是連接;相類似的,局部鏈接含有當前基因的序列存取號(Accessions)和命名信息。通過這種方式,dbSNP的記錄能過鏈接到詳細描述個體變異的特定突變數(shù)據(jù)庫。根據(jù)上述設計,讀者可沿五個主要的信息軸在dbSNP內(nèi)查找所需信息:①序列定位;②功能;③物種間的同源性;④SNP的質(zhì)量或者可信性;⑤雜合性程度(人群變異程度)。在本文的研究中我們采取如下策略由SNP定位到gene:Stepl:我們直接在dbSNP中進行搜索得到:算法中挖掘到的SNP可以定位到的基因(這些SNPs可能在gene內(nèi)部或附近),由于dbSNP中的SNP位點都是經(jīng)過鑒定的,它比較準確但相對來說信息量是有限的。Step2:由以上的方法定位到的基因比較少,因此我們應用了另一種策略利用SNP的位置信息:在Gene數(shù)據(jù)庫中包含的所有基因中搜索,如果SNP在染色體上的位置落在某基因內(nèi),那就認為由此SNP可以定位到此基因,但由于Gene數(shù)據(jù)庫中信息還不完備,因此這里的定位結(jié)果只是作為提示信息。

圖3-2SNP數(shù)據(jù)庫與其它數(shù)據(jù)庫的聯(lián)系圖Figure3-2linksbetweendbSNPandotherdatabaseresources圖3-3由SNP定位到gene的示意圖Figure3-3sketchmapoftherelationshipbetweenSNPandgene建立基因間的互作關系基于前面已經(jīng)構(gòu)建起來的SNP虛擬互作網(wǎng)絡,依據(jù)SNP與gene之間的對應關系,我們進一步來建立起基因之間的互作關系,完成對復雜基因互作基因的定位和互作網(wǎng)絡構(gòu)建。其具體方法描述如下:Stepl:把由SNP定位到gene作為網(wǎng)絡節(jié)點;Step2:建立gene之間的聯(lián)系,設與某兩個基因相聯(lián)系的SNP分別為由={S|"2,…,S|,”}和S2={S2I,S22,“”S2,},設包含在SNP虛擬網(wǎng)絡中的所有SNP對的集合為S={(Sj,Sj)ls,與3之間有邊相連},且權值0"=SNP對的統(tǒng)計頻率,如果耳口5,€(5仆52)05,則認為這兩個gene之間也存在某種聯(lián)系,并用一條邊相連,邊的權值為集合(與xS2)nS中包含的所有的SNP對的權值之和,這樣我們就建立起了基因之間的互作關系,并且可以表示互作的強度。本章小結(jié)這一章我們分析了復雜疾病互作多基因定位需要解決的幾個問題:融入家系信息,考慮多基因互作,考慮遺傳異質(zhì)性。并針對以上問題提出了復雜疾病

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論