




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、單位代碼:10226 學(xué)號(hào):2009156007本科畢業(yè)論文題目 基因芯片數(shù)據(jù)薈萃膠質(zhì)瘤預(yù)后分析 所在學(xué)院 生物信息科學(xué)與技術(shù)學(xué)院 專(zhuān)業(yè) 生物技術(shù) 學(xué)生姓名 指導(dǎo)教師 二一四年六月哈爾濱醫(yī)科大學(xué)本科畢業(yè)論文聲明本人鄭重聲明: 所呈交的畢業(yè)論文,是本人在指導(dǎo)教師的指導(dǎo)下進(jìn)行研究工作所取得的成果,實(shí)驗(yàn)數(shù)據(jù)與結(jié)果真實(shí)可靠。除文中已經(jīng)注明引用的內(nèi)容外,本文不含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫(xiě)過(guò)的研究成果。對(duì)本文研究做出重要貢獻(xiàn)的個(gè)人和集體,均已在文中以明確方式標(biāo)明。本聲明的法律結(jié)果由本人承擔(dān)。論文作者簽名: 日 期: 年 月 日哈爾濱醫(yī)科大學(xué)本科畢業(yè)論文版權(quán)使用授權(quán)說(shuō)明本人完全了解學(xué)校關(guān)于收集、保存和
2、使用本科畢業(yè)論文的規(guī)定,即:1、按照學(xué)校要求提交本科畢業(yè)論文的印刷本和電子版本;2、學(xué)校有權(quán)保存本科畢業(yè)論文論文的印刷本和電子版,可以將本論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索,并提供目錄檢索、借閱及查閱服務(wù);3、學(xué)??梢圆捎糜坝?、縮印、數(shù)字化或其它復(fù)制手段保存論文;4、本科畢業(yè)論文研究成果的責(zé)任作者或通訊作者為本人的指導(dǎo)教師,作者署名單位為哈爾濱醫(yī)科大學(xué);5、保密的論文在解密后遵守此規(guī)定。目 錄中文摘要1abstract21、文獻(xiàn)綜述41.1 膠質(zhì)瘤41.2 相關(guān)數(shù)據(jù)庫(kù)簡(jiǎn)介41.2.1 geo數(shù)據(jù)庫(kù)41.2.2 kegg數(shù)據(jù)庫(kù)51.3 臨床預(yù)后簡(jiǎn)介51.3.1 生存分析簡(jiǎn)介61.4 目前
3、國(guó)內(nèi)外研究現(xiàn)狀61.5 課題研究目的及意義62、材料與方法82.1 實(shí)驗(yàn)數(shù)據(jù)82.1.1 獲得膠質(zhì)瘤芯片表達(dá)數(shù)據(jù)82.1.2 膠質(zhì)瘤通路數(shù)據(jù)82.2 實(shí)驗(yàn)方法82.2.1 技術(shù)路線82.2.2 數(shù)據(jù)預(yù)處理92.2.3 多平臺(tái)基因芯片數(shù)據(jù)整合92.2.4 鑒定風(fēng)險(xiǎn)通路102.2.5 生存分析103、結(jié) 果123.1 膠質(zhì)瘤基因芯片整合數(shù)據(jù)123.2 膠質(zhì)瘤的kegg通路圖123.3 meta分析143.4 生存分析144、討 論175、結(jié) 論186、致 謝197、參考文獻(xiàn)20 中文摘要大量的基因組數(shù)據(jù)特別是微陣列數(shù)據(jù)都可以通過(guò)各種網(wǎng)絡(luò)資源獲得,例如從the gene expression omn
4、ibus (geo)中獲得?,F(xiàn)存的這些基因表達(dá)數(shù)據(jù)庫(kù)的數(shù)據(jù)庫(kù)接口,表達(dá)數(shù)據(jù)存儲(chǔ)方式和臨床meta數(shù)據(jù)注釋等方面在格式上都存在不相容的問(wèn)題,而且從不同的數(shù)據(jù)庫(kù)得到的數(shù)據(jù)的注釋也會(huì)有不一致的情況。這些缺陷導(dǎo)致尋找疾病預(yù)后基因時(shí)存在很大的困難。原發(fā)性腦腫瘤中預(yù)后效果最差的就是腦膠質(zhì)瘤,其預(yù)后與生物學(xué)特征、生長(zhǎng)發(fā)生部位、手術(shù)方式等醫(yī)療手段有關(guān),因?yàn)槟z質(zhì)瘤具有浸潤(rùn)生長(zhǎng)的特征,對(duì)神經(jīng)組織破壞較大,手術(shù)難以完全切除,絕大多數(shù)膠質(zhì)瘤在手術(shù)和放化療后復(fù)發(fā)概率仍較大。膠質(zhì)瘤分為4個(gè)等級(jí):i、ii、iii、iv。低等級(jí)的膠質(zhì)瘤是高度分化的,患者也往往具有比較良好的預(yù)后效果;高等級(jí)的膠質(zhì)瘤則預(yù)后效果較差?;诖?,利用
5、經(jīng)過(guò)整合了的膠質(zhì)瘤的基因芯片表達(dá)數(shù)據(jù)作meta分析,這些數(shù)據(jù)都以統(tǒng)一的標(biāo)準(zhǔn)化來(lái)處理,并被映射到了hgnc的gene symbol上;繼而利用r軟件來(lái)進(jìn)行meta分析;最后利用cox比例風(fēng)險(xiǎn)回歸模型來(lái)尋找疾病預(yù)后的biomarker。本研究的一個(gè)重要的應(yīng)用就是利用多個(gè)獨(dú)立的研究來(lái)檢驗(yàn)之前作為假設(shè)提出的膠質(zhì)瘤的預(yù)后基因,利用meta分析能對(duì)同一個(gè)課題的多項(xiàng)研究結(jié)果的一致性進(jìn)行歸納概括,對(duì)同一課題的多項(xiàng)研究結(jié)果作系統(tǒng)性評(píng)價(jià)和總結(jié),meta分析能夠提高統(tǒng)計(jì)效能和效應(yīng)值估計(jì)的精確度。關(guān)鍵詞:生存分析;生物標(biāo)記;meta分析;預(yù)后;膠質(zhì)瘤meta-analysis and survival analysi
6、s of the gene expression of gliomaabstracta wealth of genomic data, in particular microarray data, is publicly available through diverse online resources. major database of gene chip expression data, e.g. array express and the gene expression omnibus (geo).however, inconsistent formatting among data
7、base interfaces, expression data storage and clinical meta-data annotations present formidable obstacles to making efficient use of these resources. the database provides machine-rather than manually annotated data, resulting in reduced consistency of annotation across studies. these defects may cau
8、se great problems when we are searching for the disease biomarker. glioma is a primary brain tumor which has the worst prognosis of tumor, its prognosis is related with biological characteristics, growth related parts, operation mode and many other treatment measures, because of glioma with infiltra
9、tive growth characteristics, damaging the nervous system , difficult to complete excision operation, the vast majority of glioma after operation and chemotherapy will probably recur . glioma is divided into 4 grades: i, ii, iii, iv. low grade gliomas are highly differentiated, sufferers often have a
10、 relatively well prognosis; high grade gliomas usually have poor prognosis. based on that, i utilize 7 sets of data of the expression of the glioma gene chip to do meta-analysis. and gene expression data were collected from public databases and author websites, processed in a consistent manner and m
11、apped uniformly to official human gene nomenclature committee (hgnc) gene symbols. and then we execute the meta analysis using r software. finally, using cox proportional hazards regression model to the prognosis of the disease biomarker.an important application of my research is the use of multiple
12、 independent study to test the hypothesis before as glioma prognosis of biomarker, analysis of consistency can result a number of studies on the same topic was evaluated using meta, the results of several studies on the same topic for system evaluation and summary, meta analysis statistical efficien
13、cy and effect value estimation accuracy.key words: survival analysis; biomarker; meta-analysis; prognosis; glioma1、文獻(xiàn)綜述1.1 膠質(zhì)瘤膠質(zhì)瘤(glioma)是發(fā)生發(fā)展于神經(jīng)外胚層的腫瘤,故又稱(chēng)神經(jīng)上皮腫瘤。大多數(shù)腫瘤起源于不同類(lèi)型的神經(jīng)膠質(zhì),但按照組織發(fā)生學(xué)來(lái)源及生物學(xué)特性的相似,對(duì)發(fā)生于神經(jīng)外胚層的各種腫瘤,一般都稱(chēng)為神經(jīng)膠質(zhì)瘤。病因多是因?yàn)轶@嚇或大怒,或衰哭煩悶,使氣血運(yùn)行受阻,抵抗力下降,病邪借此乘虛而入,發(fā)為癌瘤。癥狀主要有兩方面的表現(xiàn):一是顱內(nèi)壓增高以及一些其它癥狀,
14、如視力減退、復(fù)視、頭痛、嘔吐、癲癇發(fā)作和精神癥狀等。另一是腦組織受腫瘤的壓迫、浸潤(rùn)、破壞所產(chǎn)生的局部癥狀,造成神經(jīng)功能缺失。 1.2 相關(guān)數(shù)據(jù)庫(kù)簡(jiǎn)介 1.2.1 geo數(shù)據(jù)庫(kù) geo (gene expression omnibus)數(shù)據(jù)庫(kù)ncbi(national center for biotechnology information)旗下的旨在支持基因表達(dá)數(shù)據(jù)公共使用和散布來(lái)自microarray,雜交膜(hybridization membrane),高密度的寡核苷酸微陣列(had)以及sage等很多其它類(lèi)型的基因表達(dá)數(shù)據(jù)都被納入,登記和存檔。geo數(shù)據(jù)庫(kù)是高通量的基因表達(dá)數(shù)據(jù)庫(kù),數(shù)據(jù)
15、庫(kù)里面包含高通量實(shí)驗(yàn)數(shù)據(jù)的各種分類(lèi),有以單,雙通道微陣列為基礎(chǔ),對(duì)mrna豐度的進(jìn)行測(cè)定;蛋白質(zhì)分子和基因組dna的實(shí)驗(yàn)數(shù)據(jù),迄今為止,geo數(shù)據(jù)庫(kù)包括的數(shù)據(jù)已經(jīng)涵蓋了10000個(gè)來(lái)自雜交實(shí)驗(yàn)以及30多種不同生物個(gè)體的sage庫(kù)。 geo數(shù)據(jù)庫(kù)包含四個(gè)基本實(shí)體:提交者(submitter),平臺(tái)(platform),系列(series)和樣本(sample),這四個(gè)實(shí)體都可以保存到獨(dú)立的相關(guān)數(shù)據(jù)庫(kù)中,獲得號(hào)前三個(gè)字母分別為“gpl”gsm”gse”。這三個(gè)都是靠提交者維護(hù)的;另外geo數(shù)據(jù)庫(kù)尚有一個(gè)作為輔助的數(shù)據(jù)分析工具,他能夠把提交者所提交的樣本綜合整理到geo數(shù)據(jù)集組(geo datase
16、ts,縮寫(xiě)為gds),gds數(shù)據(jù)是由geo自身維護(hù)的,gds數(shù)據(jù)比gse數(shù)據(jù)更標(biāo)準(zhǔn),并且數(shù)據(jù)具有生物學(xué)意義且在統(tǒng)計(jì)學(xué)上能夠相互比較。 1.2.2 kegg數(shù)據(jù)庫(kù) kegg(kyoto encyclopedia of genes and genomes)是一個(gè)人工收集的關(guān)于基因組(genomes)、生物通路(biological pathways)、疾?。╠iseases)、藥物(drugs)和化學(xué)物質(zhì)( chemical substance)的數(shù)據(jù)庫(kù)。 kegg一般用于生物信息學(xué)研究和教育用途。kegg項(xiàng)目啟動(dòng)于 2005年,當(dāng)時(shí)在人類(lèi)基因組計(jì)劃中工作的日本京都大學(xué)化工研究所(institut
17、e for chemical research, kyoto university)的minoru kanehisa教授意識(shí)到現(xiàn)在需要一種能夠幫助人類(lèi)解釋基因組序列數(shù)據(jù)的計(jì)算機(jī)資源,于是他就開(kāi)始和設(shè)計(jì)了kegg通路數(shù)據(jù)庫(kù),當(dāng)時(shí)的 kegg還只能夠?yàn)榧?xì)胞和生物體的代謝繪制包含分子互作和分子之間的化學(xué)反應(yīng)的通路圖,設(shè)計(jì)的初衷是將一個(gè)通路內(nèi)的基因和基因產(chǎn)物(主要是蛋白質(zhì))連接起來(lái)。但是卻直接產(chǎn)生了一種叫做 kegg pathway mapping的分析,這類(lèi)分析通過(guò)對(duì)比基因的序列與 kegg pathway數(shù)據(jù)庫(kù)做比較來(lái)注釋該段序列的功用。用 kegg數(shù)據(jù)庫(kù)的開(kāi)發(fā)者來(lái)說(shuō)“ kegg是計(jì)算機(jī)化的生物系
18、統(tǒng)”,它能將圖和塊一起來(lái)構(gòu)成一個(gè)生物系統(tǒng)。具體的說(shuō)遺傳學(xué)上的塊是基因和蛋白質(zhì),化學(xué)的塊是小分子,至于圖則是這些塊之間的互作形成的網(wǎng)絡(luò)。這種觀念直到現(xiàn)在也在影響 kegg所有的數(shù)據(jù)庫(kù):系統(tǒng)、基因組、化學(xué)和健康信息。1.3 臨床預(yù)后簡(jiǎn)介預(yù)后是指憑據(jù)經(jīng)驗(yàn)預(yù)測(cè)出疾病的可能病程和最終結(jié)局。它既包含判斷疾病的某種特定結(jié)果(例如病愈,復(fù)發(fā)以及死亡等),也包含了時(shí)間因素(例如預(yù)測(cè)特定時(shí)間內(nèi)的出現(xiàn)某種結(jié)局的可能性的大小等)。1.3.1 生存分析簡(jiǎn)介生存分析是將事件的結(jié)果以及出現(xiàn)該結(jié)果所要經(jīng)歷的時(shí)間聯(lián)合起來(lái)分析的一種統(tǒng)計(jì)分析方法。由于生存分析方法可以分析包括截尾數(shù)據(jù)的事件,因此更充分的利用了信息。cox 比例風(fēng)險(xiǎn)
19、回歸分析是生存分析中的一種半?yún)?shù)分析方法,同時(shí)也是一種多因素分析方法,它可以同時(shí)分析多個(gè)獨(dú)立因素對(duì)生存時(shí)間的影響。 1.4 目前國(guó)內(nèi)外研究現(xiàn)狀利用常規(guī)的治療方法來(lái)治療惡性膠質(zhì)瘤的效果還比較差,而近幾年在膠質(zhì)瘤的基因治療方面研究獲得了一定進(jìn)展,當(dāng)今膠質(zhì)瘤基因治療的分子手段主要包含調(diào)節(jié)細(xì)胞周期法 louis d, ohgaki h, wiestler o, cavenee w (2007) who classification of tumours of the central nervous system. iarc, lyon、自殺基因療法 lin y, jiang t, zhou k, xu
20、 l, chen b, li g, qiu x, jiang t, zhang w, song sw (2009) plasma igfbp-2 levels predict clinical outcomes of patients with high-grade gliomas. neuro oncol 11:476、免疫基因療法、抗血管生成的治療法、pkr途徑等,基因轉(zhuǎn)運(yùn)體系包含逆轉(zhuǎn)錄病毒 jung cs, foerch c, schanzer a, heck a, plate kh, seifert v, steinmetz h, raabe a, sitzer m (2007) se
21、rum gfap is a diagnostic marker for glioblastoma multiforme. brain 130:33363341、腺病毒、腺相關(guān)病毒等病毒載體,對(duì)病毒的改造則主要是通過(guò)增加載體的靶向性和可控性 quan n, herkenham m (2002) connecting cytokines and brain: a review of current issues. histol histopathol 17:273288,此外還有一種新型載體是溶瘤病毒和非病毒載體 muller l, pawelec g (2003) cytokines and a
22、ntitumor immunity. technol cancer res treat 2:183194,而目前治療效果最好的是結(jié)合基因治療與傳統(tǒng)化療、放療。隨著基因組測(cè)序數(shù)據(jù)的快速增長(zhǎng),產(chǎn)生了大量的生物數(shù)據(jù),同時(shí)這些數(shù)據(jù)也隱藏了很多的生物學(xué)知識(shí),利用生物信息學(xué)可以對(duì)這些數(shù)據(jù)進(jìn)行分析,處理等,可以挖開(kāi)這些生物數(shù)據(jù)的內(nèi)涵,進(jìn)而指導(dǎo)臨床對(duì)膠質(zhì)瘤的治療,預(yù)后。1.5 課題研究目的及意義隨著大量的高通量表達(dá)數(shù)據(jù)的迅猛發(fā)展,出現(xiàn)了越來(lái)越多的基因表達(dá)數(shù)據(jù)庫(kù),我們應(yīng)該充分利用這些數(shù)據(jù)來(lái)挖掘出隱藏在里面的信息。我查閱了大量的文獻(xiàn)并在geo和arrayexpress上下載了大量的數(shù)據(jù),剔除不符合研究條件的數(shù)據(jù),
23、共保留了7套膠質(zhì)瘤的芯片數(shù)據(jù) zeh hj, winikoff s, landsittel dp, gorelik e, marrangoni am, velikokhatnaya l, winans mt, lee k, moser a, bartlett d, lotze mt, siegfried jm, whitcomb d, papacristou g, slivka a, bigbee wl, lokshin ae (2005) multianalyte profiling of serum cytokines for detection of pancreatic cancer.
24、 cancer biomark 1:259269。通過(guò)利用meta分析來(lái)對(duì)這些獨(dú)立研究的結(jié)果進(jìn)行匯總綜合,并把基因芯片表達(dá)數(shù)據(jù)同生物通路結(jié)合起來(lái),來(lái)查找膠質(zhì)瘤的風(fēng)險(xiǎn)通路,并使用單變量的cox比例風(fēng)險(xiǎn)回歸分析根據(jù)膠質(zhì)瘤病人的生存信息來(lái)尋找膠質(zhì)瘤的預(yù)后基因,進(jìn)而提高預(yù)后準(zhǔn)確率,可以為臨床上提供一個(gè)指導(dǎo)意見(jiàn),輔助膠質(zhì)瘤臨床診斷與治療。 2、材料與方法2.1 實(shí)驗(yàn)數(shù)據(jù)2.1.1 獲得膠質(zhì)瘤芯片表達(dá)數(shù)據(jù)本課題以膠質(zhì)瘤為研究對(duì)象。檢索時(shí)間截至2013年11月。數(shù)據(jù)主要來(lái)自于基因表達(dá)公共數(shù)據(jù)庫(kù):geo。檢索策略是在pubmed和geo等數(shù)據(jù)庫(kù)檢索符合納入標(biāo)準(zhǔn)的相關(guān)研究文獻(xiàn)和數(shù)據(jù),所用的關(guān)鍵詞是“glioma
25、”and“microarray”“survival”,并經(jīng)過(guò)手工檢索,剔除了不包含生存時(shí)間的數(shù)據(jù),以及沒(méi)有截尾狀態(tài)的數(shù)據(jù)經(jīng)刪選后一共保留了7套數(shù)據(jù),gse編號(hào)分別是gse427-gpl96 sica d, rayman p, stanley j, edinger m, tubbs rr, klein e, bukowski r, finke jh (1993) interleukin 7 enhances the proliferation and effector function of tumor-infiltrating lymphocytes from renal-cell carci
26、noma. int j cancer 53:941947,gse4271-gpl97 narazaki m, yasukawa k, saito t, ohsugi y, fukui h, koishihara y, yancopoulos gd, taga t, kishimoto t (1993) soluble forms of the interleukin-6 signal-transducing receptor component gp130 in human serum possessing a potential to inhibit signals through memb
27、rane-anchored gp130. blood 82:11201126,gse4412-gpl96 weiergraber o, hemmann u, kuster a, muller-newen g, schneider j, rose-john s, kurschat p, brakenhoff jp, hart mh, stabel s et al (1995) soluble human interleukin-6 receptor. expression in insect cells, purification and characterization. eurj bioch
28、em 234:661669.,gse4412-gpl97 narazaki m, yasukawa k, saito t, ohsugi y, fukui h, koishihara y, yancopoulos gd, taga t, kishimoto t (1993) soluble forms of the interleukin-6 signal-transducing receptor component gp130 in human serum possessing a potential to inhibit signals through membrane-anchored
29、gp130. blood 82:11201126,gse43114 rabe b, chalaris a, may u, waetzig gh, seegert d, williams as, jones sa, rose-john s, scheller j (2008) transgenic blockade of interleukin 6 transsignaling abrogates inflammation. blood 111:10211028,gse43115 schmitz j, owyang a, oldham e, song y, murphy e, mcclanaha
30、n tk, zurawski g, moshrefi m, qin j, li x, gorman dm, bazan jf, kastelein ra (2005) il-33, an interleukin-1-like cytokine that signals via the il-1 receptor-related protein st2,gse43116 ohgaki h, dessen p, jourde b, horstmann s, nishikawa t, di patre pl, burkhard c, schuler d, probst-hensch nm, maio
31、rka pc, et al: genetic pathways to glioblastoma: a population-based study. cancer res 2004, 64:68926899.,gse43353 verhaak rg, hoadley ka, purdom e, wang v, qi y, wilkerson md, miller cr,ding l, golub t, mesirov jp, et al: integrated genomic analysis identifies clinically relevant subtypes of gliobla
32、stoma characterized by abnormalities in pdgfra, idh1, egfr, and nf1. cancer cell 2010, 17:98110.,gse43388-gpl570 ketolainen jm, alarmo el, tuominen vj, kallioniemi a: parallel inhibition of cell growth and induction of cell migration and invasion in breast cancer cells by bone morphogenetic protein
33、4. breast cancer res treat 2010, 124:377386.和gse43388-gpl14951 zhou z, sun l, wang y, wu z, geng j, miu w, pu y, you y, yang z, liu n:bone morphogenetic protein 4 inhibits cell proliferation and inducesapoptosis in glioma stem cells. cancer biother radiopharm 2011, 26:7783.;每一套數(shù)據(jù)里面都包含生存時(shí)間。樣本量足夠大可以使實(shí)
34、驗(yàn)結(jié)果更具有統(tǒng)計(jì)學(xué)意義。2.1.2 膠質(zhì)瘤通路數(shù)據(jù)從kegg(kyoto encyclopedia of genes and genomes)數(shù)據(jù)庫(kù)可以查看到膠質(zhì)母細(xì)胞瘤(glioma)的通路信息,檢索時(shí)輸入glioma和survival,可以看到我們想要的最符合我們要求的一個(gè)通路map05214。為了獲得通路上的基因,使用了一個(gè)名為org.hs.eg.db liu b, tian d, yi w, wu l, cai q, dong h, shen h, ji b, wang l, zhang s,et al: effect of bone morphogenetic protein 4 i
35、n the human brain glioma cell line u251. cell biochem biophys 2010, 58:9196.的r包,使用org.hs.eg.db這個(gè)r包可以提取出map05214這個(gè)通路上的基因。2.2 實(shí)驗(yàn)方法2.2.1 技術(shù)路線我們采用篩選出來(lái)的7套芯片數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,并利用geo數(shù)據(jù)庫(kù)找到了芯片數(shù)據(jù)上探針id對(duì)應(yīng)的基因symbol,進(jìn)而得到基因和樣本的對(duì)應(yīng)關(guān)系。然后利用編寫(xiě)的r程序取這7套芯片數(shù)據(jù)中共有的基因symbol,一共提取出4275個(gè)共有基因。最終得到的7個(gè)文件,其中每個(gè)文件的每一行是一個(gè)基因,每一列是一個(gè)樣本,矩陣數(shù)值表示該基因在
36、該樣本中的表達(dá)值;然后提取出表達(dá)數(shù)據(jù)中的生存時(shí)間(survival time)的數(shù)據(jù)和截尾狀態(tài)(censor status)的數(shù)據(jù),進(jìn)而利用生存分析方法中的半?yún)?shù)方法cox比例風(fēng)險(xiǎn)回歸分析來(lái)對(duì)生存數(shù)據(jù)和表達(dá)數(shù)據(jù)做生存分析,此步分別做了全套數(shù)據(jù)的生存分析和樣本量充分的單套數(shù)據(jù)的生存分析。2.2.2 數(shù)據(jù)預(yù)處理下載的基因芯片表達(dá)數(shù)據(jù)里面行是探針id,列是樣本的gsm編號(hào),我們要根據(jù)geo數(shù)據(jù)庫(kù)里面的平臺(tái)注釋信息將探針id對(duì)應(yīng)的gene symbol找到,并進(jìn)而得到行是gene symbol,列是樣本gsm編號(hào)的文件。發(fā)現(xiàn)文件里的表達(dá)值差別很大,小的數(shù)值是幾十,大的達(dá)到了上萬(wàn),所以又對(duì)數(shù)據(jù)取了以2為
37、底的對(duì)數(shù)轉(zhuǎn)換,轉(zhuǎn)換后發(fā)現(xiàn)表達(dá)值沒(méi)有那么大的差別了,但是發(fā)現(xiàn)有重復(fù)探針集并進(jìn)而按照取平均值進(jìn)行合并。2.2.3 多平臺(tái)基因芯片數(shù)據(jù)整合 要做meta分析,首先我們做的是膠質(zhì)瘤的生存時(shí)間的meta分析,r里面有一個(gè)r包可以完成這個(gè)工作,這個(gè)r包就是rankprod。rankprod這個(gè)r包可以做affymetrix芯片和cdna芯片的差異表達(dá)基因的鑒別;此外這個(gè)包里一個(gè)高級(jí)用處就是可以用來(lái)檢驗(yàn)經(jīng)過(guò)藥物治療后上調(diào)和下調(diào)表達(dá)的基因。rankprod這個(gè)r包吸引人的一點(diǎn)就是他可以把從不同來(lái)源獲得到的數(shù)據(jù)集整合到一個(gè)分析中去,這樣可以提高統(tǒng)計(jì)檢驗(yàn)的效能(power),這一點(diǎn)正是符合meta分析的思想。首先
38、安裝rankprod這個(gè)包,在r中分別輸入source(/bioclite.r和bioclite(rankprod);然后加載rankprod包library(rankprod),這樣就可以使用rankprod這個(gè)包里的函數(shù)了。我的數(shù)據(jù)是一個(gè)類(lèi)別(one class data)的數(shù)據(jù),建立一個(gè)長(zhǎng)度為n的向量,這里的n代表的是樣本的個(gè)數(shù),由于數(shù)據(jù)是一個(gè)類(lèi)別的所以向量里面存放的是n個(gè)1;而且數(shù)據(jù)是來(lái)自不同的實(shí)驗(yàn)的也就是多個(gè)來(lái)源(multiple origins)的,建立一個(gè)origin向量,向量里面的元素值是從1取到l,其中l(wèi)是數(shù)據(jù)來(lái)源的數(shù)目,由于我們的
39、是7套數(shù)據(jù),所以這里l等于7。利用rankprod這個(gè)包對(duì)膠質(zhì)瘤數(shù)據(jù)做meta分析時(shí),主要用到了2個(gè)函數(shù)rpadvance()和topgene()。2.2.4 鑒定風(fēng)險(xiǎn)通路通過(guò)kegg數(shù)據(jù)庫(kù)輸入關(guān)鍵詞glioma和survival得到符合要求的map05214這個(gè)通路,通過(guò)r里面的org.hs.eg.db這個(gè)包提取出通路上的基因和meta分析分析出來(lái)的上下調(diào)基因,我們可以找到風(fēng)險(xiǎn)通路,可以進(jìn)一步cox比例風(fēng)險(xiǎn)回歸分析。 2.2.5 生存分析為了從我提取到的4275個(gè)基因中挖掘預(yù)后基因,我們采用了cox比例風(fēng)險(xiǎn)回歸模型 fernandez-rozadilla c, palles c, carva
40、jal-carmona l, peterlongo p, nici c,veneroni s, pinheiro m, teixeira mr, moreno v, lamas mj, et al: bmp2/bmp4 colorectal cancer susceptibility loci in northern and southern european populations. carcinogenesis 2013, 34:3148.。每個(gè)基因作為一個(gè)協(xié)變量,每個(gè)樣本的生存時(shí)間作為因變量,所以一共有4275個(gè)協(xié)變量。對(duì)所有協(xié)變量做4275元的cox比例風(fēng)險(xiǎn)回歸分析,每個(gè)協(xié)變量得到一個(gè)
41、概率值,這個(gè)概率值表示該協(xié)變量對(duì)樣本生存時(shí)間的影響是否顯著,取閾值為0.0001(如果閾值取0.01或0.001則挖掘出來(lái)的預(yù)后基因過(guò)多,沒(méi)有起到很好的篩選作用),其值小于該閾值的被認(rèn)為是預(yù)后基因,大于該閾值的被認(rèn)為是對(duì)生存時(shí)間的影響是統(tǒng)計(jì)學(xué)不顯著的。為了對(duì)每個(gè)樣本給予一個(gè)打分值,該分值代表該樣本的風(fēng)險(xiǎn)值或風(fēng)險(xiǎn)得分(risk score),構(gòu)建一個(gè)預(yù)后模型,利用該模型對(duì)篩選出來(lái)的預(yù)后基因的表達(dá)進(jìn)行加權(quán)求和,并將求出來(lái)的結(jié)果作為每個(gè)樣本的風(fēng)險(xiǎn)得分,風(fēng)險(xiǎn)得分值則是通過(guò)cox比例風(fēng)險(xiǎn)回歸分析得到的(對(duì)上一步篩選出來(lái)的預(yù)后基因做cox比例風(fēng)險(xiǎn)回歸分析可以得到回歸系數(shù),利用回歸系數(shù)對(duì)表達(dá)值來(lái)加權(quán))獲取每
42、個(gè)樣本的風(fēng)險(xiǎn)得分值(risk score)之后,欲進(jìn)行生存分析還需將之前得到的樣本的連續(xù)的樣本風(fēng)險(xiǎn)得分離散化(這里根據(jù)樣本風(fēng)險(xiǎn)得分的大小進(jìn)行了二分類(lèi)化)。綜合考慮設(shè)定一個(gè)得分閾值,大于該閾值的樣本類(lèi)別記為高風(fēng)險(xiǎn)得分樣本(high risk score),而小于該閾值的樣本類(lèi)別記為低風(fēng)險(xiǎn)得分樣本(low risk score)為了確定這個(gè)閾值,我們采用時(shí)間依賴(lài)的受試者工作特征曲線(time-dependent receiver operating characteristic(roc)curve) gravendeel la, kouwenhoven mc, gevaert o, de rooi
43、 jj, stubbs ap, duijm je, daemen a, bleeker fe, bralten lb, kloosterhof nk, et al: intrinsic gene expression profiles of gliomas are a better predictor of survival than histology. cancer res 2009, 69:90659072.來(lái)得到樣本類(lèi)別最適的二分類(lèi)閾值,可以通過(guò)survivalroc這個(gè)r軟件包來(lái)進(jìn)行此步驟。并進(jìn)而可以利用乘積極限法來(lái)估計(jì)存活率,使用kaplan-meier來(lái)估計(jì)和繪制生存曲線,利用l
44、og rank檢驗(yàn)來(lái)比較多組生存曲線的差別。生存分析這一步共利用不同的數(shù)據(jù)做了兩次生存分析:第一次是整套數(shù)據(jù)的生存分析;第二次是第一套大樣本數(shù)據(jù)(合并表1中g(shù)se4271的兩個(gè)不同平臺(tái)的樣本)做生存分析。 3、結(jié) 果 3.1 膠質(zhì)瘤基因芯片整合數(shù)據(jù)主要通過(guò)geo這個(gè)數(shù)據(jù)庫(kù)獲得膠質(zhì)瘤芯片數(shù)據(jù)和生存數(shù)據(jù),檢索日期截止2013年11月,經(jīng)過(guò)手動(dòng)的篩選排除了不符合要求的數(shù)據(jù)一共得到了7套膠質(zhì)瘤生存時(shí)間的數(shù)據(jù),表1 表1.已獲得帶有生存數(shù)據(jù)的數(shù)據(jù)集列表 table 1picked data sets have survival data、data setplatformsamplesgse4271.gp
45、l96hg-u133a100gse4271.gpl97hg-u133b100gse4412.gpl96hg-u133a85gse4412.gpl97hg-u133b85gse43114hg-u133_plus_26gse43115hg-u133_plus_27gse43116hg-u133_plus_22gse43353illumina2gse43388.gpl570hg-u133_plus_215gse43388.gpl14951illumina2 3.2 膠質(zhì)瘤的kegg通路圖在kegg數(shù)據(jù)庫(kù)的kegg pathway中得到可以得到膠質(zhì)瘤相關(guān)基因的通路,圖1 圖1膠質(zhì)瘤的kegg通路 fi
46、gure 1 the kegg pathway of glioma 表2 通路上的基因 table 2 the genes in the pathway表2中列出來(lái)的是利用org.hs.eg.db這個(gè)r包從kegg pathway這個(gè)數(shù)據(jù)庫(kù)的map05214通路上提取出來(lái)的基因的entrez id3.3 meta分析利用r里面的rankprod soroceanu l, murase r, limbad c, singer el, allison j, et al. (2012) id-1 is akey transcriptional regulator of glioblastoma ag
47、gressiveness and a novel therapeutic target. cancer res.包對(duì)之前獲得的關(guān)于膠質(zhì)母細(xì)胞瘤芯片表達(dá)數(shù)據(jù)通過(guò)meta分析進(jìn)行整合,共獲得4275個(gè)基因,如圖2 圖2 整合的基因(圖中只是一部分) figure 2 integrated genes(partly not all)通過(guò)編寫(xiě)r程序整合了多套表達(dá)數(shù)據(jù)里的基因,增加結(jié)果的可信度,使結(jié)果更具說(shuō)服力。3.4 生存分析將從geo獲得7套膠質(zhì)瘤相關(guān)的4275個(gè)基因合并到一起通過(guò)cox比例風(fēng)險(xiǎn)回歸分析(p0.0001)得到了70個(gè)基因作為預(yù)后基因,利用這70個(gè)預(yù)后基因做多元cox比例風(fēng)險(xiǎn)回歸分析可
48、以得到每個(gè)基因的權(quán)值,通過(guò)權(quán)值和基因在樣本中的表達(dá)值可以得到每個(gè)樣本的風(fēng)險(xiǎn)得分。利用survivalroc這個(gè)包里面的生存時(shí)間依賴(lài)的受試者工作特征曲線分析來(lái)得到最佳的二分類(lèi)閾值(optimal cutoff)。我的optimal cutoff=3.35,大于該閾值的記為高風(fēng)險(xiǎn)得分樣本,小于該閾值的記為低風(fēng)險(xiǎn)得分樣本。這樣,358個(gè)樣本就分為125個(gè)低風(fēng)險(xiǎn)得分的樣本和233個(gè)高風(fēng)險(xiǎn)得分樣本。進(jìn)行l(wèi)og-rank檢驗(yàn)得到的p值 1.91e-10,說(shuō)明兩組曲線差異非常顯著,結(jié)果具有統(tǒng)計(jì)學(xué)意義,圖2:圖3 整套樣本的生存曲線 figure 3 survival curves of all sets s
49、amples接下來(lái)為了證明利用整套數(shù)據(jù)做的生存分析的效果,我們又單獨(dú)做了gse4271數(shù)據(jù)的生存分析曲線,見(jiàn)圖4:圖4 gse4271樣本的生存曲線 figure 4 survival curve of gse4271圖4是通過(guò)整合gse4271的兩個(gè)不同平臺(tái)的數(shù)據(jù)得出來(lái)的生存曲線圖,由圖中可以看到gse4271兩個(gè)不同平臺(tái)的數(shù)據(jù)整合后低風(fēng)險(xiǎn)樣本有104個(gè),高風(fēng)險(xiǎn)樣本有50個(gè),低風(fēng)險(xiǎn)樣本的平均生存時(shí)間顯著的高于高風(fēng)險(xiǎn)樣本的生存時(shí)間。4、討 論本研究中,我們從geo數(shù)據(jù)庫(kù)獲得的4275個(gè)基因經(jīng)過(guò)cox比例風(fēng)險(xiǎn)回歸分析后篩選出了70個(gè)預(yù)后基因。由4275個(gè)基因降到70個(gè)預(yù)后基因,不僅降低了研究的復(fù)雜程度而且也保留了大部分的重要的信息。隨著大量的高通量表達(dá)數(shù)據(jù)的迅猛發(fā)展,出現(xiàn)了越來(lái)越多的基因表達(dá)數(shù)據(jù)庫(kù),我們應(yīng)該充分利用這些數(shù)據(jù)來(lái)挖掘出隱藏在里面的信息。近年來(lái)對(duì)meta分析的研究越來(lái)越多,其結(jié)果也并不統(tǒng)一,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年5G網(wǎng)絡(luò)優(yōu)化工程師理論考試復(fù)習(xí)題庫(kù)(含答案)
- 工會(huì)換屆工作總結(jié)
- 七下語(yǔ)文知識(shí)點(diǎn)一單元
- 2024-2025學(xué)年下學(xué)期高三英語(yǔ)人教版同步經(jīng)典題精練之語(yǔ)法填空
- 八省部分重點(diǎn)中學(xué)2025屆高三下學(xué)期3月聯(lián)合測(cè)評(píng)(T8聯(lián)考)數(shù)學(xué)試題
- 幼兒園獲獎(jiǎng)公開(kāi)課:小班體育活動(dòng)《螞蟻爬》課件
- 企業(yè)組長(zhǎng)培訓(xùn)心得
- 語(yǔ)文-北京市朝陽(yáng)區(qū)2025年高三年級(jí)第二學(xué)期質(zhì)量檢測(cè)一(朝陽(yáng)一模)試題和答案
- 地月通信中繼設(shè)備安裝工程2025深空網(wǎng)絡(luò)接入條款
- 聲譽(yù)風(fēng)險(xiǎn)培訓(xùn)
- 《人工智能技術(shù)在人力資源管理中的應(yīng)用研究文獻(xiàn)綜述【3800字】》
- FZ/T 20021-2012織物經(jīng)汽蒸后尺寸變化試驗(yàn)方法
- 主動(dòng)脈瓣狹窄及關(guān)閉不全的超聲診斷課件
- 感染性休克指南
- 水泥標(biāo)準(zhǔn)稠度用水量、凝結(jié)時(shí)間、安定性試驗(yàn)考核表
- 第七章啤酒的過(guò)濾與灌裝啤酒優(yōu)質(zhì)課件
- 綿竹事業(yè)單位2023年招聘考試模擬卷I【3套】答案詳解
- 甜葉菊高效種植技術(shù)有哪些?甜葉菊種植管理技術(shù)
- 廣東省房屋建筑和市政修繕工程綜合定額
- 《城市軌道交通車(chē)站服務(wù)與禮儀》課件合集
- 2021年中考研究與備考策略 2021年中考道德與法治綜合復(fù)習(xí)指南課件
評(píng)論
0/150
提交評(píng)論