12008243836_李崎_DNA序列數(shù)值化映射方法的研究_學(xué)生提交開題報(bào)告_1332729388172_第1頁
12008243836_李崎_DNA序列數(shù)值化映射方法的研究_學(xué)生提交開題報(bào)告_1332729388172_第2頁
12008243836_李崎_DNA序列數(shù)值化映射方法的研究_學(xué)生提交開題報(bào)告_1332729388172_第3頁
12008243836_李崎_DNA序列數(shù)值化映射方法的研究_學(xué)生提交開題報(bào)告_1332729388172_第4頁
12008243836_李崎_DNA序列數(shù)值化映射方法的研究_學(xué)生提交開題報(bào)告_1332729388172_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

畢 業(yè) 設(shè)計(jì)( 2012 屆) 題 目 DNA數(shù)值化映射方法的研究 學(xué) 院 物理電氣信息學(xué)院 專 業(yè) 電子信息工程工程 年 級(jí) 2008級(jí) 學(xué)生學(xué)號(hào) 12008243846 學(xué)生姓名 李崎 指導(dǎo)教師 馬玉韜 2011年11月28日畢業(yè)設(shè)計(jì)開題報(bào)告論文題目DNA序列數(shù)值化映射方法的研究選題方向電子信息工程學(xué)生姓名李崎專業(yè)電子信息工程年級(jí)、班級(jí)08級(jí)電子一班一、選題的來源、目的、意義和基本內(nèi)容1選題的來源來自物電學(xué)院畢業(yè)設(shè)計(jì)選題指南。2題目的目的探討當(dāng)前主要的DNA序列映射方法對(duì)基因預(yù)測(cè)準(zhǔn)確率的影響,尋找有效的映射方法。3題目的意義生物信息學(xué)中一個(gè)具有挑戰(zhàn)性的研究任務(wù)是提高識(shí)別或預(yù)測(cè)DNA序列中的可變剪切位點(diǎn),即蛋白質(zhì)編碼區(qū)(外顯子)的邊界的準(zhǔn)確率。這方面的研究對(duì)揭示DNA序列的結(jié)構(gòu)具有重要意義。在使用數(shù)字信號(hào)處理技術(shù)預(yù)測(cè)編碼區(qū)時(shí)都需要采用一定的數(shù)值化映射方法將DNA序列轉(zhuǎn)換成數(shù)值信號(hào),在已有的研究中采用了10種方法。但至今為止編碼區(qū)的預(yù)測(cè)準(zhǔn)確率仍然不能達(dá)到像原核生物那樣高的準(zhǔn)確率,所以新的映射方法仍是研究的一個(gè)重要內(nèi)容,為研究在較大DNA測(cè)試集上進(jìn)行編碼區(qū)預(yù)測(cè)時(shí)現(xiàn)有映射方法的優(yōu)劣,以近似相關(guān)系數(shù)AC作為堿基層的預(yù)測(cè)準(zhǔn)確率測(cè)度,使用Chebyshev窗FIR窄通帶濾波器作為預(yù)測(cè)算法的核心,研究當(dāng)前各種映射方法對(duì)預(yù)測(cè)準(zhǔn)確率的影響。4題目的基本內(nèi)容(1)完成相關(guān)數(shù)據(jù)集的采集和處理。(2)研究以發(fā)現(xiàn)的幾種DNA映射方法。(3)尋找最有效的映射方法來研究討論DNA數(shù)值化映射方法對(duì)基因預(yù)測(cè)結(jié)果的影響二、國(guó)內(nèi)外研究綜述有關(guān)研究表明,DNA序列數(shù)值化映射方法的優(yōu)劣會(huì)直接影響到最終分析結(jié)果的生物學(xué)意義的解釋。DNA序列由堿基adenine (A),thymine (T),cytosine (C)和guanine (G)組成,已有的研究中采用了十多種映射方法,其中Voss法、Z曲線法、正四面體(Tetrahedron)法、復(fù)數(shù)法和EIIP(Electron-ion interaction potential)法的研究和應(yīng)用較多,其它還有實(shí)數(shù)法、FNO(Frequency of Nucleotide Occurrence),SW法,嘌呤嘧啶法(RY法),KM(Hybrid Method)法,基于復(fù)域的映射法和PN法,但至今為止編碼區(qū)的預(yù)測(cè)準(zhǔn)確率仍然不能達(dá)到像原核生物那樣高的準(zhǔn)確率,所以新的映射方法仍是研究的一個(gè)重要內(nèi)容。至今為止研究者依舊在尋找新的映射方法來對(duì)真核生物的外顯子進(jìn)行預(yù)測(cè),并提高預(yù)測(cè)的準(zhǔn)確率。3、 參考文獻(xiàn) 1 Sitanshu S S, Ganapati P. “Identification of protein-coding regions in DNA sequences using a time-frequency filtering approach J.” Genomics, Proteomics & Bioinformatics, 2011, 9: 45-55.2 B D Silverman and R Linsker. “A measure of DNA periodicity J.” Journal of Theoretical Biology, 1986, 118: 295-300.3 胡廣書. 數(shù)字信號(hào)處理:理論算法與實(shí)現(xiàn)(第二版)M, 北京:清華大學(xué)出版社,2003: 296-312.4 馬寶山,朱義勝. 一種用于基因預(yù)測(cè)的FIR數(shù)字濾波器J. 電子學(xué)報(bào). 2007,35(9):17101713. 四、指導(dǎo)教師意見 指導(dǎo)教師簽名 年 月 日五、學(xué)院畢業(yè)論文領(lǐng)導(dǎo)小組審核意見 領(lǐng)導(dǎo)小組組長(zhǎng)簽名 年 月 日一 畢業(yè)設(shè)計(jì)的背景1.1 畢業(yè)設(shè)計(jì)的背景基于創(chuàng)新項(xiàng)目及對(duì)項(xiàng)目的了解程度和愛好選擇項(xiàng)目的部分作為畢業(yè)設(shè)計(jì)題目。1.2 畢業(yè)設(shè)計(jì)的目的 探討當(dāng)前的主要DNA序列映射方法對(duì)基因預(yù)測(cè)準(zhǔn)確率的影響,尋找有效的映射方法。1.3畢業(yè)設(shè)計(jì)的意義生物信息學(xué)中一個(gè)具有挑戰(zhàn)性的研究任務(wù)是提高識(shí)別或預(yù)測(cè)DNA序列中的可變剪切位點(diǎn),即蛋白質(zhì)編碼區(qū)(外顯子)的邊界的準(zhǔn)確率。這方面的研究對(duì)揭示DNA序列的結(jié)構(gòu)具有重要意義。在使用數(shù)字信號(hào)處理技術(shù)預(yù)測(cè)編碼區(qū)時(shí)都需要采用一定的數(shù)值化映射方法將DNA序列轉(zhuǎn)換成數(shù)值信號(hào),在已有的研究中采用了10種方法。但至今為止編碼區(qū)的預(yù)測(cè)準(zhǔn)確率仍然不能達(dá)到像原核生物那樣高的準(zhǔn)確率,所以新的映射方法仍是研究的一個(gè)重要內(nèi)容,為研究在較大DNA測(cè)試集上進(jìn)行編碼區(qū)預(yù)測(cè)時(shí)現(xiàn)有映射方法的優(yōu)劣,以近似相關(guān)系數(shù)AC作為堿基層的預(yù)測(cè)準(zhǔn)確率測(cè)度,使用FIR窄通帶濾波器作為預(yù)測(cè)算法的核心,研究當(dāng)前各種映射方法對(duì)預(yù)測(cè)準(zhǔn)確率的影響。1859年達(dá)爾文進(jìn)化論的發(fā)表和1865年孟德爾遺傳定律的發(fā)現(xiàn),是十九世紀(jì)生命科學(xué)發(fā)展的里程碑,1953年DNA雙螺旋結(jié)構(gòu)模型的提出和1972年DNA重組技術(shù)的誕生,則開辟了二十世紀(jì)分子生物學(xué)和現(xiàn)代生物技術(shù)的新紀(jì)元。有關(guān)研究表明,DNA數(shù)值化映射方法的優(yōu)劣會(huì)直接影響到最終分析結(jié)果的生物學(xué)意義的解釋。 DNA序列由堿基adenine (A),thymine (T),cytosine (C)和guanine (G)組成,已有的研究中采用了十多種映射方法,其中Voss法、Z曲線法、正四面體(Tetrahedron)法、復(fù)數(shù)法和EIIP(Electron-ion interaction potential)法的研究和應(yīng)用較多,其它還有實(shí)數(shù)法、FNO(Frequency of Nucleotide Occurrence),SW法,嘌呤嘧啶法(RY法),KM(Hybrid Method)法,基于復(fù)域的映射法和PN法,但至今為止編碼區(qū)的預(yù)測(cè)準(zhǔn)確率仍然不能達(dá)到像原核生物那樣高的準(zhǔn)確率,所以新的映射方法仍是研究的一個(gè)重要內(nèi)容。至今為止研究者依舊在尋找新的映射方法來對(duì)真核生物的外顯子進(jìn)行預(yù)測(cè),并提高預(yù)測(cè)的準(zhǔn)確率。二 畢業(yè)設(shè)計(jì)方案及介紹2.1 畢業(yè)設(shè)計(jì)方案數(shù)值化映射窄通帶濾波器計(jì)算功率譜密度DNA序列滑動(dòng)濾波和幅度歸一化分類結(jié)果分析2.2 DNA序列的幾種映射方法2.2.1 Voss法Voss法是應(yīng)用最為廣泛且較早提出的一種將DNA序列映射為二進(jìn)制數(shù)字序列的DNA序列數(shù)值化表示方法。這種方法將一個(gè)長(zhǎng)度為 的DNA序列表示為四個(gè)長(zhǎng)度為 的二進(jìn)制數(shù)字序列 。在這四個(gè)數(shù)字序列中,以為例,分別用1和0表示堿基在序列中時(shí)刻的出現(xiàn)和缺失。(1)式給出了一個(gè)長(zhǎng)度N=12堿基序列及其Voss法映射得到的四個(gè)數(shù)值序列。.這種表示方法的主要優(yōu)點(diǎn)是不會(huì)引入相關(guān);可以證明任何維數(shù)小于4的表示方法其本身就會(huì)引入相關(guān)。2.2.2 Z曲線法曲線(三維)法是天津大學(xué)的張春霆院士于1994年提出。曲線法是將DNA序列轉(zhuǎn)換成與其等價(jià)的三維表達(dá)式。這種方法先將DNA序列用Voss法映射為四個(gè)二進(jìn)制數(shù)字序列和,然后利用關(guān)系式:將之轉(zhuǎn)換為公式這實(shí)際上是三個(gè)由1和1構(gòu)成的數(shù)值序列。2.2.3 正四面體法Tetrahedron法將DNA序列中的每一個(gè)堿基映射為三維向量空間中正四面體的一個(gè)頂點(diǎn)(公式(4),各點(diǎn)在三維空間的坐標(biāo)用三基色r、g和b表示后,可以統(tǒng)一為公式(5)。公式(5)中和為由Voss法映射得到的四個(gè)數(shù)值序列。這就是說正四面體法將一個(gè)DNA序列映射為3個(gè)實(shí)數(shù)序列。,.2.2.4 復(fù)數(shù)法復(fù)數(shù)表示法有兩種,一種(Complex1)是將DNA序列按照,和實(shí)現(xiàn)數(shù)值映射,其依據(jù)是雙螺旋DNA結(jié)構(gòu)中表現(xiàn)出的配對(duì)和配對(duì)互補(bǔ)原則。這種表示法能夠從復(fù)數(shù)的數(shù)學(xué)性質(zhì)方面展示核酸的一些互補(bǔ)特征。另外一種(Complex2)是將DNA序列按照,和實(shí)現(xiàn)數(shù)值映射,這種映射方法將嘌呤(或)落在實(shí)軸上而將嘧啶(或)落在虛軸上。2.2.5 EIIP法EIIP映射方法是將電子離子作用勢(shì)賦予四種堿基,即令,和,從而得到一個(gè)或四個(gè)實(shí)數(shù)序列。2.2.6實(shí)數(shù)法實(shí)數(shù)映射法有幾種不同的表示。RN1(Real Numbers 1)是令,和10;RN2(Real Numbers 2)是令,和;這兩種前者是使得嘌呤(或)大于嘧啶(或),后者是使得嘌呤小于嘧啶。RN3(Real Numbers 3)是令,和,這種方法在一定的意義上滿足堿基互補(bǔ)性。這種方法的缺點(diǎn)是不能充分反映原始DNA序列所表示的結(jié)構(gòu)特點(diǎn)。2.2.7 FNO法FNO法將DNA序列中的堿基映射為該堿基在序列集中出現(xiàn)的頻率(即堿基出現(xiàn)的次數(shù)與DNA序列所有堿基的數(shù)目的比值)值,從而得到一個(gè)數(shù)值序列。2.2.8 PN法 PN法(M. A., 2007) 利用了真核生物序列編碼區(qū)富含堿基“C”和“G”,而非編碼區(qū)富含“A”和“T”的統(tǒng)計(jì)特征,且在DNA雙螺旋結(jié)構(gòu)中“A”和“T”互補(bǔ),“C”和“G”互補(bǔ)。因此在將DNA序列映射為數(shù)值序列時(shí),將“A”和“T”映射為1,將“C”和“G”映射為0,得到一個(gè)序列;而將“C”和“G”映射為-1,“A”和“T”映射為0得到序列。2.2.9 SW法 SW法利用DNA雙螺旋結(jié)構(gòu)中“A”和“T”互補(bǔ),“C”和“G”互補(bǔ)。因此在將DNA序列映射為數(shù)值序列時(shí),將“A”和“T”映射為-1,將“C”和“G”映射為1.得到兩個(gè)序列,。2.2.10嘌呤嘧啶法 SW法利用DNA雙螺旋結(jié)構(gòu)中嘌呤和嘧啶的化學(xué)分子結(jié)構(gòu)不同。因此在將DNA序列映射為數(shù)值序列時(shí)將“A”和“G”映射為1,“T”和“C”映射為1。得到兩個(gè)序列,。2.2.11 基于復(fù)域的映射法復(fù)域映射法利用DNA雙螺旋結(jié)構(gòu)中“A”和“T”互補(bǔ),“C”和“G”互補(bǔ),且利用數(shù)學(xué)中關(guān)于復(fù)域的概念。令A(yù)=1,T=i,C=1,T=i。2.3 預(yù)測(cè)結(jié)果與分析在ALLSEQ和HMR195兩個(gè)較大的DNA序列集上對(duì)當(dāng)前主要的DNA序列數(shù)值映射方法進(jìn)行了編碼區(qū)預(yù)測(cè)對(duì)比研究。仿真結(jié)果表明,Voss法和Z-curve法任然是預(yù)測(cè)效果最佳的映射方法,PN法的效果好于、復(fù)數(shù)法和EIIP法。EIIP法和實(shí)數(shù)法不能在較大的DNA序列測(cè)試集上取得較高的預(yù)測(cè)準(zhǔn)確率,因而其應(yīng)用范圍會(huì)受到很大限制。實(shí)驗(yàn)結(jié)果使得今后的研究可以直觀簡(jiǎn)便地用預(yù)測(cè)結(jié)果的AC值來比較驗(yàn)證新映射方法的有效性。三 畢業(yè)設(shè)計(jì)的進(jìn)度安排(1)查閱并整理相關(guān)資料。(2011年十月底至十一月底)(1) 完成開題報(bào)告。(2011年十一月底至十二月底)(2) 完成FIR窄通帶濾波器的設(shè)計(jì)。(2011年12月底至2012年1月初)(4)完成滑動(dòng)傅里葉變換算法的整理和編程實(shí)現(xiàn)和實(shí)驗(yàn)驗(yàn)證所需的DNA序列數(shù)據(jù)集的收集和處理。(2012年1月初至2012年2月初)(5)根據(jù)不同的序列集選擇不同的非編碼率應(yīng)用到DNA序列譜分析中,并對(duì)不同的映射方法得出的結(jié)果進(jìn)行分析。(2012年2月初至2012年3月初)(6)完成論文的撰寫、修改及答辯的準(zhǔn)備工作。(2012年3月初至2012年5月初)四 參考文獻(xiàn)1 Sitanshu S S, Ganapati P. “Identification of protein-coding regions in DNA sequences using a time-frequency filtering approach J.” Genomics, Proteomics & Bioinformatics, 2011, 9: 45-55.2 R F Voss. “Evolution of long-range fractal correlations and 1/f noise in DNA base sequences J.” Physics Review Letter, June 1992, 68(25): 3805-3808.3 M Akhtar, J Epps and E Ambikairajah. “Signal processing in sequence analysis: advances in Eukaryotic gene predictionJ.” IEEE Journal of Selected Topics in Singal Processing, June, 2008, 2(3): 310321.4 Zhang R, Zhang C T. “Z curves, an intuitive tool for visualizing and analyzing the DNA sequences J.” Journal of Biomolecular Structure & Dynamics, 1994, 11(4): 767-782.5 B D Silverman and R Linsker. “A measure of DNA periodicity J.” Journal of Theoretical Biology, 1986, 118: 295-300.6 Anastassiou D. “Genomic signal processing J.” IEEE Signal Processing Magazine, 2001, 18(4): 8-20.7 M K Hota, V K Srivastava. DSP technique for gene and exon prediction taking Complex indicator sequenceC. Proc. 2008 IEEE Region 10 Conference(TENCON 2008), Hyderabad, India, Nov, 2008: 16.8 Achuthsankar S Nair and Sivarama Pillai Sreenadhan. “A coding measure scheme employing electron-ion interaction pseudopotential(EIIP)J.” Bioinfomation, 2006, 1(6): 197-202.9 K D Rao and M N S Swamy. “Analysis of Genomics and Proteomics Using DSP Techniques J.” IEEE Transactions on Circuits and Systems-I: Regular Papers, 2008, 55(1): 370-378.10 P D Cristea. “Genetic signal representation and analysis C.” In Proc. SPIE Conference, International Biomedical Optics Symposium (BIOS02), 2002, 4623: 77-84.11 G L Rosen. “Signal processing for biologically-inspired gradient source localization and DNA sequence analysis.” PhD thesis, Georgia Institute of Technology, Aug., 2006.12 N Chakravarthy, A Spanias, L D Iasemidis, and K Tsakalis. “Autoregressive modeling and feature analysis of DNA sequences J.” EURASIP JASP, 2004, 1: 13-28.13 M Akhtar, J Epps, and E Ambikairajah. “On DNA numerical representations for period-3 based exon predictionC.” Proc. IEEE International Workshop on Genomic Signal Processing and Statistics( GENSIPS 2007), Tuusula, Finland, Jun,2007:14.14 Chen Bo,Ji Ping, Visualization of the protein-coding regions with a self adaptive spectral rotation approachJ. Nucleic Acids Research. 2011,(39), doi: 10.1093/nar/gkq891.15 馬寶山,朱義勝. 一種用于基因預(yù)測(cè)的FIR數(shù)字濾波器J. 電子學(xué)報(bào). 2007,35(9):17101713. 16 Mena-Chalco J. P., Carrer H., Zana Y., etal. Identification of protein coding regions using the modified Gabor-Wavelet transform J. IEEE/ACM Transactions on Computational biology and bioinformatics, April-June, 2008, 5(2): 198-206.17 馬玉韜,車進(jìn),劉大銘. 基于傅里葉分析的蛋白質(zhì)編碼區(qū)預(yù)測(cè)中功率譜密度計(jì)算方法研究J. 寧夏大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011,32(2):134-138.18 Ma Yutao,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論