


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、尊敬的各位老師: 大家上午好!我叫XX,本次論文指導(dǎo)老師是XX老師,我選的畢業(yè)論文題目是使用遺傳算法從蛋白質(zhì)質(zhì)譜數(shù)據(jù)提取特征,下面我先匯報一下自己選擇這篇論文的動機(jī)以及基本寫作思路。重所周知,蛋白質(zhì)是遺傳物質(zhì)的直接反映者,通過對蛋白質(zhì)所反映出的特征進(jìn)行分析,能夠準(zhǔn)確地判斷出生物體的一些特征,如是否具有癌癥性狀。但是蛋白質(zhì)所反映出的信息成千上萬,在對數(shù)據(jù)進(jìn)行分析之前,必須先知道哪個才是對我們做出判斷有決定性作用的,哪個是與我們所研究的方面無關(guān)的,這就是論文中提到的特征提取。例如,這次論文中所選取的例子,是121卵巢癌癥患者和95例對照的樣本收集,針對每個樣本有15000個質(zhì)譜數(shù)據(jù),編寫程序的目的
2、,就是通過遺傳算法,決定出哪20個質(zhì)譜數(shù)據(jù)能夠?qū)ε袛嗍欠袷前┌Y患者起決定性作用。現(xiàn)在,我來陳述本篇論文的結(jié)構(gòu),主要內(nèi)容分為三個部分:蛋白質(zhì)質(zhì)譜,遺傳算法,特征提取的程序?qū)崿F(xiàn)。蛋白質(zhì)質(zhì)譜是蛋白質(zhì)分子經(jīng)過質(zhì)譜儀分析而得的數(shù)據(jù)。首先,被分析樣品的氣態(tài)蛋白質(zhì)分子,在高真空中受到高速電子流或其它能量形式的作用,失去外層電子生成分子離子,或進(jìn)一步發(fā)生化學(xué)鍵的斷裂或重排,生成多種碎片離子。然后,將各種離子導(dǎo)入質(zhì)量分析器,利用離子在電場或磁場中的運(yùn)動性質(zhì),使多種離子按不同質(zhì)荷比m/e的大小次序分開,并對多種的離子流進(jìn)行控制、記錄,得到質(zhì)譜圖。最后,得到譜圖中的各種離子及其強(qiáng)度實(shí)現(xiàn)對樣品成分及結(jié)構(gòu)的分析。質(zhì)譜分
3、析具有如下優(yōu)點(diǎn):很高的靈敏度,能為亞微克級試樣提供信息,能最有效地與色譜聯(lián)用,適用于復(fù)雜體系中痕量物質(zhì)的鑒定或結(jié)構(gòu)測定,同時具有準(zhǔn)確性易操作性快速性及很好的普適性。正因?yàn)橘|(zhì)譜法有這些優(yōu)點(diǎn),所以分子量測定、氨基酸鑒定、蛋白質(zhì)序列分析及立體化學(xué)分析等?,F(xiàn)在來看第二部分,遺傳算法。遺傳算法以達(dá)爾文的進(jìn)化論和Mendel的遺傳理論為基礎(chǔ),將生物進(jìn)化過程中的適者生存法則和遺傳過程中的隨機(jī)配對交叉機(jī)制相結(jié)合,通過模擬生物進(jìn)化的過程和機(jī)制來搜索最優(yōu)解。從本質(zhì)上而言,遺傳算法是一種迭代算法,它通過逐次逼近來獲得問題的近似最優(yōu)解。其主要特點(diǎn)是直接對結(jié)構(gòu)對象進(jìn)行操作,不存在求導(dǎo)和函數(shù)連續(xù)性的限定;具有內(nèi)在的隱并行
4、性和更好的全局尋優(yōu)能力;采用概率化的尋優(yōu)方法,能自動獲取和指導(dǎo)優(yōu)化的搜索空間,自適應(yīng)地調(diào)整搜索方向,不需要確定的規(guī)則。遺傳算法的這些性質(zhì),已被人們廣泛地應(yīng)用于組合優(yōu)化、信號處理、自適應(yīng)控制和人工智能計算中。在將數(shù)據(jù)載入算法之前,首先要對數(shù)據(jù)進(jìn)行編碼,成為可以被程序處理的數(shù)據(jù),也就是二進(jìn)制串。應(yīng)遵循的準(zhǔn)則首先是完備性,也就是問題空間中的所有點(diǎn)(候選解)都能作為GA空間中的點(diǎn)(染色體)表現(xiàn)。第二是健全性,就是GA空間中的染色體能對應(yīng)所有問題空間中的候選解。第三是非冗余性(nonredundancy),就是染色體和候選解一一對應(yīng)。在遺傳算法程序之中,會包含一個用于創(chuàng)建初始群體的函數(shù),這個函數(shù)會在編碼
5、而成得可行解中隨機(jī)選擇成為第一代父本,進(jìn)行迭代。把這些假設(shè)的可行解置于問題的“環(huán)境”中,并按適者生存的原則,從中選擇出較適應(yīng)環(huán)境的“染色體”進(jìn)行復(fù)制,再通過交叉、變異過程產(chǎn)生更適應(yīng)環(huán)境的新一代“染色體”群,這個過程就稱為迭代。適應(yīng)度,是表示某一個體對環(huán)境的適應(yīng)能力,也表示該個體繁殖后代的能力。遺傳算法的適應(yīng)度函數(shù)也叫評價函數(shù),是用來判斷群體中的個體的優(yōu)劣程度的指標(biāo),它是根據(jù)所求問題的目標(biāo)函數(shù)來進(jìn)行評估的。適應(yīng)度函數(shù)是遺傳算法的核心,它決定了遺傳算法的進(jìn)化方向,也就是我們最后所得到的數(shù)據(jù)的特點(diǎn),就是由適應(yīng)度函數(shù)來決定的。不同的程序是有不同的適應(yīng)度函數(shù)的。比如我的這次試驗(yàn)是要找出能夠?qū)ε袛嗍欠袷前?/p>
6、癥起決定作用的質(zhì)譜數(shù)據(jù),那我的適應(yīng)度函數(shù)用了一個分類函數(shù),按照質(zhì)譜數(shù)據(jù)對個體進(jìn)行分類,選出能夠使分類后兩組的真值分離最大化的作為特征質(zhì)譜。在程序中我用兩個語句把癌癥個體真值賦成,健康個體的真值為。迭代的核心在于三個關(guān)鍵詞復(fù)制、交叉、變異。遺傳算法的有效性主要來自復(fù)制和交叉操作,尤其是交叉在遺傳算法中起著核心的作用。復(fù)制操作有多種算法,最經(jīng)典的是輪盤賭算法,即將上一代種群中所有個體按適應(yīng)度值成比例的依次組成一個圓形的輪盤隨機(jī)轉(zhuǎn)動輪盤,當(dāng)輪盤停下來時,指針?biāo)赶虻膫€體就是被選中的個體,由于適應(yīng)度值較高的個體所占的區(qū)域較大,被選中的概率也較高,保證了適應(yīng)度值較高的個體能在新的種群中產(chǎn)生較多的后代。交
7、叉算子有很多種,包括單點(diǎn)交叉、多點(diǎn)交叉、洗牌交叉等等。交叉操作分兩步實(shí)現(xiàn)。第一步是在群體中隨機(jī)抽取兩個個體,作為交叉操作的父個體。第二步是隨機(jī)地選擇交叉點(diǎn),對匹配的位串進(jìn)行交叉繁殖,產(chǎn)生一對新的位串。由于種群的個體有限,經(jīng)過若干代交叉操作,源于一個較好的祖先的個體會逐漸充斥整個種群,使問題過早收斂而得不到最優(yōu)解。為避免這種情況出現(xiàn),就要效法自然界生物的變異,對個體進(jìn)行小概率的翻轉(zhuǎn)(替換)。變異是由變異算子完成的,反映到數(shù)據(jù)上就比如原來的數(shù)據(jù)是一串,那么我把它的某位變成,就完成了最簡單的變異過程。決定迭代進(jìn)行到什么程度的就是收斂條件。有很多種收斂條件,如時間限制,就是我進(jìn)行多少代之后就停止迭代。
8、再比如精度限制,當(dāng)個體適應(yīng)度的方差或標(biāo)準(zhǔn)差低于一定的數(shù)值時停止迭代,或者適應(yīng)度限制,當(dāng)連續(xù)幾代最優(yōu)個體的適應(yīng)度沒有明顯變化時終止算法。在本次實(shí)驗(yàn)中采取的是時間限制。這是一張遺傳算法的圖解,它很直觀地表示出了遺傳算法的步驟。這里的初始條件就是收斂條件,我的論文里選的是時間收斂,設(shè)置迭代次數(shù)為50次,沒到次數(shù)就會一直迭代。然后是計算個體適應(yīng)值,這里用到適應(yīng)度函數(shù)。這是為下步的選擇做準(zhǔn)備的。然后用概率來選擇遺傳算子。比如變異的概率是百分之一,也就是500例個體中有5個變異的個體,則從適應(yīng)度高的個體中選出5個,對它運(yùn)用變異算子。其他個體進(jìn)行交叉或者直接復(fù)制到下一代。然后再回到第二步進(jìn)行收斂檢驗(yàn)。最后一
9、部分主要內(nèi)容就是程序設(shè)計了。由于ppt篇幅的關(guān)系我沒有把所有程序都列舉出來。程序一共分為6個部分,數(shù)據(jù)加載到matlab,創(chuàng)建初始種群,創(chuàng)建適應(yīng)度函數(shù),創(chuàng)建選擇結(jié)構(gòu),調(diào)用遺傳算法,顯示被選擇特征。我選擇了數(shù)據(jù)加載和調(diào)用遺傳算法兩部分解釋一下。Load語句將數(shù)據(jù)加載至matlab,whos是顯示出數(shù)據(jù)名和類型。從輸出可以看出,一共有216組數(shù)據(jù),每組有15000個質(zhì)譜數(shù)據(jù)。下面看看主程序的調(diào)用。Rand是隨機(jī)產(chǎn)生均勻分布的隨機(jī)數(shù), randn是隨機(jī)產(chǎn)生正態(tài)分布的隨機(jī)數(shù),這兩個隨機(jī)數(shù)是在調(diào)用之前必須設(shè)置的。設(shè)置所需的特征數(shù)目。設(shè)置適應(yīng)度函數(shù)以便下步調(diào)用。而之前已經(jīng)編寫好了適應(yīng)度函數(shù)biografit。函數(shù)的參數(shù)有三個,分別是適應(yīng)度、特征數(shù)目和選擇結(jié)構(gòu)。這個選擇結(jié)構(gòu)中包含了設(shè)置好的初始群體創(chuàng)建函數(shù),迭代次數(shù),每代得人口增加數(shù)等。的返回值是一個下標(biāo),然后把對應(yīng)的質(zhì)譜數(shù)據(jù)存入Significant_Masses。函數(shù)的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 航空航天技術(shù)基礎(chǔ)模擬試題卷
- 浙江國企招聘2025嘉興海鹽縣城市投資集團(tuán)有限公司招聘7人筆試參考題庫附帶答案詳解
- 2025浙江寧波市卓眾人力資源服務(wù)公司銷售業(yè)務(wù)人員專項(xiàng)招募20人筆試參考題庫附帶答案詳解
- 2025年中國葛洲壩集團(tuán)易普力股份有限公司禹州分公司招聘22人(河南)筆試參考題庫附帶答案詳解
- 膀胱治療儀試題及答案
- 2025上半年云南日報報業(yè)集團(tuán)招聘34人筆試參考題庫附帶答案詳解
- 紡織品的面料對比與選用試題及答案
- 紡織行業(yè)內(nèi)審標(biāo)準(zhǔn)知識試題及答案
- 高標(biāo)準(zhǔn)農(nóng)田建設(shè)推動鄉(xiāng)村振興戰(zhàn)略深入實(shí)施
- 貨車合伙合同協(xié)議書
- 2025年度考研政治馬克思主義政治經(jīng)濟(jì)學(xué)核心考點(diǎn)復(fù)習(xí)匯編
- 2025專利代理師筆試考試題庫帶答案
- 第3課《校園文化活動我參與》教案 海燕版綜合實(shí)踐活動 三年級下冊
- 2025年保密教育線上培訓(xùn)考試試題及答案
- 域名解析換編碼 課件 2024-2025學(xué)年人教版(2024)初中信息科技七年級上冊
- 整形美容醫(yī)院醫(yī)患溝通流程
- 大學(xué)生職業(yè)規(guī)劃大賽《運(yùn)動康復(fù)專業(yè)》生涯發(fā)展展示
- 高樓遮光補(bǔ)償協(xié)議書范本
- 課題申報書:生成式人工智能賦能高職教學(xué)變革研究
- 2025-2030專用車產(chǎn)業(yè)規(guī)劃及發(fā)展研究報告
- 《自由現(xiàn)金流折現(xiàn)法對東鵬特飲公司的財務(wù)估值實(shí)例分析》2000字
評論
0/150
提交評論