2024年中國高性能計算和人工智能醫(yī)療行業(yè)市場前景及投資研究報告:生命科學(xué)解決方案_第1頁
2024年中國高性能計算和人工智能醫(yī)療行業(yè)市場前景及投資研究報告:生命科學(xué)解決方案_第2頁
2024年中國高性能計算和人工智能醫(yī)療行業(yè)市場前景及投資研究報告:生命科學(xué)解決方案_第3頁
2024年中國高性能計算和人工智能醫(yī)療行業(yè)市場前景及投資研究報告:生命科學(xué)解決方案_第4頁
2024年中國高性能計算和人工智能醫(yī)療行業(yè)市場前景及投資研究報告:生命科學(xué)解決方案_第5頁
已閱讀5頁,還剩44頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

CONTENTS目錄01聯(lián)想高性能計算.........................

0102聯(lián)想生命科學(xué)行業(yè)解決方案.

.

.

.

.

.

.

.

.

0.

7聯(lián)想生命科學(xué)

HPC

解決方案0742聯(lián)想生命科學(xué)人工智能解決方案03聯(lián)想高性能計算產(chǎn)品及特點(diǎn)介紹.

.

.

4.

5聯(lián)想高性能計算硬件和環(huán)境配套45聯(lián)想高性能計算軟件720405聯(lián)想高性能計算集群實(shí)施服務(wù)聯(lián)想生命科學(xué)客戶案例.

.

.

.

.

.

.83.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

87某醫(yī)院組學(xué)和深度影像學(xué)習(xí)平臺87北京大學(xué)高性能計算平臺“未名生科一號”93算近幾年,為了推動生物醫(yī)藥產(chǎn)業(yè)的快速發(fā)展,加快構(gòu)建生物產(chǎn)業(yè)鏈,國務(wù)院、國家等部門相繼發(fā)布了多項生物醫(yī)藥產(chǎn)業(yè)促進(jìn)政策,支持生物技術(shù)藥、化學(xué)藥、中醫(yī)藥等細(xì)分領(lǐng)域的產(chǎn)品研發(fā)、成果轉(zhuǎn)化,以及公共服務(wù)平臺的建設(shè)等等。2022

年,工業(yè)部和信息化部、國家發(fā)展改革委、科技部等九部門聯(lián)合發(fā)布的《“十四五”醫(yī)藥工業(yè)發(fā)展規(guī)劃》明確提出,國家將推動醫(yī)藥制造能力系統(tǒng)升級,以新一代信息技術(shù)賦能醫(yī)藥研發(fā)。同時,隨著第三代分子測序技術(shù)的發(fā)展,數(shù)據(jù)量快速增長,生物醫(yī)學(xué)數(shù)據(jù)從

PB

組學(xué)時代邁入

EB

多維度大數(shù)據(jù)時代。從

CADD

AIDD,通過高性能計算資源進(jìn)行虛擬藥物篩選、分子對接、蛋白結(jié)構(gòu)預(yù)測等工作,可有效縮短新藥研發(fā)周

期,降低科研成本。高性能計算正在影響著生命科學(xué)各研究領(lǐng)域的發(fā)展。為了支撐科研人員的數(shù)據(jù)分析和計算需求,我國生命科學(xué)領(lǐng)域的高性能計算基礎(chǔ)設(shè)施快速發(fā)展,且已初具規(guī)模,但生命科學(xué)領(lǐng)域企業(yè)應(yīng)用高性能計算時依然存在算力、彈性、存儲吞吐量不足,運(yùn)維管理和成本大等挑戰(zhàn)。如何降本增效,提高高性能計算的性價比,成為企業(yè)高度關(guān)注的問題。聯(lián)想集團(tuán)作為全球高性能計算機(jī)(HPC)TOP500

和中國高性能計算機(jī)

TOP100

排行榜中領(lǐng)先的企業(yè),不僅為生命科學(xué)各領(lǐng)域海量數(shù)據(jù)研究提供用于基因組學(xué)、蛋白質(zhì)組學(xué)、藥物研發(fā)等領(lǐng)域的超級計算機(jī)和高性能服務(wù)器以及大容量存儲服務(wù)等基礎(chǔ)設(shè)施,也圍繞高性能服務(wù)器基礎(chǔ)技術(shù)打造了齊全的產(chǎn)品線和嚴(yán)格的質(zhì)量控制體系,進(jìn)而為生命科學(xué)領(lǐng)域提供了一套覆蓋

研發(fā)、數(shù)據(jù)存儲、生產(chǎn)及認(rèn)證、銷售等環(huán)節(jié)的完整技術(shù)鏈。當(dāng)前,依托高性能計算平臺,聯(lián)想集團(tuán)已經(jīng)在全球?yàn)樯茖W(xué)、基因測序等多個領(lǐng)域提供了成熟的高性能計算解決方案;聯(lián)想集團(tuán)交付的高性能計算集群,正在為研究機(jī)構(gòu)、高等院校和企業(yè)的業(yè)務(wù)創(chuàng)新發(fā)揮著重要作用;針對醫(yī)療機(jī)構(gòu)快速分析、共享海量元數(shù)據(jù)的需求,聯(lián)想集團(tuán)個性化構(gòu)建了高性能的

IT

基礎(chǔ)架構(gòu),提高醫(yī)療系統(tǒng)的性能、可靠性與靈活性,確保工作人員高效獲取所需的科學(xué)計算資源,并輕松共享關(guān)鍵信息,從而節(jié)省了大量的時間和資源。在以算力為基礎(chǔ)數(shù)字經(jīng)濟(jì)時代,聯(lián)想集團(tuán)將基于自身傳承了

30

余年的強(qiáng)大技術(shù)基因,持續(xù)升級算力基礎(chǔ)架構(gòu),發(fā)展算力服務(wù),繼續(xù)致力于創(chuàng)新和深化在生命科學(xué)等領(lǐng)域的高性能計算解決方案,為生命科學(xué)行業(yè)打造“最強(qiáng)數(shù)字大腦”,推動行業(yè)快速發(fā)展。聯(lián)想集團(tuán)政府縱隊總經(jīng)理??傅?強(qiáng)聯(lián)想中國基礎(chǔ)設(shè)施業(yè)務(wù)群郝常杰高性能計算與人工智能產(chǎn)品營銷主任技術(shù)顧問01開放開放的硬件平臺開放的軟件平臺技術(shù)交流與協(xié)作社區(qū)聯(lián)想高性能計算EveryScale融合高性能計算多年來一直是科技綜合實(shí)力競爭的至高點(diǎn),也在一定程度上反映了各大服務(wù)器廠商系統(tǒng)研發(fā)方面的實(shí)力。作為行業(yè)的技術(shù)領(lǐng)先者,聯(lián)想集團(tuán)在這一領(lǐng)域積累了長達(dá)

20

多年的豐厚

經(jīng)驗(yàn),并在關(guān)鍵技術(shù)領(lǐng)域不斷創(chuàng)聯(lián)想智能計算平臺LICO新,取得大量里程碑式的成果??蛻舻男袠I(yè)應(yīng)用

HPC/AI聯(lián)想從

2001

年進(jìn)軍高性能服務(wù)器領(lǐng)域,是最早針對高等院校和科研院所進(jìn)行產(chǎn)品開發(fā)與市場拓展的廠商,并Web圖形界面/CLI/API在市場中一直處于技術(shù)領(lǐng)先地位。截止

2022

年,先后為數(shù)萬個用戶成功實(shí)施了高性能集群。曾經(jīng)兩次承擔(dān)了HPC工作流模板AI預(yù)訓(xùn)練模型/模板大數(shù)據(jù)虛擬化中國科學(xué)院網(wǎng)絡(luò)計算中心主節(jié)點(diǎn)的建設(shè)任務(wù),并且成功地與威廉姆斯車隊進(jìn)行合作,成為國產(chǎn)品牌中最早將高性能業(yè)務(wù)拓展到海外的企業(yè)。HPC數(shù)學(xué)庫與編譯器作業(yè)調(diào)度

LSF/其他AITensorRT/NCCL/CuCNN容器:Docker/Singularity傳統(tǒng)HPC聯(lián)想順應(yīng)國際主流技術(shù)發(fā)展趨勢,以市場需求為驅(qū)動,吸收國內(nèi)外最新技術(shù)成果,進(jìn)行了大量創(chuàng)新性研發(fā),突破包括系統(tǒng)設(shè)計與優(yōu)化、系統(tǒng)基礎(chǔ)架構(gòu)、系統(tǒng)軟件等在內(nèi)的一大批高性能服務(wù)器的關(guān)鍵核心技術(shù),開發(fā)出一系硬件管理/用戶管理異構(gòu)計算AI列可擴(kuò)展、易管理、好使用、穩(wěn)定可靠的高性能服務(wù)器產(chǎn)品,并配備可滿足用戶個性化需求的行業(yè)解決方案,數(shù)據(jù)中心服務(wù)器并行存儲系統(tǒng)網(wǎng)絡(luò)系統(tǒng)提供從系統(tǒng)層到應(yīng)用軟件層的全面解決方案和技術(shù)服務(wù)。配套設(shè)施AI4S聯(lián)想高性能計算一貫秉承開放,融合和高效的理念,并以此來服務(wù)高性能計算各行各業(yè),成就高性能計算客戶。x86飛騰/海光FPGAGPU/寒武紀(jì)LenovoScalableInfrastructure(LeSI)高效聯(lián)想算力發(fā)展愿景降低PUE提高生產(chǎn)效率熱轉(zhuǎn)換模塊(TTM)提升作業(yè)效率

LSF水冷背門(RDHX)提升存儲性能

DSS-G液轉(zhuǎn)風(fēng)模塊(L2A)提升網(wǎng)絡(luò)速度和效率液轉(zhuǎn)液模塊(L2L)通過水冷技術(shù)提升計算能力開放融合高效直接溫水冷卻(DWC)通過水冷技術(shù)提高可靠性面向傳統(tǒng)科學(xué)計算和大模型,聯(lián)想會堅持開放融合的技術(shù)路線,提供高效能算力解決方案聯(lián)想會堅持開放融合的技術(shù)路線,提供高效能算力解決方案聯(lián)想高性能計算和人工智能醫(yī)療行業(yè)白皮書0102聯(lián)想高性能計算和人工智能醫(yī)療行業(yè)白皮書2002

7

月,聯(lián)想研制成功“深騰

1800”萬億次聯(lián)想深騰系列高性能計算機(jī)成為最早進(jìn)入世界

TOP500

的一批國產(chǎn)計算機(jī),分列當(dāng)時世界

TOP500

的第

14、集群系統(tǒng),安裝在中科院數(shù)學(xué)與系統(tǒng)科學(xué)研究院。43、98

299

名。這是一個歷史性的突破,聯(lián)想深騰系列高性能計算機(jī)已成為國際知名國內(nèi)主流的品牌。聯(lián)這是世界上第一個實(shí)際速度超過

1

萬億次的大規(guī)模集想在推動高性能技術(shù)產(chǎn)業(yè)化方面取得了突破性進(jìn)展,聯(lián)想的高性能計算機(jī)廣泛應(yīng)用于許多關(guān)鍵領(lǐng)域,在國民經(jīng)群系統(tǒng)。曾入選新華社

2002

年中國十大新聞及兩濟(jì)和社會發(fā)展中發(fā)揮重要作用。院院士評選的

2002

年中國十大科技進(jìn)展,并榮獲目前,集群已成為世界高性能計算機(jī)體系結(jié)構(gòu)的主流,聯(lián)想深騰

1800、深騰

6800

和深騰

7000

為這一趨2004

年國家科技進(jìn)步二等獎。2002

年末,另一套勢的形成做出了重要貢獻(xiàn)。2002

8

月初,世界上主流并行編程環(huán)境

MPI-ch

的發(fā)明人、美國阿貢實(shí)驗(yàn)室深騰

1800

大規(guī)模集群系統(tǒng)安裝在中科院大氣物理所WilliamCropps參觀聯(lián)想深騰

1800

后寫道:“We

seethefutureofclusteringcomputing”。國家重

點(diǎn)實(shí)驗(yàn)室。2002

12

30

日,聯(lián)想深騰1800

中標(biāo)大慶油田,使該油田第一次在國內(nèi)實(shí)現(xiàn)三聯(lián)想在高性能服務(wù)器基礎(chǔ)技術(shù)方面有著長期的積累,有齊全的產(chǎn)品線和嚴(yán)格的質(zhì)量控制體系,為高性能計算機(jī)維疊前深度偏移地震資料處理。的研制和生產(chǎn)奠定了堅實(shí)的基礎(chǔ)。在產(chǎn)品設(shè)計上,聯(lián)想堅持用戶導(dǎo)向的原則,同時結(jié)合對新技術(shù)的深入理解和消化吸收,始終遵循模塊化設(shè)計思想,在充分綜合考慮各模塊精密配合和整機(jī)系統(tǒng)合理整合的基礎(chǔ)上,先設(shè)計出最佳性價比、最穩(wěn)定的產(chǎn)品方案,然后對方案進(jìn)行工程計算仿真,同時不斷地結(jié)合驗(yàn)證性實(shí)驗(yàn),最終才形成可行的開發(fā)方案,從而保證為用戶在最短的時間里開發(fā)出最貼近的具有競爭力的產(chǎn)品。在研究開發(fā)上,聯(lián)想建立了與國際接軌的兩級研發(fā)體系,即公司級研發(fā)平臺和各事業(yè)部研發(fā)中心。公司級研發(fā)2003

年,聯(lián)想成功研制“國家網(wǎng)格主節(jié)點(diǎn)—聯(lián)想深平臺由聯(lián)想研究院、軟件中心、板卡中心和工業(yè)設(shè)計中心組成。事業(yè)部研發(fā)中心隸屬于各事業(yè)部,直接承擔(dān)具騰

6800

超級計算機(jī)”,安裝在中科院計算機(jī)網(wǎng)絡(luò)體的專項技術(shù)開發(fā)工作。聯(lián)想在高性能服務(wù)器技術(shù)上已突破并擁有了自己的核心技術(shù),擁有自主知識產(chǎn)權(quán)的系信息中心。這是當(dāng)時世界上

Linpack效率(78.5%)統(tǒng)設(shè)計與優(yōu)化技術(shù)、系統(tǒng)監(jiān)控技術(shù)、系統(tǒng)管理技術(shù)、高可用和負(fù)載均衡技術(shù)以及基礎(chǔ)架構(gòu)技術(shù)等關(guān)鍵技術(shù),在最高的高端通用計算機(jī),其組合查詢性能名列當(dāng)時高性能計算機(jī)系統(tǒng)技術(shù)方面已申請國家發(fā)明專利

85

項,其中,46

項已獲授權(quán)。所有大型服務(wù)器的第四位,其典型應(yīng)用

MM5

的測試結(jié)果在

2004

3

月列世界所有超級計算機(jī)的第一在工程技術(shù)上,聯(lián)想擁有針對服務(wù)器的部件及整機(jī)進(jìn)行專業(yè)性測試的全套技術(shù)。部件測試包含外觀、結(jié)構(gòu)、功能、位。該機(jī)榮獲

2005

年國家科學(xué)技術(shù)進(jìn)步二等獎、兼容性、可靠性、安全性、性能和環(huán)境

個方面的測試,以保證所有部件符合聯(lián)想服務(wù)器技術(shù)特性和質(zhì)量標(biāo)準(zhǔn)82005

年國家重

點(diǎn)新產(chǎn)品獎、2004

年信息產(chǎn)業(yè)重大的要求,對服務(wù)器的核心部件如電源、內(nèi)存,還建立了專業(yè)化的實(shí)驗(yàn)室,實(shí)現(xiàn)了部件的自動測試。如全球技術(shù)技術(shù)發(fā)明獎。聯(lián)想深騰

6800

2004

年初在網(wǎng)絡(luò)領(lǐng)先的自動電源測試實(shí)驗(yàn)室和自動內(nèi)存測試實(shí)驗(yàn)室,國內(nèi)功能最全面、技術(shù)最先進(jìn)的系統(tǒng)測試實(shí)驗(yàn)室,以及高中心對外服務(wù)以來,一直

7

X

24

小時穩(wěn)定運(yùn)行,在溫實(shí)驗(yàn)室、電磁兼容檢測實(shí)驗(yàn)室、噪音實(shí)驗(yàn)室、濕熱實(shí)驗(yàn)室等等,所有產(chǎn)品需要在這些實(shí)驗(yàn)室中通過一系列的雙星計劃、氣候模式計算、油藏模擬、材料科學(xué)計算、嚴(yán)格檢測,只有通過了這一系列的嚴(yán)格檢測的服務(wù)器產(chǎn)品,才可以順利出廠,提供給客戶。聯(lián)想始終嚴(yán)格執(zhí)行流體力學(xué)計算等領(lǐng)域取得了150多項重要計算成果。國際標(biāo)準(zhǔn)的質(zhì)量控制體系,是國內(nèi)最早通過-版質(zhì)量認(rèn)證體系的服務(wù)器廠商。ISO90002000在技術(shù)服務(wù)與方案上,聯(lián)想服務(wù)器應(yīng)用方案中心擁有雄厚

的技術(shù)力量,在硬件平臺、操作系統(tǒng)、數(shù)據(jù)庫、軟件、網(wǎng)絡(luò)、存儲、集群技術(shù)等方面有著多年的技術(shù)和經(jīng)驗(yàn)積累,可以分別從不同的技術(shù)層面為用戶提供有效的產(chǎn)品應(yīng)用和方案支持服務(wù)。中心擁有先進(jìn)的實(shí)驗(yàn)環(huán)境,包括方案集成實(shí)驗(yàn)室、性能評測實(shí)驗(yàn)室、數(shù)據(jù)中心、客戶實(shí)驗(yàn)室四個部分,為用戶提供方案開發(fā)、測試、方案移植、優(yōu)化以及培訓(xùn)、咨詢等服務(wù),及時、快速、可靠地解決用戶系統(tǒng)在使用過程中所遇到的技術(shù)問題,使客戶的系統(tǒng)可以更加安全穩(wěn)定地運(yùn)行,以保障和促進(jìn)客戶業(yè)務(wù)的順利開展并取得更大的成功。2014

9

29

日,聯(lián)想宣布完成對

IBM

x86

業(yè)務(wù)的收購,從此,具有豐富的高性能計算方面經(jīng)驗(yàn)的原IBMx86大批

HPC

專家加入了聯(lián)想。算算進(jìn)入聯(lián)想的原IBM

x86

部門熟悉應(yīng)用的行業(yè)專家非常了解行業(yè)用戶的需求,他們會針對行業(yè)的具體情況,與行業(yè)應(yīng)用軟件開發(fā)商密切配合,提供切實(shí)可行的解決方案,使得行業(yè)

HPC

用戶的應(yīng)用得以快速部署。聯(lián)想

HPC

的發(fā)展歷程2016年7月1日,從ISC2016凱旋歸來的聯(lián)想集團(tuán)再度吹響集結(jié)號,在北京隆重

召開了以“開啟E級計算新篇章”中國第1臺年年助力北京為主題的首屆全球高性能計算峰會。本次大會聯(lián)想正式發(fā)布了面向

E

級計算的高性能計算機(jī)系統(tǒng)深騰

x8800。2005年助力神舟2022IA服務(wù)器深騰6800冬奧會實(shí)現(xiàn)冬奧分2012九號飛船與天宮1995年獲國家科技進(jìn)步鐘級和百米級的精一號精準(zhǔn)對接聯(lián)想推出二等獎準(zhǔn)氣象預(yù)報2018

6

30

日,聯(lián)想正式升級高性能計算機(jī)系統(tǒng)為深騰

x9000,這是聯(lián)想面向智能計算的統(tǒng)一平臺,該2003年2009

二百萬億年深騰2018/19

20/21/22TOP500

TOP5002023年平臺涵蓋

傳統(tǒng)高性能計算和人工智能技術(shù)。這是聯(lián)想集團(tuán)

3S

戰(zhàn)略的具體方案落地,也是向人工智能方向邁出的深騰68007000GTOP500次使用GPU加速科聯(lián)想獲得

聯(lián)想獲得聯(lián)想獲得一大步。TOP500第14位學(xué)計算第一第一第一2021

12

14

日,上海交大校友、聯(lián)想集團(tuán)董事長兼

CEO

楊元慶捐建的高性能計算中心在上海交大李政道研究所揭牌啟用。這套高性能計算設(shè)備被命名為“思源一號”,每秒運(yùn)算可達(dá)

6

千萬億次,其算力為中國高校第

1,2004年2009年年中國年中國TOP100深騰1800SuperMUC20142023全球

HPCTOP500

132。獲國家科技進(jìn)步世界第一臺大規(guī)模TOP100......第一名第一名二等獎溫水水冷系統(tǒng)上海交大楊元慶科學(xué)計算中心坐落于張江科學(xué)城的李政道研究所實(shí)驗(yàn)樓內(nèi)。李政道研究所實(shí)驗(yàn)樓于

2021

12年年世界第1臺2022年20092013深騰7000深騰7000萬億次機(jī)群發(fā)布第五代月

3

日正式啟用,目前已聚集若干學(xué)術(shù)大師領(lǐng)銜的研究團(tuán)隊,吸引了一批科技創(chuàng)新活力的青年才俊,圍繞粒子我國首用北京市科技進(jìn)步年聯(lián)想推出溫水水冷2002百萬億次機(jī)一等獎與核物理、天文與天體物理、量子基礎(chǔ)科學(xué)等研究方向,開展了多個前沿領(lǐng)域原創(chuàng)性基礎(chǔ)研究,實(shí)驗(yàn)平臺建設(shè)正穩(wěn)步推進(jìn)。2023年

11

14

日,TOP500

組織發(fā)布了最新的全球超級計算機(jī)

TOP500

榜單。榜單顯示,在全球浮點(diǎn)運(yùn)算這些領(lǐng)域的科學(xué)研究,恰恰最需要高性能計算支撐。作為全球第一的高性能計算解決方案提供商,截至

2022性能最強(qiáng)的

500

臺超級計算機(jī)中,聯(lián)想制造的高性能計算入圍169

臺的數(shù)量遠(yuǎn)超其他廠商,以

33.8%

的總體年

11

月,聯(lián)想連續(xù)十次蟬聯(lián)全球高性能計算機(jī)

TOP500

榜單制造商份額榜首,九次登頂中國

HPC

TOP100

年份額,再次名列全球高性能計算提供商份額第一名。度數(shù)量總份額榜首。而聯(lián)想的溫水水冷技術(shù),也成為業(yè)內(nèi)綠色低碳的典范。在注重

高性能的同時,聯(lián)想也非常重

視綠色節(jié)能技術(shù),聯(lián)想以出眾的節(jié)能技術(shù)打造了

GREEN500

榜單榜首的“思源一號”高性能計算機(jī)總計算力為

6

千萬億次

/

秒(雙精度)。在今年

11

月發(fā)布的全球

TOP500

高性能全球最節(jié)能高性能計算機(jī)。計算機(jī)榜單上,“思源一號”的計算力排名第

206

位,算力超過哈佛、加拿大大學(xué)等國際名校。在中國高性能計算TOP100

榜單上,它排名

15

位,中國高校高性能計算排名第一。此外,“思源一號”還具備超高計算密2023

11

月的最新一屆的全球最綠色的高性能計算機(jī)榜單,聯(lián)想集團(tuán)安裝在美國紐約

Flatiron

研究所的度與功耗密度、綠色節(jié)能、能源可循環(huán)利用三大技術(shù)特色。Henri系統(tǒng)再次獲得了

GREEN500榜單頭名,其能效達(dá)到了驚人的

65.40Gflops/Watts,并三次蟬聯(lián)榜首。此外,聯(lián)想為韓國基礎(chǔ)科學(xué)研究所打造的科學(xué)計算集群采用了聯(lián)想

ThinkSystem

SR675

V3

GPU

服務(wù)器,總核心數(shù)達(dá)到了

3936

個。該集群在最新

GREEN500

榜單中以

45.12

GFlops/Watts

的成績一舉躋身前十,并同樣入圍最新的

HPCTOP500

榜單。目前,聯(lián)想在全球部署的高性能計算機(jī)正在政府機(jī)構(gòu)、商業(yè)公司、學(xué)術(shù)機(jī)構(gòu)和醫(yī)療機(jī)構(gòu)發(fā)揮力量。在科學(xué)計算、城市管理、人工智能開發(fā)等領(lǐng)域助力中國各行各業(yè)的研究,新

IT

賦能實(shí)體經(jīng)濟(jì),助力構(gòu)建新發(fā)展格局。聯(lián)想高性能計算和人工智能醫(yī)療行業(yè)白皮書05算02新藥的誕生通常需要經(jīng)歷藥物發(fā)現(xiàn)、臨床前研究、臨床試驗(yàn)和審批等階段后,最終才可以獲批上市。在靶點(diǎn)發(fā)現(xiàn)、化合物合成等藥物發(fā)現(xiàn)階段以及化合物篩選等臨床前研究階段,往往需要借助高性能計算強(qiáng)大的計算能力才能聯(lián)想生命科學(xué)行業(yè)解決方案加速研發(fā)過程輔助藥物設(shè)計。生命科學(xué)

HPC

應(yīng)用分類基因組學(xué)是指對生物體所有基因進(jìn)行基因組作圖、核苷酸序列比對分析、基因定位及基因功能分析的一門學(xué)科,而基因測序則是針對基因組學(xué)研究的檢測分析技術(shù)?;蚪M學(xué)所對應(yīng)的研究主要包括結(jié)構(gòu)基因組學(xué)和功能基因組學(xué)兩個方面。聯(lián)想生命科學(xué)

HPC

解決方案結(jié)構(gòu)基因組學(xué)代表基因組分析的早期階段,一般以基因組測序?yàn)槟康?,得出生物樣本的靜態(tài)堿基序列,并構(gòu)建生物體的基因圖譜,一般基于高通量測序技術(shù)生成生物的堿基序列。功能基因組學(xué)也稱作后基因組學(xué),基于結(jié)構(gòu)基因組所提供的數(shù)據(jù)及信息,結(jié)合計算機(jī)科學(xué),同時對多個基因片段進(jìn)行系統(tǒng)性的分析研究,主要研究內(nèi)容包括:基因突變檢測(SNP,InDel)、基因表達(dá)分析及基因功能發(fā)現(xiàn)等。生命科學(xué)作為

21

世紀(jì)最重要的科學(xué)分支之一,高性能計算在生命科學(xué)的研究和發(fā)展中起到非常重要的作用。從蛋白質(zhì)結(jié)構(gòu)中的應(yīng)用輔助藥物設(shè)計、疫苗研發(fā),到生物信息學(xué)中的應(yīng)用輔助基因數(shù)據(jù)處理與分析,再到提供精基因測序的業(yè)務(wù)流程主要包括樣本上機(jī)(測序儀)、測序文件生成、基因序列比對及結(jié)果分析(計算機(jī)),并準(zhǔn)醫(yī)療服務(wù)于腫瘤治療、產(chǎn)前篩查等醫(yī)療技術(shù),高性能計算HPC

在生命科學(xué)研究中扮演著十分重要的角色。由將結(jié)果數(shù)據(jù)及報告交付至各科研醫(yī)療機(jī)構(gòu)。其中,基因序列比對及分析環(huán)節(jié)極為耗時,涉及大量的生信領(lǐng)域?qū)S跍y序技術(shù)的飛速發(fā)展,人類發(fā)現(xiàn)的基因序列數(shù)目按照指數(shù)級增長,那么對于如此數(shù)量龐大的基因進(jìn)行同源性業(yè)軟件,計算資源的算力性能及方案優(yōu)化對生信研發(fā)效率起著至關(guān)重要的作用。搜尋、比對、分析、遺傳發(fā)育分析等等,往往伴隨著巨大的數(shù)據(jù)處理量和并行計算量。同時,由于生命科學(xué)的研究對象往往是蛋白質(zhì)和

DNA

的大分子,對這些分子三維結(jié)構(gòu)的預(yù)測,動力學(xué)特性、熱力學(xué)特性、在生命過程基因組醫(yī)學(xué)發(fā)展路徑中如何發(fā)生作用,這些科學(xué)問題也要借助于高性能計算機(jī)。所以高性能計算機(jī)在生命科學(xué)研究中,應(yīng)用非常廣泛,了解基因組的結(jié)構(gòu)了解基因組生物學(xué)了解疾病生物學(xué)發(fā)現(xiàn)醫(yī)學(xué)科學(xué)提高護(hù)理效率扮演著及其重要的角色。分支機(jī)構(gòu)NHGRI同時,隨著人工智能(Artificial

Intelligence,AI)技術(shù)的興起,高性能計算HPC

中逐漸出現(xiàn)了

AI

for

Science,NIH定義了基因組醫(yī)學(xué)的5個步驟HPC+AI

極大地提升了生命科學(xué)領(lǐng)域的計算效率。隨著生命科學(xué)行業(yè)的研究問題越來越復(fù)雜,加上

AI

的不斷投(資料:E.Green等,《自然雜志》470

,入,構(gòu)建

HPC+AI

平臺成為滿足生命科學(xué)行業(yè)日益暴漲的算力需求的基本基礎(chǔ)架構(gòu)。204-213)生命科學(xué)行業(yè)涉及對微生物、動物和植物等所有生物進(jìn)行研究的科學(xué)領(lǐng)域,同時包括生物倫理學(xué)等相關(guān)領(lǐng)域的基因組測序(不只是轉(zhuǎn)錄組分析基因型-表型關(guān)系化學(xué)基因組學(xué)診斷法???????考量。生命科學(xué)的研究對提高人類的生活品質(zhì)有很大的助益。目前,生命科學(xué)已經(jīng)在醫(yī)療、農(nóng)業(yè)、保健、食品人類,還包括其它生(上位性分析)表觀基因組分析基于基因組的藥物遺傳咨詢GWAS,物體)??QTL分析研發(fā)宏基因組分析個性化治療工業(yè)和制藥等行業(yè)得到廣泛應(yīng)用,不斷造福人類。雖然,當(dāng)前生物學(xué)仍然是生命科學(xué)的中心,但隨著分子生物???基因組組裝功能基因組學(xué)?

RNAi研發(fā)預(yù)后生物分子相互作用?需要采取的措施??識別變異???(路徑)?學(xué)和生物技術(shù)的發(fā)展,生命科學(xué)已經(jīng)成為一個專精化、多學(xué)科交叉的領(lǐng)域。干細(xì)胞研究比較基因組學(xué)預(yù)防?(SNP識別)??建模(系統(tǒng)生物學(xué))基因組注釋?長期生活護(hù)理人類遺傳變異分析??蛋白質(zhì)模擬?多尺度器官模擬從全球范圍內(nèi)來看,21

世紀(jì)開始,全球生命科學(xué)領(lǐng)域的發(fā)展進(jìn)入快車道,尤其是人類基因組計劃的實(shí)施、干細(xì)結(jié)構(gòu)變異體?胞研究的不斷深入、克隆技術(shù)的不斷發(fā)展等因素都將生命科學(xué)領(lǐng)域的發(fā)展推向了新的高度,與之相對應(yīng)領(lǐng)域的解決方案步驟:研發(fā)投入也在不斷增加。作為對科技信息技術(shù)有強(qiáng)依賴的典型代表,生命科學(xué)行業(yè)的藥物研發(fā)和基因測序分析領(lǐng)域面臨著計算資源緊缺、研發(fā)周

期長等問題,為了解決這些問題,相關(guān)企業(yè)開始從傳統(tǒng)

IT

轉(zhuǎn)向上云,希望借測序轉(zhuǎn)化醫(yī)學(xué)個性化醫(yī)療助云計算平臺的資源優(yōu)勢加速藥物研發(fā)速度、提升測序數(shù)據(jù)分析效率,加快業(yè)務(wù)創(chuàng)新步伐,為用戶創(chuàng)造更大價值。聯(lián)想高性能計算和人工智能醫(yī)療行業(yè)白皮書0708聯(lián)想高性能計算和人工智能醫(yī)療行業(yè)白皮書生命科學(xué)的主要軟件生物信息學(xué)近

20

年來,隨著人類基因組計劃的相繼完成和各種模式生物的基因組計劃的順利實(shí)施,以及基因測序技術(shù)的生物領(lǐng)域中的高性能計算最大的特點(diǎn)就是種類多。不斷進(jìn)步,生命科學(xué)研究得到了巨大的發(fā)展。同時,海量的有關(guān)生物序列的數(shù)據(jù)不斷涌現(xiàn)。這些數(shù)據(jù)具有豐富的內(nèi)涵,其中蘊(yùn)含著大量的人類尚且不知道的生物學(xué)奧秘。①

結(jié)

構(gòu)

定:Illumina

bcl2fastq,Genome

Analys,HiSeq

2000,GAPipeline

等;ABI公司的

Solid3,Solid4,Bioscope。電鏡

EMAN,SPIDER;利用

Xray

方法測量用軟件

CCP4、ARP/生物信息學(xué)是研究生物信息的采集、處理、存儲、傳播、分析和解釋等各方面的一門學(xué)科,與以觀察和實(shí)驗(yàn)為wARP,CNS

進(jìn)行解析等;質(zhì)譜儀

tandom(X!tandom)

等。主的傳統(tǒng)生物學(xué)研究不同,它通過綜合利用生物學(xué)、計算機(jī)科學(xué)和信息技術(shù)而揭示大量而復(fù)雜的生物數(shù)據(jù)所蘊(yùn)含的生物學(xué)奧秘。生物信息學(xué)把

DNA

序列、蛋白質(zhì)序列以及其它相關(guān)生物數(shù)據(jù)作為分析對象,力求揭示

DNA②

生物信息學(xué)類計算:最常用的有

BLAST,F(xiàn)ASTA,HMMER,ClustalW,DNASTAR,PHYLIP,PAML,編碼區(qū)、蛋白質(zhì)、RNA

基因以及其基因組中非編碼序列的信息實(shí)質(zhì)。PAUP,T-Coffee,EMBOSS

等。③

分子動力學(xué)類計算:主要軟件有

AMBER,Charmm,NAMD,Gromacs

等,這類應(yīng)用非常適合大規(guī)模并行。1.測序技術(shù)介紹④

計算機(jī)輔助藥物設(shè)計類計算:應(yīng)用軟件有

DOCK

,AutoDock,F(xiàn)lexX,Discovery

Studio,ZDOCK,DNA

測序技術(shù)是現(xiàn)代分子生物學(xué)研究中最常用的技術(shù)。自

1977

年第一代測序技術(shù)問世以來,經(jīng)過三十多年的RDOCK,MORDOR

等。發(fā)展,DNA

測序技術(shù)取得重

大進(jìn)展,以高通量為特點(diǎn)的第二代測序技術(shù)逐漸走向市場,以單分子測序?yàn)樘攸c(diǎn)的第三代測序技術(shù)也已經(jīng)出現(xiàn),其分別在測序特點(diǎn)上占有不同的優(yōu)勢。測序技術(shù)的快速發(fā)展,使小型化

/

臺式高主要生命科學(xué)學(xué)科的工作負(fù)載通量測序儀成為現(xiàn)實(shí),這意味著大規(guī)?;蚪M測序?qū)⒉辉偈谴笮蛯?shí)驗(yàn)室或科研中心的專利,中小型實(shí)驗(yàn)室、公司、學(xué)科解決方案數(shù)據(jù)/應(yīng)用程序特點(diǎn)主要應(yīng)用程序臨床檢驗(yàn)中心都將能夠利用高通量測序技術(shù)快速高效的獲取大量信息,進(jìn)行科研或開發(fā)應(yīng)用。生物信息學(xué)搜索、對齊生物序列(和蛋結(jié)構(gòu)化數(shù)據(jù)整數(shù)占主導(dǎo),頻率依、、DNANCBI

BLAST

wuBLASTClustaIW

HMMER

FASTASmith-Waterman-序列分析白質(zhì))并對其進(jìn)行模式匹配賴性,大量緩存和內(nèi)存并非、、、BW關(guān)鍵,一些算法適合進(jìn)行SIMD2.第一代測序技術(shù)加速生物信息學(xué)對齊并合并短片段,以重建一些需要大量內(nèi)存、、、DNA?Phrap/phred

CAP3/PCAP

Velvet原始序列許多為IO密集型任務(wù)ABySS、SOAPdenovo、Newbler、20

世紀(jì)七十年代中期,Sanger

提出了經(jīng)典的雙脫氧核苷酸末端終止測序法,標(biāo)志著第一代測序技術(shù)的形成。-NGS??字符串分析和匹配算法MAQ、BOWTIE、BFAST、SOAP、、SAM工具、GATK,第一代測序技術(shù)完成人類基因組計劃,花費(fèi)了

30

億美元巨資,耗時長達(dá)三年,測序成本高,測序速度比較慢。BioScopeBowtie、Bwa等二代測序的比對工具,等數(shù)據(jù)預(yù)處理工具至今為止,應(yīng)用最廣泛的第一代

DNA

測序儀即是基于毛細(xì)管電泳和熒光標(biāo)記技術(shù)的

3730

系列自動測序儀。Fastqc生物化學(xué)篩選大型數(shù)據(jù)庫,查找具有所需大多為浮點(diǎn)數(shù)據(jù)、、、???Dock

Autodock

GLIDEFTDock

Ligand?t

Flexx-藥物研發(fā)生物活性的潛在藥物計算密集型極高、、高度并行任務(wù)3.第二代測序技術(shù)計算化學(xué)使用分子動力學(xué)和量子力學(xué)技術(shù)需要處理大量浮點(diǎn)數(shù)據(jù)、、???CHARMM/CHARMm

GROMACS-分子模擬和對生物分子進(jìn)行建模延遲至關(guān)重要、、、、Desmond

AMBER

NAMD

Gaussian量子力學(xué)頻率依賴性、、隨著人類基因組計劃的完成,傳統(tǒng)的測序方法已經(jīng)不能滿足深度測序和重

復(fù)測序等大規(guī)?;蚪M測序的需求,GAMESS

Jaguar

NWCHEM?

可縮短到100秒以下蛋白質(zhì)組學(xué)解讀質(zhì)譜分析數(shù)據(jù),將頻譜與蛋整數(shù)比較、、這促使了以高通量為顯著特征的第二代測序技術(shù)的誕生。第二代測序技術(shù)主要包括

454

公司的

GS

FLX

測序平?Mascot

Sequest白質(zhì)數(shù)據(jù)庫進(jìn)行匹配?

FFT頻譜分析具有浮點(diǎn)數(shù)據(jù)ProteinProspector、臺、Illumina

公司的

SolexaGenomeAnalyzer

測序平臺和

ABI

公司的

SOLiD

測序平臺。?

對通信要求不高X!Tandem、OMSSA結(jié)構(gòu)生物學(xué)用物理學(xué)方法,配合生物化學(xué)和數(shù)據(jù)量大為典型代表優(yōu)化454

測序技術(shù)利用了焦磷酸測序原理。454

測序系統(tǒng)是第二代測序技術(shù)中第一個商業(yè)化運(yùn)營的測序平臺。其在??Relio(GPU)分子生物學(xué)方法研究生物大分子計算密集型結(jié)構(gòu)與功能的新學(xué)科2005

年最早推出了第二代測序平臺

Genome

Sequence

20,完成支原體

Mycoplasm

a

genitalium

基因組測序。并在

2007

年推出性能更優(yōu)的測序平臺

GSFLX。2010

年秋,該公司自行研制的

GSJunior

測序儀上市,其在系統(tǒng)性能方面均得到提升。目前,GSJunior

測序儀平均讀取長度長達(dá)

400bp,每次運(yùn)行得到超過

35MB高質(zhì)量過濾后的數(shù)據(jù),準(zhǔn)確率達(dá)

99%,平均運(yùn)行時間為

10

小時,更適合規(guī)模較小的實(shí)驗(yàn)室。與第二代測序平臺相比,454

技術(shù)最大的優(yōu)勢在于較長的讀取長度,使得后繼的序列拼接工作更加高效、準(zhǔn)確。但是,454

技術(shù)無法準(zhǔn)確測量同聚物的長度,其技術(shù)的主要錯誤主要于核苷酸的插入或缺失。聯(lián)想高性能計算和人工智能醫(yī)療行業(yè)白皮書0910聯(lián)想高性能計算和人工智能醫(yī)療行業(yè)白皮書Solexa

測序技術(shù)主要采用邊合成邊測序的方法

(SBS)。2009

年,Solex

推出了對讀測序的方法,使得在技術(shù)在測序完成前,各小片段的測序進(jìn)度不同。另外,類似于

454

技術(shù),Heliscope

在面對同聚物時也會遇到一些層面上取得了進(jìn)步。目前,新一代的

Illumina

HiSeq

2000

測序儀的讀取長度長達(dá)

2×100bp,每次運(yùn)行能夠困難。但這個問題并不會十分嚴(yán)重

,因?yàn)橥畚锏暮铣蓵?dǎo)致熒光信號的減弱,可以根據(jù)這一點(diǎn)來推測同聚物得到大約

200Gbp的數(shù)據(jù),精確度達(dá)

99.5%

以上,使得在后續(xù)的序列拼接工作的計算量和難度上均有所增加。的長度。此外,可以通過二次測序來提高

Heliscope

的準(zhǔn)確度,即在第一次測序完成后,通過變性和洗脫移除

3'Solexa

技術(shù)在合成中每次只能添加一個

dNTP,很好的解決了同聚物長度的問題,其技術(shù)的主要錯誤主要末端帶有

Poly(A)

的模板鏈,而第一次合成的鏈由于

5'

末端上有固定在平板上的寡聚

Poly(T),因而不會被洗是核苷酸的替換,其錯誤率大約在

1%-1.5%

之間。脫掉。第二次測序以第一次合成的鏈為模板,對其反義鏈進(jìn)行測序。對

Heliscope

來說,由于在合成中可能摻有未標(biāo)記的堿基,因此其最主要的錯誤是缺失。一次測序的缺失錯誤率約為

2-7%,二次測序的缺失錯誤率SOLiD技術(shù)利用了

DNA

連接酶測序的方法,通過連接反應(yīng)進(jìn)行測序。其基本原理是以四色熒光標(biāo)記的寡核苷約為

0.2-1%。相比之下替換錯誤率很低,一次測序的替換錯誤率僅為

0.01-1%。總體來說,采用二次測序方法,酸進(jìn)行多次連接合成,取代傳統(tǒng)的聚合酶連接反應(yīng)。SOLiD

是ABI

公司于

2007

年底推出的全新測序技術(shù),目Heliscope

可以實(shí)現(xiàn)目前測序技術(shù)中最低的替換錯誤率,即

0.001%。前已發(fā)展到

SOLiD4Plus,其讀長達(dá)到

50bp,每次運(yùn)行能夠得到

80-100Gbp

的數(shù)據(jù)量。(sdarticle)最新研發(fā)出來的

5500xlsolid系統(tǒng)(SOLiD4hp)每次運(yùn)行能夠得到

240Gbp數(shù)據(jù)量,其準(zhǔn)確率達(dá)到

99.94%。然而,Pacific

Biosciences

公司的

SMRT

技術(shù)基于邊合成邊測序的思想,以

SMRT

芯片為測序載體進(jìn)行測序反應(yīng)。盡管新一代測序技術(shù)優(yōu)勢多,其局限性也不容忽視,測序速度提高了,但是測序產(chǎn)生的海量數(shù)據(jù)卻為后續(xù)的分SMRT

芯片是一種帶有很多

ZMW(zero-mode

waveguides)

孔的厚

度為

100

nm

的金屬片。將

DNA

聚合析與存儲帶來了巨大的挑戰(zhàn)。酶、待測序列和不同熒光標(biāo)記的

dNTP

放入

ZMW

孔的底部,進(jìn)行合成反應(yīng)。與其他技術(shù)不同的是,熒光標(biāo)記的位置是磷酸基團(tuán)而不是堿基。當(dāng)一個

dNTP

被添加到合成鏈上的同時,它會進(jìn)入

ZMW

孔的熒光信號檢測區(qū)相對于

Sanger

測序技術(shù),第二代測序技術(shù)具有成本低、高度并行化和通量高速度快的優(yōu)點(diǎn)。但第二代測序儀并在激光束的激發(fā)下發(fā)出熒光,根據(jù)熒光的種類就可以判定

dNTP

的種類。此外由于

dNTP

在熒光信號檢測區(qū)又有各自的特點(diǎn):停留的時間(毫秒級)與它進(jìn)入和離開的時間(微秒級)相比會很長,所以信號強(qiáng)度會很大。其它未參與合成的

dNTP

由于沒進(jìn)入熒光型號檢測區(qū)而不會發(fā)出熒光。在下一個

dNTP

被添加到合成鏈之前,這個

dNTP

的磷454:

讀長較長(可達(dá)

400bp),但通量較小,比較適合用來測量較長的

DNA

片段或全新測序

(de

novo酸基團(tuán)會被氟聚合物(fluoropolymer)切割并釋放,熒光分子離開熒光信號檢測區(qū)。SMRT

技術(shù)的測序速度sequencing),例如:可用它測序個人基因組?已經(jīng)測序出

Watson

的基因組(7.4

的覆蓋

率)和

Nean-很快,利用這種技術(shù)測序速度可以達(dá)到每秒

10

dNTP。derthal的

DNA序列。Oxford

Nanopore

Technologies

公司正在研究的納米孔單分子技術(shù)是一種基于電信號測序的技術(shù)。他們設(shè)計Solexa:讀長較短(35-50

bp),但通量大,機(jī)器運(yùn)行一次就可產(chǎn)生

1.5

Gb,用

pair-ended

庫測序數(shù)據(jù)量可了一種以

α-

溶血素為材料制作的納米孔,在孔內(nèi)共價結(jié)合有分子接頭環(huán)糊精。用核酸外切酶切割

ssDNA

時,達(dá)

3Gb。Solexa

多數(shù)情況下用于測序小片段的核苷酸序列,如

ChIP-seq、mRNA-seq

等等;其深度測序也被切下來的單個堿基會落入納米孔,并和納米孔內(nèi)的環(huán)糊精相互作用,短暫地影響流過納米孔的電流強(qiáng)度,這可用于人的基因組序列,但其覆蓋

率一般比較高(>30倍)。種電流強(qiáng)度的變化幅度就成為每種堿基的特征。堿基在納米孔內(nèi)的平均停留時間是毫秒級的,它的解離速率常數(shù)與電壓有關(guān),180

mV

的電壓就能夠保證在電信號記錄后將堿基從納米孔中清除。納米孔單分子技術(shù)的另一SOLiD:性能參數(shù)與

Solexa接近,但通量略高,機(jī)器運(yùn)行一次可產(chǎn)生

3

6Gb的數(shù)據(jù),但需花

6

10天(而大特點(diǎn)是能夠直接讀取甲基化的胞嘧啶,而不像傳統(tǒng)方法那樣必須要用重

亞硫酸鹽(bisulfite)處理,這對于Solexa

運(yùn)行一次花

3天)。在基因組水平研究表觀遺傳相關(guān)現(xiàn)象提供了巨大的幫助。納米孔單分子技術(shù)的準(zhǔn)確率能達(dá)到

99.8%,而且一旦發(fā)現(xiàn)替換錯誤也能較容易地更改,因?yàn)?/p>

4

種堿基中的

2

種與另外

2

種的電信號差異很明顯,因此只需在與檢測第三代測序技術(shù)到的信號相符的

2

種堿基中做出判斷,就可修正錯誤。另外由于每次只測定一個核苷酸,因此該方法可以很容4.易地解決同聚物長度的測量問題。該技術(shù)尚處于研發(fā)階段,目前面臨的兩大問題是尋找合適的外切酶載體以及近期出現(xiàn)的

Helicos

公司的

Heliscope

單分子測序儀、Pacific

Biosciences

公司的

SMRT

技術(shù)和

Oxford承載納米孔平臺的材料。NanoporeTechnologies

公司正在研究的納米孔單分子技術(shù),被認(rèn)為是第三代測序技術(shù)。與前兩代技術(shù)相比,他們最大的特點(diǎn)是單分子測序。其中,Heliscope

技術(shù)和

SMRT

技術(shù)利用熒光信號進(jìn)行測序,而納米孔單分子5.測序技術(shù)應(yīng)用測序技術(shù)利用不同堿基產(chǎn)生的電信號進(jìn)行測序。Helicos公司的

Heliscope

單分子測序儀基于邊合成邊測序的思想,將待測序列隨機(jī)打斷成小片段并在

3'

末端目前,第三代測序技術(shù)尚處于研發(fā)階段,第二代測序技術(shù)已經(jīng)應(yīng)用于基因組學(xué)研究的各個方面,因此主要介紹加上

Poly(A),用末端轉(zhuǎn)移酶在接頭末端加上

Cy3

熒光標(biāo)記。用小片段與表面帶有寡聚

Poly(T)

的平板雜交。第二代測序技術(shù)在基因組測序及轉(zhuǎn)錄測序等方面的應(yīng)用。然后,加入

DNA

聚合酶和

Cy5

熒光標(biāo)記的

dNTP

進(jìn)行

DNA

合成反應(yīng),每一輪反應(yīng)加一種

dNTP。將未參與合成的

dNTP

DNA

聚合酶洗脫,檢測上一步記錄的雜交位置上是否有熒光信號,如果有則說明該位置上結(jié)合了所加入的這種

dNTP。用化學(xué)試劑去掉熒光標(biāo)記,以便進(jìn)行下一輪反應(yīng)。經(jīng)過不斷地重

復(fù)合成、洗脫、成像、淬滅過程完成測序。Heliscope

的讀取長度約為

30-35bp,每個循環(huán)的數(shù)據(jù)產(chǎn)出量為

21-28Gb。值得注意的,聯(lián)想高性能計算和人工智能醫(yī)療行業(yè)白皮書11算6.DNA

測序沒有注釋的小片段

RNA

進(jìn)行預(yù)測,更重要的是通量的增加甚至可以捕捉體內(nèi)一些低表達(dá)的小

RNA,在小

RNA檢測方面確實(shí)具有極大的優(yōu)勢。全基因組測序新一代高通量測序技術(shù)的發(fā)展,使得物種全基因組測序變得速度快、效率和準(zhǔn)確率更高,越來越多的物種基因表觀遺傳學(xué)8.組信息相繼公布。全基因組測序主要應(yīng)用與基因組序列未知的物種,DNA

片段測序后,用生物信息學(xué)軟件對序列進(jìn)行拼接、組裝,從而獲得該物種的基基因組序列圖譜。甲基化測序因組重

測序DNA

甲基化是可改變?nèi)旧|(zhì)結(jié)構(gòu)、DNA

穩(wěn)定性及

DNA

與蛋白質(zhì)相互作用的一種重要基因調(diào)控方式,以達(dá)到控制基因表達(dá)的目的。高通量測序技術(shù)在檢測全基因組范圍內(nèi)的甲基化位點(diǎn)方面也提出了高效的解決方案。重測序是指該物種基因組序列已被測序,有參考基因組序列的測序工作。第

2

代高通量測序技術(shù)目前應(yīng)用最為其原理為:由于在哺乳動物中甲基化一般發(fā)生在

CpG

的胞嘧啶

5

位碳原子上,所以可通過特異性結(jié)合甲基化廣泛的領(lǐng)域就是對已知基因組物種進(jìn)行重

新測序,基因組結(jié)構(gòu)變異、單核苷酸多態(tài)性、群體多態(tài)性、突變熱點(diǎn)DNA

的蛋白

MBD2b

5′

-

甲基胞嘧啶抗體富集高甲基化的

DNA

片段,用高通量測序?qū)Ω患降?/p>

DNA

片段等重要信息都是通過重

測序研究發(fā)現(xiàn)的。進(jìn)行測序,從而檢測全基因組范圍內(nèi)的甲基化位點(diǎn)。宏基因組研究轉(zhuǎn)錄因子結(jié)合位點(diǎn)測序宏基因組學(xué)(Meta-Genomics)測序是近年來提出的一種新概念,即不再進(jìn)行分離,而是從整體上研究整個微轉(zhuǎn)錄因子是通過與

DNA

特定區(qū)域相結(jié)合,開啟或關(guān)閉基因的表達(dá)以達(dá)到調(diào)控基因表達(dá)目的的一種生物體內(nèi)生物種群結(jié)構(gòu)的特征,研究對象從單一基因組發(fā)展到基因組集合,擺脫了對于傳統(tǒng)基因組研究的物種限制,開常見的調(diào)控蛋白。染色質(zhì)免疫共沉淀技術(shù)(ChIP)也稱結(jié)合位點(diǎn)分析法,是研究體內(nèi)蛋白質(zhì)(轉(zhuǎn)錄因子)與辟了微生物群體,特別是不可培養(yǎng)微生物菌群基因組學(xué)研究的新路徑。該類研究的具體操作方法是在提取微生DNA

相互作用的有力工具,通常用于轉(zhuǎn)錄結(jié)合位點(diǎn)或組蛋白特異性修飾位點(diǎn)的研究。將

ChIP

與第

2

代高通量物種群的總

DNA

后,制備整個種群的

DNA

文庫,然后進(jìn)行高通量的測序,從而在整體上對樣品群落進(jìn)行分析。測序技術(shù)相結(jié)合的

ChIP-Seq

技術(shù),能夠高效地在全基因組范圍內(nèi)檢測與組蛋白、轉(zhuǎn)錄因子等互作的

DNA

區(qū)段。與傳統(tǒng)的微生物研究相比,宏基因組研究跳出了實(shí)驗(yàn)室培養(yǎng)的局限,真實(shí)地描述了大自然生態(tài)群落的復(fù)雜性和ChIP-Seq

的原理是,首先通過染色質(zhì)免疫共沉淀技術(shù)(ChIP)特異性地富集目的蛋白結(jié)合的

DNA

片段,并多樣性,對于人類更好地了解微生物群落有著重要的意義。目前,歐盟推出的人類腸道宏基因組計劃(MetaHIT),對其進(jìn)行純化與文庫構(gòu)建,然后對富集得到的

DNA

片段進(jìn)行高通量測序。研究人員通過將獲得的數(shù)百萬條序列就是通過研究人類腸道中所有的微生物種類,為明確腸道微生物與肥胖等人類疾病的關(guān)系提供重要的理論依據(jù)。標(biāo)簽精確定位到基因組上,從而獲得全基因組范圍內(nèi)與組蛋白、轉(zhuǎn)錄因子等互作的

DNA區(qū)段信息。7.

RNA

測序9.測序數(shù)據(jù)處理轉(zhuǎn)錄組測序基本的數(shù)據(jù)處理和分析涉及:生物體最主要的調(diào)控方式就是轉(zhuǎn)錄水平的調(diào)控,而作為目前從全基因組水平研究基因表達(dá)的主流方法,建立在第一步,對測序獲取的短序列進(jìn)行比對拼接。如果是重測序,可以用

bowtie

進(jìn)行參考基因組比對,即匹配測高通量測序技術(shù)基礎(chǔ)上的轉(zhuǎn)錄組研究已逐漸取代了基因芯片技術(shù)。該方法對大量樣品同時進(jìn)行測序,可獲得樣序短片段在參考基因組上的位置;如果是對新物種進(jìn)行從頭

(De

Novo)測序,用

velvet

進(jìn)行拼接,即利用測品之間的表達(dá)差異,而同一樣品進(jìn)行深度測序時可以捕獲低表達(dá)的基因。此外,還可以獲得轉(zhuǎn)錄本表達(dá)豐度、序短片段重

構(gòu)基因組序列。轉(zhuǎn)錄發(fā)生位點(diǎn)、轉(zhuǎn)錄本

SNP、可變剪切等重要信息,因此,轉(zhuǎn)錄組測序越來越多地用于各種生物的差異表達(dá)基因的篩選及可變剪切的鑒定等方面。第二步,比對拼接后,進(jìn)行全基因組基因注釋。包括基因組組分分析,SNP

分析,編碼基因預(yù)測,重

復(fù)序列注釋,Non-codingRNA基因進(jìn)行功能

(GeneOntology,Pathway

)

注釋??梢杂?/p>

InterproScan,WEGO。因組和分子進(jìn)化分析。如快速進(jìn)化

(Rapid

Evolution)

分析

,

共線性分析

(SyntenyBlock),因注釋,MicroRNA

基因注釋等。如

SNP

分析可以用

MAQ。小分子

RNA

測序第三步,對預(yù)測的基小分子

RNA

近幾年受到了科學(xué)界的廣泛關(guān)注,它是一類長約

20

30

個核苷酸的非編碼

RNA

分子,其介導(dǎo)的轉(zhuǎn)錄后基因調(diào)控是生物體的一種新型基因調(diào)控機(jī)制,它在生物體的生長發(fā)育和適應(yīng)外界各種環(huán)境脅迫的過程第四步,比較基中起著非常重要的作用。傳統(tǒng)的對小分子

RNA

的研究方法主要包括克隆測序法、正向遺傳學(xué)篩選、芯片技術(shù)等,基因家族分析等。常用的進(jìn)化樹分析軟件如

MEGA。而高通量測序給小分子

RNA

研究拓展了新的思路。高通量測序技術(shù)既能捕捉真實(shí)存在的小

RNA,同時也能對這個過程中,突出的問題有:聯(lián)想高性能計算和人工智能醫(yī)療行業(yè)白皮書1314聯(lián)想高性能計算和人工智能醫(yī)療行業(yè)白皮書①

軟件選擇難。對應(yīng)某一功能有上百種軟件可選,隨著儀器的更新?lián)Q代,數(shù)據(jù)格式的變化,同一款軟件的算法雖能利用高覆蓋

度來處理測序產(chǎn)生的錯誤,但其也只適合拼接病毒和細(xì)菌這些較短較簡

單的基因組。不斷升級;SHARCGS

延續(xù)了

VCAKE

對拼接不確定的處理,并加入了對測序錯誤的修復(fù),從而有效提高了拼接質(zhì)量。與②

分析效率不高。多為領(lǐng)域?qū)<乙蕾嚹_本語言和庫寫成的軟件,未考慮與硬件資源使用的匹配。基本少有優(yōu)化,SSAKE

VCAKE

相比,它在內(nèi)存、速度、準(zhǔn)確度上都有所改善。但這

3

種算法核心相似,所有它們的整體并行化,串行或多線程軟件居多;性能差別不大,都只能應(yīng)用在簡

單病毒、細(xì)菌基因組的拼接上,且較為耗時。③

分析流程中多軟件銜接難。多數(shù)的高通量測序數(shù)據(jù)分析需幾個軟件配合完成,各軟件通過腳本和大數(shù)據(jù)的重基Overlap-Layout-Consensus(OLC)拼接策略一般分為以下

3

個步驟:于的拼接策略O(shè)verlap-Layout-Consensus復(fù)讀寫(數(shù)據(jù)格式也需匹配)來協(xié)調(diào)。例如,比對之后做

SNP

檢測,那么比對結(jié)果將作為

SNP

分析的輸入;④

各軟件資源使用特征差異大。例如,拼接軟件需要大量的內(nèi)存消耗,比對則是典型的數(shù)據(jù)密集計算。Overlap,對所有的

read

進(jìn)行兩兩比對,以獲得可能存在的重

疊信息,并建立重

疊圖,通常將每個

read

看作除了各分析算法上的不斷優(yōu)化,當(dāng)前業(yè)界突出的兩方面進(jìn)展表現(xiàn)在工作流系統(tǒng)和云計算的應(yīng)用。比如

UCSC

開圖上的一個節(jié)點(diǎn),當(dāng)

readA

的后綴和

readB

的前綴具有超過閾值的重

疊時,A和

B

建立連接;發(fā)的針對第二代測序數(shù)據(jù)分析的應(yīng)用系統(tǒng)

Galaxy,Notre

Dame

大學(xué)仿

makefile

開發(fā)的用來在集群、云和Layout,分析重

疊圖,盡可能尋找貫穿重

疊圖上所有節(jié)點(diǎn)的合適路徑,但在實(shí)際執(zhí)行中由于測序錯誤或重

復(fù)序網(wǎng)格中執(zhí)行大而復(fù)雜任務(wù)的工作流引擎

Makeflow;計算大規(guī)模

RNA-seq

數(shù)據(jù)集基因差異表達(dá)的云計算工具列等原因,尋找的結(jié)果是多條路徑,即多個

DNA序列片段;Myrna,基于序列片段數(shù)據(jù)進(jìn)行

SNPcalling

MapReduce

軟件

Crossbow。根據(jù)多個序列片段比對得到最后的結(jié)果序列,稱作

"Consensus"序列。10.

denovo

序列拼接OLCNP策略理想的情況是在重

疊途中找到一條路徑能夠遍歷所有的節(jié)點(diǎn),即尋找圖的Hamilton路徑,是一個問題,因此使用這種策略的拼接工具通常時間復(fù)雜度較高。新一代基因測序技術(shù)所產(chǎn)生的序列片段具有序列短、高覆蓋

率、額外的雙端信息等特點(diǎn)。大量的

overlap(重疊區(qū)域)的產(chǎn)生,增加了組裝算法的計算量,初始測序數(shù)據(jù)的龐大對算法內(nèi)存的要求隨之增加。這就使得序列組目前典型的拼接工具包括:CABOG,Edena,Newbler

Shorty。Newbler

只適用于

Roche

/454

測序儀裝軟件不僅要處理重

疊區(qū)域,片段間隔,還要處理短片段。而且短片段通常使得前兩個問題更加嚴(yán)重

。de

novo產(chǎn)生較長

read

數(shù)據(jù)

(250-400bp),并設(shè)計特定的過程用于處理

454

測序儀在均聚物位置長度不確定問題;序列組裝問題就是對測序產(chǎn)生的大量長度為

50bp

100bp

的重

疊序列片段進(jìn)行比對合并,以重

構(gòu)源序列。而CABOG,Newbler

Shorty

都在拼接過程中對測序錯誤和

repeat

進(jìn)行了處理。CABOG

也只能對

100bp基因組源序列的長度長達(dá)幾個

Gbp。因此,如果沒有高效的序列組裝軟件,對大基因組測序后產(chǎn)生的數(shù)以億計長度以上的

read

進(jìn)行拼接方能實(shí)現(xiàn)較好的拼接性能,它使用了一種稱為

"rocks

andstones"的技術(shù)實(shí)現(xiàn)對測重疊序列片段進(jìn)行組裝幾乎是不可能的。序錯誤的糾正;Shorty

Edena

都適用于短

read

數(shù)據(jù)的拼接,Edena

建立

transitively

reduced

疊圖降低圖的復(fù)雜度;Shorty

能通過

300-500bp

長度的配對末端

read

數(shù)據(jù)來估計拼接得到的序列片段間的距離,目前廣泛使用的拼接策略大致分為三類:Greedyextension,Overlap-Layout-Consensus

deBruijngraph。目前它更多地針對于拼接

ABI

測序儀的

SOLiD類型數(shù)據(jù)?;?/p>

Greedy-extension

的拼接策略基于

deBruijngraph的拼接策略Greedy-extension

拼接策略從一個

read

出發(fā),將其作為種子序列,搜索所有其前綴與種子序列的后綴具有超現(xiàn)在使用最多的是DeBruijn圖算法,其代表軟件包括Euler,

allpaths,velvet、idba、soapdenovo和abyss等。過閾值重疊

(

overlap)

read,或選擇具有最大重

疊長度的

read

進(jìn)行延伸,或通過投票選擇最大可能的堿基該算法思想是“反直覺”法:在將

reads

組裝前,將其切分為長度為

k

的子串,每一個節(jié)點(diǎn)

N

代表了一系列長進(jìn)行延伸,然后將延伸的結(jié)果作為種子序列,迭代延伸來完成拼接。Greedy-extension

拼接策略是一種貪心度為

k

的子串,稱為

k-mers。相鄰的

k-mers

之間存在

N-1

個重

疊的堿基?;蛐蛄信挪夹畔⒂梢来沃?/p>

疊的策略,可能出現(xiàn)錯誤延伸。k-mers

最后一個堿基的讀取順序決定。N

節(jié)點(diǎn)上的基因序列的內(nèi)容表示為

s(N)。由于序列的測定的方向性并不明確,為了保證序列組裝的正確性,對于每一個

N

節(jié)點(diǎn),都有一個反向的

N'

節(jié)點(diǎn)而對應(yīng),N

N'

是關(guān)聯(lián)在使用

Greedy-extension

拼接策略具有代表性的拼接工具包括

SHARCGS,SSAKE,VCAKE

QSRA。一起的,所有對于

N

的操作同時也對

N'

有效。De

Bruijn

圖算法的目的在于得到?jīng)]有分支的最大路徑,基于此在

SSAKE

中,首先從

hash

表中選取數(shù)量最多的

read

作為種子,然后采用絕對貪婪的方法,檢索出與種子最大路徑,得到

contigs。DeBruijn

圖算法的主要工作就是通過獲得的原始數(shù)據(jù)構(gòu)建一個有眾多

N

節(jié)點(diǎn)的圖,匹配的

read,并按一定規(guī)則拼接,同時補(bǔ)充相應(yīng)的反向互補(bǔ)序列,逐步形成雙鏈

config(即根據(jù)

read

間的然后用“邊”來連接這些節(jié)點(diǎn),從而構(gòu)建一個連續(xù)的序列信息。overlap,由

read

拼接成的片段重

疊群),從而實(shí)現(xiàn)序列的擴(kuò)展。當(dāng)源數(shù)據(jù)的覆蓋

度很高時,SSAKE

可以從頭拼接一些簡

單病毒的

DNA,但是拼接長度較短,而且對于真實(shí)測序中產(chǎn)生的錯誤,SSAKE

無能為力。在

Velvet

中,它先根據(jù)

k-mer

構(gòu)建

de

Bruijin

圖,然后結(jié)合序列特征及圖的結(jié)構(gòu)特征,處理圖中的錯誤read,最后找到一條最優(yōu)路徑作為拼接結(jié)果。與之前的算法相比,在拼接速度上有所提高,但由于沒有對數(shù)據(jù)VCAKE

是對

SSAKE

的修訂,它將所有與種子有

overlap

read

考慮到,并且每次只擴(kuò)展一個堿基。VCAKE進(jìn)行壓縮處理,所以占用內(nèi)存較多。聯(lián)想高性能計算和人工智能醫(yī)療行業(yè)白皮書1516聯(lián)想高性能計算和人工智能醫(yī)療行業(yè)白皮書13.序列比對方法需求特點(diǎn)①

allpaths,velvet

等軟件均為單機(jī)多線程運(yùn)行,對內(nèi)存需求較大,對存儲性能要②

abyss

可進(jìn)行分布式運(yùn)算求較高;目前已知的序列比對方法很多,依據(jù)不同的劃分方式有不同的分類。根據(jù)同時進(jìn)行比對序列的數(shù)目分為兩兩比對和多序列比對,從比對范圍考慮分為全局比對和局部比對。,將數(shù)據(jù)分布式存儲于每個節(jié)點(diǎn)上,采用

MPI

實(shí)現(xiàn)節(jié)點(diǎn)間通信。雙序列比對根據(jù)算法結(jié)構(gòu)的不同,將雙序列比對算法分為三類:動態(tài)規(guī)劃的優(yōu)化方法,啟發(fā)式算法和大型數(shù)據(jù)庫搜索設(shè)計11.序列比對的概率方法。生物序列比對的基本思想是基于分子生物學(xué)中的一條經(jīng)驗(yàn)規(guī)則,即當(dāng)兩個分子享有相似的序列時,由于進(jìn)化關(guān)系或者物理化學(xué)限制,它們將很有可能具有相似的結(jié)構(gòu)和生物學(xué)功能。因此序列比對(Sequence

Alignment)①

動態(tài)規(guī)劃的優(yōu)化算法的基本問題是比較兩個或兩個以上符號序列的相似性或不相似性,盡可能確切的反映它們之間的相似性和不相Needleman-Wunsch

算法是最早的序列比對算法,屬于全局序列比對,在生物信息處理中應(yīng)用廣泛。似性,用于闡明序列之間的同源關(guān)系,通過序列比對,找出序列之間的相似性,發(fā)現(xiàn)與結(jié)構(gòu)相聯(lián)系的保守序列片段,Smith-Waterman

算法是一種局部相似性的動態(tài)規(guī)劃算法,在識別局部相似性時具有很高的靈敏度,是雙序以及檢測新測定序列與數(shù)據(jù)庫中已知結(jié)構(gòu)和功能的序列之間的相似性關(guān)系,從而以足夠的可信度確定新序列的列比對算法中最基本的算法。結(jié)構(gòu)和功能信息。②

啟發(fā)式算法對于第二代測序平臺數(shù)據(jù)的分析,最為重要的一步是將所產(chǎn)生讀段通過序列比對形式完成序列相似性比較。由于第二代測序平臺數(shù)據(jù)通量高,因此,第二代序列比對方法一般分為兩步:首先對讀段數(shù)據(jù)或者參考基因組進(jìn)1)FASTA

算法行歸類整理等預(yù)處理;然后通過適當(dāng)?shù)乃惴ǎ瑢⒍套x段序列進(jìn)行比對和定位。FASTA

是雙序列比對啟發(fā)式算法

,

采用了改進(jìn)的

wilbllr

Lipmall

算法以集中反映具有顯著意義的比對結(jié)果。它的基本思想是:一個能揭示出真實(shí)序列關(guān)系的比對至少包含一個兩條序列都擁有的片段,把查詢序列中的所12.高通量數(shù)據(jù)預(yù)處理方法有片段編成

Hash

表,然后在數(shù)據(jù)庫搜索時查詢這個

Hash

表,以檢索出可能的匹配,這樣命中的片段就能很快地被鑒定出來。對高通量的序列片段數(shù)據(jù)進(jìn)行的預(yù)處理方法一般有兩類,即基于哈希表的方法和基于后綴

trie

Burrows-Wheeler轉(zhuǎn)換思想。2)BLAST

算法基于哈希表的方法基本思想是對參考基因序列(也有少數(shù)工具是對讀段序列)建立哈希表,使用定長的種子在BLAST

算法可以兼顧搜尋的速度以及搜尋結(jié)果的精確度,它比

FASTA

速度更快。它的基本思想是:產(chǎn)生比參考基因序列中選取序列與查詢序列比對。基于哈希表思想的方法的優(yōu)點(diǎn)是具有較高的匹配敏感性和準(zhǔn)確性,F(xiàn)ASTA

更少而更有意義的增強(qiáng)點(diǎn),以提高整個算法的速度。BLAST

算法在不失敏感性的前提下大大提高了算但也有如下不足:第一,占用的內(nèi)存空間大;第二,產(chǎn)生的種子匹配過多。法的效率。為解決第一個問題,有學(xué)者提出了空位種子方法。該方法簡

單來說,就是在定長的種子中空出個別位置,延長3)BLAT

算法種子長度。使用該方法的比對工具主要有:SOAP,MAQ,RMAP,Mosaik

等。BLAT

算法最初用于人類基因組拼接和注釋過程中的大規(guī)模數(shù)據(jù)比對任務(wù)上。其速度快、共線性輸出結(jié)果簡單為解決第二個問題,有學(xué)者提出了后綴

Trie

方法。后綴

Trie

是一種

n

叉樹,n

為字母表大小。每個節(jié)點(diǎn)表示從易讀,存在的局限性是對于特殊的任務(wù)需要選擇合適的軟件,如:用于遠(yuǎn)親緣物種間的核酸序列比對時,比對根節(jié)點(diǎn)到此節(jié)點(diǎn)所經(jīng)過的所有字符組成的字符串,它的根結(jié)點(diǎn)不包含任何信息,是一種以犧牲存儲空間來降低精度就不夠高;在重

復(fù)搜索短小匹配片段的同時,會產(chǎn)生過多的沒有生物學(xué)意義的序列比對碎片。序列查詢時間的字符串預(yù)處理方式。后綴

Trie

的主要特征是:對于任何葉子

i,從根節(jié)點(diǎn)到該葉子所經(jīng)歷的邊的所有標(biāo)識串聯(lián)起來后恰好拼出

S

的從

i

位置開始的后綴,即

S[i,…,m]。樹中節(jié)點(diǎn)的標(biāo)識被定義為從根到該③

大型數(shù)據(jù)庫搜索設(shè)計的概率方法為基礎(chǔ)的算法節(jié)點(diǎn)的所有邊的標(biāo)識的串聯(lián)。后綴

trie

思想即通過

n

叉樹的形式組織各序列,利用字符串集合中字符串的公共MUMmer

算法是一種基于后綴樹數(shù)據(jù)結(jié)構(gòu)的全基因組比對方法,利用后綴樹的數(shù)據(jù)結(jié)構(gòu)有效地將算法的時間和部分來降低時間開銷以達(dá)到提高效率的目的,后綴

trie

就是包含了所給字段的所有后綴??臻g復(fù)雜度由

(N

)

降到了

(N)。與

BLAST

算法相比,其后綴樹法在速度上快得多,且能處理大量的插入和刪3基于后綴

Trie

思想的

Burrows-Wheeler

轉(zhuǎn)換可以用“循環(huán)、排序”四個字來概括。采用

Burrows-Wheeler除片段,能識別重

復(fù)片段和單核酸多態(tài)性等多種全基因組序列中的復(fù)雜片段。轉(zhuǎn)換的代表是Bowtie

SOAP2,BWA,BWASW。聯(lián)想高性能計算和人工智能醫(yī)療行業(yè)白皮書1718聯(lián)想高性能計算和人工智能醫(yī)療行業(yè)白皮書多序列比對組合后的片段進(jìn)行比對,就有可能找出該短小片段在基因組中最有可能的位點(diǎn)。采用空位種子片段索引法的代表是MAQ,ELAND,SOAP2

等。多序列比對算法的基礎(chǔ)是動態(tài)規(guī)劃比對算法,但隨著比對序列數(shù)目及長度的增加,問題的解空間也急劇增大。多序列比對的常用算法有漸進(jìn)算法、隱馬爾科夫模型、迭代比對法等。累進(jìn)方法是最常用的啟發(fā)式多序列比對2)Smith-Waterman

思想:Smith-Waterman

思想可以概括為一個評價打分技術(shù),它基于動態(tài)規(guī)劃策略的算法。局部序列比對技術(shù),在一條搜索路徑中分?jǐn)?shù)可能增加、減少或者不變。通過相似性評估技術(shù)來對當(dāng)前節(jié)點(diǎn)打分,相同節(jié)點(diǎn)則增分,不同節(jié)點(diǎn)則減分,并且必須有間隙(Gap)

懲罰機(jī)制來處理片段空隙

。比較有代表性的使用該①

漸進(jìn)比對算法策略的比對軟件有:SHRIMP、BFAST、Mosaik

BWA-SW

等。漸進(jìn)比對算法是最常用的啟發(fā)式多序列比對算法。算法的基本假設(shè)是要比對的序列是同源的。算法的基本思想需求特優(yōu)點(diǎn)是點(diǎn)是由近至遠(yuǎn)將序列或子比對結(jié)果按雙重

比對算法逐步進(jìn)行比對,重

復(fù)這一過程直到所有序列都加入為止。這類算法的主要:簡

單、快速,所占內(nèi)存較少。缺點(diǎn)是在比對初期引進(jìn)的空位插入錯誤無法在比對后期因加①

計算主要為整數(shù)計算,基本無浮點(diǎn)計算。入其它序列而改正,易陷入局部最優(yōu)解。②

計算的主要特點(diǎn)為頻繁的

load

write(內(nèi)存的讀寫),意味著需要較大的內(nèi)存容量和內(nèi)存帶寬,需要直連CLUSTALW

是一個使用最廣的漸進(jìn)比對程序,該算法主要由三個步驟組成:計算距離矩陣;構(gòu)建指導(dǎo)樹;依架構(gòu)

CPU。據(jù)指導(dǎo)樹進(jìn)行漸進(jìn)比對。CLUSTALW

對于親緣關(guān)系較近的序列比對效果較好,但是對于分歧較大的序列,比③

具有很好的擴(kuò)展性,性能與參與比對的進(jìn)程數(shù)幾乎完全成線性關(guān)系,性能對網(wǎng)絡(luò)的壓力不大,建議使用具有對的準(zhǔn)確率明顯降低。最高性價比的千兆網(wǎng),而不需求使用具有較高價格的

Infiniband

高速網(wǎng)。T-COFFEE

是另一個有代表性的漸進(jìn)比對算法,它的主要特點(diǎn)是將序列的兩兩局部及全局比對結(jié)果做成一個擴(kuò)展比對信息庫,再利用擴(kuò)展比對信息庫中的信息對序列進(jìn)行比對,這樣在每一步比對過程中都用到了所有序列計算資源需求之間的關(guān)系信息,在一定程度上提高了序列比對的準(zhǔn)確率,尤其是對于存在大量空位插入的情況,效果更為明顯。14.內(nèi)存②

迭代比對算法迭代比對

(

Iterative

alignment)

算法是另一類有效的多序列比對算法,它基于一個能產(chǎn)生比對的算法,并通常用的序列拼接軟件一般需要較大的內(nèi)存,內(nèi)存容量需以上,一般配置內(nèi)存槽位較多的四路或八路機(jī)架式1TB過迭代方式精細(xì)多序列比對,直到比對結(jié)果不再改進(jìn)為止。這類算法不能提供獲得優(yōu)化比對結(jié)果的保證,但卻服務(wù)器。具有魯棒性和對比對序列個數(shù)不敏感等特性。序列比對軟件可手動調(diào)節(jié)問題規(guī)模,對內(nèi)存容量的需求不是必要條件,但需要保證內(nèi)存帶寬,按照

CPU

的內(nèi)存基于遺傳算法的多序列比對

SAGA

算法是一種實(shí)用的迭代算法。該算法的思想是將序列集中不等長的序列以兩通道數(shù)量配置足夠多內(nèi)存條數(shù)。端加空位方式補(bǔ)齊,構(gòu)造初始群體中的個體;將初始群體中的個體按一定的概率進(jìn)行遺傳操作

(

復(fù)制、聯(lián)鎖互換、存儲突變

)

產(chǎn)生新的個體構(gòu)成新種群;對新種群的個體重

復(fù)上述的遺傳操作,直到滿足終止條件。個體適應(yīng)度函數(shù)用

WSP

度量。該算法的優(yōu)點(diǎn)是:可以對任意多個序列同時比對,而不會受到限制。主要缺點(diǎn)是速度慢,易于序列拼接軟件在計算時會產(chǎn)生中間數(shù)據(jù),存儲性能的好壞對整個計算過程所需要的時間影響較大,對存儲的性陷入局域優(yōu)化解。能要求較高,一般配置多塊本地硬盤,計算過程中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論