生物工程和大數(shù)據(jù)_第1頁(yè)
生物工程和大數(shù)據(jù)_第2頁(yè)
生物工程和大數(shù)據(jù)_第3頁(yè)
生物工程和大數(shù)據(jù)_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

什么是大數(shù)據(jù) 大數(shù)據(jù)技術(shù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無(wú)法通過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。(在維克托邁爾-舍恩伯格及肯尼斯庫(kù)克耶編寫的大數(shù)據(jù)時(shí)代中2 大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。大數(shù)據(jù)的4V特點(diǎn):Volume(大量)、Velocity(高速)、Variety(多樣)、value(價(jià)值)。 大數(shù)據(jù)的4個(gè)“V”,或者說(shuō)特點(diǎn)有四個(gè)層面:第一,數(shù)據(jù)體量巨大。從TB級(jí)別,躍升到PB級(jí)別;第二,數(shù)據(jù)類型繁多。前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三,處理速度快,1秒定律,可從各種類型的數(shù)據(jù)中快速獲得高價(jià)值的信息,這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。第四,只要合理利用數(shù)據(jù)并對(duì)其進(jìn)行正確、準(zhǔn)確的分析,將會(huì)帶來(lái)很高的價(jià)值回報(bào)。業(yè)界將其歸納為4個(gè)“V”Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價(jià)值)。生物大數(shù)據(jù)“大數(shù)據(jù)”一詞最初起源于互聯(lián)網(wǎng)和IT行業(yè),然而隨著“人類基因組計(jì)劃”的完成,帶動(dòng)了生物行業(yè)的一次革命,高通量測(cè)序技術(shù)得到快速發(fā)展,使得生命科學(xué)研究獲得了強(qiáng)大的數(shù)據(jù)產(chǎn)出能力,包括基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)等生物學(xué)數(shù)據(jù),這些數(shù)據(jù)具有數(shù)據(jù)量大(Volume)、數(shù)據(jù)多樣化(Variety)、有價(jià)值(Value)、高速(Velocity)等特點(diǎn)。生物大數(shù)據(jù)不僅帶有“大數(shù)據(jù)”的特點(diǎn),而且具有生物數(shù)據(jù)自身的特性,下面將結(jié)合大數(shù)據(jù)的“4V”特點(diǎn)一一具體闡釋:1、數(shù)據(jù)量大:上個(gè)世紀(jì)末進(jìn)行的“人類基因組計(jì)劃”是由6個(gè)國(guó)家花費(fèi)30億美元10幾年的時(shí)間才得以完成,如今,只需花費(fèi)幾千美元幾個(gè)小時(shí)即可完成一個(gè)人基因組的解析。如此低廉高效的研究方式得到生物科學(xué)家們的青睞,大量的物種得以測(cè)序解析,使得生物研究家們進(jìn)入的生物數(shù)據(jù)的海洋。據(jù)不完全統(tǒng)計(jì),截止到2013年6月,深圳華大基因研究院僅原始的測(cè)序相關(guān)的數(shù)據(jù)量就達(dá)到12PB,并且以每月60TB的速度增長(zhǎng),預(yù)計(jì)未來(lái)幾年內(nèi)每月的原始數(shù)據(jù)增量會(huì)超過2PB。2、數(shù)據(jù)多樣化:由于測(cè)序儀器種類繁多(比如常見的高通量測(cè)序儀器CG測(cè)序儀、illumina hiseq、Roche 454、Ion Torrent等),產(chǎn)生的數(shù)據(jù)格式也各不相同。同時(shí),利用不同的生物信息分析軟件或分析流程處理得到的結(jié)果也是千差萬(wàn)別。3、價(jià)值高:隨著生物信息學(xué)的發(fā)展,越來(lái)越多有價(jià)值的信息從生物數(shù)據(jù)中挖掘出來(lái),這些價(jià)值不僅體現(xiàn)在其在生物科研領(lǐng)域,而且已應(yīng)用于農(nóng)業(yè)、健康和醫(yī)學(xué)等領(lǐng)域。4、高速:這主要體現(xiàn)在數(shù)據(jù)的急劇增長(zhǎng)速度,不僅體現(xiàn)在數(shù)據(jù)的量上,而且在數(shù)據(jù)的多樣化和價(jià)值上。應(yīng)用編輯“十一五”以來(lái),國(guó)務(wù)院批準(zhǔn)發(fā)布促進(jìn)生物產(chǎn)業(yè)加快發(fā)展的若干政策和生物產(chǎn)業(yè)發(fā)展“十一五”規(guī)劃,大力推進(jìn)生物技術(shù)研發(fā)和創(chuàng)新成果轉(zhuǎn)化。生物大數(shù)據(jù)本身好比一塊有待開發(fā)的土地資源,我們基于大數(shù)據(jù)的“4V”特點(diǎn),推進(jìn)其在醫(yī)療健康、農(nóng)業(yè)和食品等領(lǐng)域的快速應(yīng)用1 ,比如基因檢測(cè)、優(yōu)良農(nóng)作物品種培育等。中國(guó)生物技術(shù)發(fā)展中心調(diào)研生物大數(shù)據(jù)發(fā)展情況 為應(yīng)對(duì)大數(shù)據(jù)時(shí)代帶來(lái)的挑戰(zhàn),了解大數(shù)據(jù)技術(shù)發(fā)展態(tài)勢(shì)以及對(duì)未來(lái)我國(guó)生物技術(shù)領(lǐng)域的科研能力、公共管理和產(chǎn)業(yè)競(jìng)爭(zhēng)力方面的影響,探討應(yīng)對(duì)措施,生物中心肖詩(shī)鷹副主任于2014年5月6-7日帶隊(duì)到復(fù)旦大學(xué)、浙江大學(xué)進(jìn)行了調(diào)研。 在復(fù)旦大學(xué)、浙江大學(xué)科研管理部門的支持配合下,召開了題為“大數(shù)據(jù)對(duì)我國(guó)生物技術(shù)發(fā)展的挑戰(zhàn)”的研討會(huì),來(lái)自復(fù)旦大學(xué)、浙江大學(xué)、同濟(jì)大學(xué)、中科院上海生命科學(xué)研究院、中科院計(jì)算生物學(xué)研究所、浙江大學(xué)第一附屬醫(yī)院以及上海張江轉(zhuǎn)化醫(yī)學(xué)研發(fā)中心等單位的有關(guān)專家,圍繞大數(shù)據(jù)對(duì)我國(guó)生物技術(shù)發(fā)展的挑戰(zhàn),進(jìn)行了交流討論。 浙江大學(xué)李蘭娟院士認(rèn)為,當(dāng)前生物領(lǐng)域存在“課題越多,數(shù)據(jù)孤島越多,資源浪費(fèi)越大”的問題,迫切需要國(guó)家在生物大數(shù)據(jù)領(lǐng)域開展頂層設(shè)計(jì)。復(fù)旦大學(xué)金力院士認(rèn)為,生物大數(shù)據(jù)在國(guó)際和國(guó)內(nèi)都是一個(gè)新興學(xué)科,未來(lái)如何發(fā)展尚不十分明朗,我們應(yīng)從國(guó)家今后發(fā)展需求上,做好態(tài)勢(shì)分析,特別針對(duì)我國(guó)生物資源的優(yōu)勢(shì)、資源安全以及交叉學(xué)科發(fā)展方面思考,如何推動(dòng)這個(gè)領(lǐng)域的發(fā)展,使之滿足國(guó)家需求并力爭(zhēng)國(guó)際領(lǐng)先。 與會(huì)有關(guān)專家分別從生命科學(xué)、醫(yī)學(xué)、信息學(xué)、數(shù)學(xué)、藥學(xué)等不同研究領(lǐng)域介紹了國(guó)際大數(shù)據(jù)技術(shù)的發(fā)展?fàn)顩r及相關(guān)研究進(jìn)展,并對(duì)未來(lái)我國(guó)發(fā)展生物大數(shù)據(jù)的研究重點(diǎn)、研究方向以及存在問題進(jìn)行了深入研討。 此次調(diào)研為生物中心做好生物大數(shù)據(jù)領(lǐng)域的戰(zhàn)略研究提供了很好的基礎(chǔ),并為“十三五”生物領(lǐng)域開展大數(shù)據(jù)研究提出了很多有建設(shè)性的意見建議。把大數(shù)據(jù)與基因測(cè)試結(jié)合起來(lái),雖然還是存在爭(zhēng)議,但是已經(jīng)有一家生物技術(shù)公司 Recombine 做到了,而且極大地降低了基因測(cè)試的成本。我們可以預(yù)想,互聯(lián)網(wǎng)與生物技術(shù)的結(jié)合會(huì)產(chǎn)生越來(lái)越多的初創(chuàng)企業(yè)應(yīng)用關(guān)于“秤砣爸爸”說(shuō)的兩個(gè)公司,我都不熟悉。僅就自己對(duì)生物大數(shù)據(jù)產(chǎn)業(yè)的理解,看看這個(gè)問題的走向,對(duì)這個(gè)問題說(shuō)說(shuō)我的看法:個(gè)人覺得,生物大數(shù)據(jù)的產(chǎn)業(yè)鏈條起碼分三個(gè)層次,其核心是大數(shù)據(jù)的收集、組織和存貯,這部分需要大量的資源,創(chuàng)新公司沒有能力在初期有這個(gè)實(shí)力,也就是只有華大這樣的“巨無(wú)霸”才行;外層應(yīng)該是大量的應(yīng)用層開發(fā)公司,現(xiàn)在這樣的小型公司越來(lái)越多,主要依賴自己熟悉的生物技術(shù)對(duì)市場(chǎng)提供服務(wù),對(duì)象可以是科研單位、企業(yè)(如藥廠)或個(gè)人;中間層是生物信息云的生存空間,它需要提供上到數(shù)據(jù)中心,下到應(yīng)用層的接口,實(shí)現(xiàn)數(shù)據(jù)層和應(yīng)用層的控制分離(有點(diǎn)象MVC但不相同),實(shí)現(xiàn)數(shù)據(jù)分布計(jì)算和存貯的自動(dòng)化,提供數(shù)據(jù)可視化接口。為什么產(chǎn)業(yè)的將來(lái)會(huì)是這個(gè)結(jié)構(gòu)呢?1, 大數(shù)據(jù)的共享是趨勢(shì)。數(shù)據(jù)擁有量越大的公司其數(shù)據(jù)量增長(zhǎng)會(huì)越快,(這是類比富人越富的無(wú)標(biāo)度網(wǎng)絡(luò)的特性決定的,是自由市場(chǎng)條件下的公理),數(shù)據(jù)會(huì)被壟斷;而新生的數(shù)據(jù)公司除非有足夠多的資源來(lái)占有數(shù)據(jù),在自有的數(shù)據(jù)資源上建立起大數(shù)據(jù)應(yīng)用是不可能的。但是,由于數(shù)據(jù)中的價(jià)值一旦被解讀大數(shù)據(jù)的這部分價(jià)值就失效,所以大數(shù)據(jù)的擁有者(大企業(yè)或政府),為了實(shí)現(xiàn)在競(jìng)爭(zhēng)中早日兌現(xiàn)價(jià)值,必然會(huì)盡快數(shù)據(jù)共享,提供給新的創(chuàng)新小公司。數(shù)據(jù)孤島會(huì)因?yàn)楦?jìng)爭(zhēng)而逐漸消失。2, 單一公司的包含所有全部數(shù)據(jù)流水線的生產(chǎn)方式落后于時(shí)代?,F(xiàn)在無(wú)論是華大還是到小的服務(wù)公司,應(yīng)該都是把IT應(yīng)用從HPC或共有云上虛擬機(jī)上從頭開發(fā),分布和平行與業(yè)務(wù)邏輯沒有完全實(shí)現(xiàn)隔離,由于大數(shù)據(jù)分布并行和生物信息的學(xué)科特點(diǎn)差異較大,在各方面方法日新月異的今天,人員培訓(xùn)和維護(hù)開發(fā)成本會(huì)越來(lái)越高。由上面兩點(diǎn)看,產(chǎn)業(yè)鏈會(huì)逐漸層次化。生物信息云是在夾縫中生存的,其是否能成功的關(guān)鍵是對(duì)外API的設(shè)計(jì),符合生物數(shù)據(jù)的特點(diǎn),不是簡(jiǎn)單的鍵值對(duì)結(jié)構(gòu)能描述以序列為代表的生物數(shù)據(jù),這樣的技術(shù)背景,應(yīng)該只有以大數(shù)據(jù)背景

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論