




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
-9-數(shù)據(jù)爆炸的時代,DNA存儲真的有未來?盡管部分技術(shù)還不成熟,但這是一個重大突破。擁有足夠的數(shù)據(jù)中心存儲空間已經(jīng)成為一個gamechanger。但是,將像DNA這樣豐富的東西作為一種可行的存儲和計算介質(zhì)的意義可能會超出我們的想象。
全球每年產(chǎn)生的數(shù)據(jù)需要4180億個1TB硬盤才能放下,若是把如此浩大的數(shù)據(jù)放到DNA上,只需1kgDNA就夠了!DNA存儲才是將來!
幾年前,甚至討論人員也不愿使用DNA來存儲數(shù)據(jù),由于這看起來過于科幻,并沒有任何有用價值。今日,我們可以使用正確的軟件和生物化學模塊擴展PostgreSQL,并在DNA上運行SQL。
在這個數(shù)據(jù)爆炸的時代,全球的數(shù)據(jù)不僅遠遠超過我們理解數(shù)字的力量(比如你知道Zettabytes是多少嗎?)更超過了我們的儲存力量。
一切都是數(shù)字化的,一切都越來越多地運行在基于數(shù)據(jù)訓(xùn)練算法的應(yīng)用程序上,而這些算法反過來會產(chǎn)生更多的數(shù)據(jù)來為更多的下游應(yīng)用程序和算法供應(yīng)信息。你懂了吧?
簡潔地說,根據(jù)這種速度,很快就沒有足夠的數(shù)據(jù)存儲和計算材料可供使用。這就是為什么人們現(xiàn)在已經(jīng)開頭查找替代的數(shù)據(jù)存儲介質(zhì)的緣由。使用DNA來存儲數(shù)據(jù),這聽起來很驚奇,實際上很有意義?,F(xiàn)在,討論人員取得了突破,使他們能夠?qū)NA存儲整合到流行的開源數(shù)據(jù)庫PostgreSQL中。
DNA是如何儲存數(shù)據(jù)的?
DNA的核心是數(shù)據(jù)存儲層。DNA由四種堿基組成:腺嘌呤、鳥嘌呤、胞嘧啶和胸腺嘧啶(又名AGCT)。從這四個堿基中,DNA形成由三個核苷酸組成的基團(稱為密碼子)。密碼子是給我們的細胞指示蛋白質(zhì)形成的單位。
我們的信息技術(shù)基礎(chǔ)設(shè)施基于以位(bits)為單位的信息存儲(由兩位數(shù)字組成:0和1),而DNA信息存儲在四個潛在基本單元的串中。為了將非遺傳信息存儲在DNA中,我們必需首先將二進制數(shù)據(jù)從位轉(zhuǎn)換為DNA數(shù)據(jù)(AGCT)結(jié)構(gòu)。
將Bits轉(zhuǎn)換為DNA序列
理論部分實際上相當簡潔。與使用硅或磁性介質(zhì)(它們的工作原理是將狀態(tài)存儲為1和0的序列)相同,存儲A、G、C和T的序列。但是,這在實踐中是如何工作的呢?如何在DNA中寫入和讀取數(shù)據(jù)呢?
這聽起來可能有點遙不行及,但分子技術(shù)的進步已經(jīng)使它成為可行盡管并不完善。
例如,微軟展現(xiàn)了世界上第一個自動DNA數(shù)據(jù)存儲和檢索系統(tǒng)。假如你想知道這個DNA來自哪里:這是合成DNA,產(chǎn)生它的是系統(tǒng)的一部分。
自然?存在的DNA由兩條核苷酸鏈的雙螺旋的形式構(gòu)成。相反,用于數(shù)據(jù)存儲的DNA是單鏈核苷酸序列,也稱為寡核苷酸(oligo),它通過化學過程合成,該化學過程一次構(gòu)建一個核苷酸。
使用DNA在現(xiàn)實世界中存儲數(shù)據(jù)
倫敦帝國理工學院SCALE試驗室負責人Heinis和Eurecom數(shù)據(jù)科學系助理教授Appuswamy在創(chuàng)新數(shù)據(jù)系統(tǒng)討論會議上發(fā)表了題為"OligoArchive:UsingDNAintheDBMSstoragehierarchy'的討論論文。雖然他們不是第一個使用DNA存儲和檢索數(shù)據(jù)的人,但他們是第一個使用結(jié)構(gòu)化數(shù)據(jù)、與現(xiàn)成的數(shù)據(jù)庫集成、并超越存儲、實現(xiàn)計算的人。
關(guān)于DNA作為數(shù)據(jù)存儲層的第一件事是,每次執(zhí)行寫操作時,都必需合成寡核苷酸。這將如何在實踐中發(fā)揮作用?試驗室技術(shù)人員是否必需待命執(zhí)行此操作,并"重新填充'用于化學過程的原材料?
并非如此,依據(jù)Appuswamy和Heinis的說法,這是微軟通過其自動DNA存儲和檢索系統(tǒng)所證明的價值所在。這表明,在沒有人參加的狀況下操作這樣一個過程是可能的。就像除了維護,沒有人監(jiān)督數(shù)據(jù)中心的日常運作一樣,這同樣適用于基于DNA的數(shù)據(jù)中心。
盡管如此,我們還遠沒有用合成DNA陣列取代硬盤。首先,以這種方式存儲數(shù)據(jù)的現(xiàn)代技術(shù)特別緩慢。剛開頭,科學家們花了一周時間來存儲一兆字節(jié)的數(shù)據(jù)。
Appuswamy和Heinis全都認為,在這方面還需要更多的工作。但這超出了他們自己的討論范圍,所以只能等待生化合成過程進一步提高。
首先,他們留意到存儲速度已經(jīng)越來越快,目前速度是每秒幾KB。雖然與SSD相比,這仍舊特別緩慢,但這是一個很大的進步。對于Appuswamy和Heinis的討論(即歸檔存儲),這實際上是可以接受的。
數(shù)據(jù)庫引擎使用三層存儲層次結(jié)構(gòu),由具有不同價格/性能特性的設(shè)備組成。性能層存儲高性能OLTP和實時分析應(yīng)用程序訪問的數(shù)據(jù)。
容量層存儲由延遲不敏感(latency-insensitive)的批分析應(yīng)用程序訪問的數(shù)據(jù)。歸檔層用于存儲很少訪問的數(shù)據(jù),例如,在平安合規(guī)性檢查或法律審計期間。今日磁帶通常用于這一層。
OligoArchive通過將基于磁帶的歸檔層替換為基于DNA的歸檔層來轉(zhuǎn)變數(shù)據(jù)庫存儲層次結(jié)構(gòu)。合成DNA的存儲需要額外的措施,對于一般的設(shè)備來說,基于DNA的存儲是否有效還值得懷疑。但無論如何,數(shù)據(jù)和數(shù)據(jù)庫都將進入云端,只要你的數(shù)據(jù)平安地存儲在數(shù)據(jù)中心,對終端用戶來說,這都是一個黑匣子。
在DNA上運行SQL
Appuswamy和Heinis還指出,即使它仍舊很慢,DNA存儲供應(yīng)了很大的并行處理潛力。由于它很豐富、價格低廉-或者更準確地說,我們盼望它最終會是這樣。根據(jù)目前的速度,存儲一分鐘的高質(zhì)量立體聲將花費100,000美元。
盡管使用合成DNA進行大規(guī)模存儲仍舊過于昂貴,但Appuswamy和Heinis表示,他們估計成本會下降,這是包括存儲技術(shù)在內(nèi)的每一項科技突破的典型方式。
假如合成寡核苷酸在經(jīng)濟上變得可行,那么擁有大量的合成寡核苷酸將是一個合理的預(yù)期。這意味著很多DNA存儲單元可以并行運行的巨大潛力。雖然不是每種算法的每一個方面都是可并行的,但對于那些算法來說,可以實現(xiàn)極大地加速。這就把我們帶到了一個關(guān)鍵點。
直到今日,DNA始終被用于存儲非結(jié)構(gòu)化文件,無論是文本還是視頻,或者其他什么。Appuswamy和Heinis所做的是將DNA存儲整合到關(guān)系數(shù)據(jù)庫中。他們采納了標準數(shù)據(jù)庫基準測試TPC-H中包含的數(shù)據(jù)和查詢,并在PostgreSQL實例上運行了TPC-H。不是串行訪問,而是隨便選擇數(shù)據(jù)。
使用后端的DNA在數(shù)據(jù)庫系統(tǒng)中存儲結(jié)構(gòu)化數(shù)據(jù),并通過SQL查詢,這在今日已成為現(xiàn)實
討論人員為PostgreSQL構(gòu)建了歸檔和恢復(fù)工具(pg_oligo_dump和pg_oligo_restore),對DNA上的關(guān)系數(shù)據(jù)執(zhí)行模式感知編碼和解碼,并使用這些工具將12KBTPC-H數(shù)據(jù)庫歸檔到DNA,執(zhí)行in-vitro計算,以及再次恢復(fù)它。
這是巨大的。這意味著現(xiàn)在DNA存儲還可以支持SQL操作,來有選擇地訪問和處理部分數(shù)據(jù)。請留意,數(shù)據(jù)不會被提取到數(shù)據(jù)庫來執(zhí)行操作。Appuswamy和Heinis找到了一種方法來處理寡核苷酸中的SQL連接。這超出了生化儲存的范圍它還需要生物化學計算。
然而,要做到這一點,討論人員必需處理一系列與用于編碼和解碼DNA信息的技術(shù)缺陷有關(guān)的問題。對DNA進行操作需要特地的編碼技術(shù),這些技術(shù)可以產(chǎn)生適合生化操作的寡核苷酸。讀取DNA數(shù)據(jù)目前特別簡單出錯,以前的工作依靠于數(shù)據(jù)過度表示(over-representation):數(shù)據(jù)被寫在很多副本中,因此假如原始數(shù)據(jù)被破壞,備份還在。
相比之下,Appuswamy和Heinis依靠于元數(shù)據(jù)。他們利用數(shù)據(jù)庫模式感知,在編寫的塊中添加一些額外的數(shù)據(jù)位。討論表明,這可以在編碼(寫入)過程中提高密度,并有助于在解碼(讀?。┻^程中識別錯誤。他們留意到這比預(yù)期效果更好。
DNA是數(shù)據(jù)的將來嗎?
盡管部分技術(shù)還不成熟,但這是一個重大突破。擁有足夠的數(shù)據(jù)中心存儲空間已經(jīng)成為一個gamechanger。但是,將像DNA這樣豐富的東西作為一種可行的存儲和計算介質(zhì)的意義可能會超出我們的想象。
這可能只是朝這個方向邁出的第一步,但每一個旅程都從第一步開頭,Appuswamy和Heinis并不是獨行者。
Eurecom,CNRS,ICL,UCA以及DNA合成初創(chuàng)企業(yè)Helixworks已獲得歐盟資助,以進一步開展DNA儲存討論。該系統(tǒng)將被設(shè)計成支持數(shù)據(jù)編碼的全自動循環(huán),將其合成為DNA,并通過序列讀取數(shù)據(jù)。它將存儲各種不同的數(shù)據(jù)類型,并在存儲和精確檢索數(shù)據(jù)時實現(xiàn)近距離數(shù)據(jù)處理。
將數(shù)據(jù)存儲在DNA中的進一步討論將由歐盟資助
App
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- Unit 4 Topic 3 Section C 教學設(shè)計- 2024-2025學年仁愛科普版八年級英語上冊
- 2021-2026年中國激光加工設(shè)備制造行業(yè)市場調(diào)研及行業(yè)投資策略研究報告
- 2025年度城市房產(chǎn)自愿離婚協(xié)議書編制指南
- 2025年度電子產(chǎn)品零售營業(yè)員銷售政策與客戶服務(wù)規(guī)范合同
- 【可行性報告】2025年建筑檢測儀項目可行性研究分析報告
- 中國移動手游行業(yè)市場全景評估及發(fā)展戰(zhàn)略規(guī)劃報告
- 2025年度網(wǎng)絡(luò)安全風險評估與整改服務(wù)合同修正復(fù)雜多條款
- 中國MRO工業(yè)品超市行業(yè)市場深度分析及投資規(guī)劃建議報告
- 2025倉儲管理與物流配送一體化服務(wù)合同
- 新能源充電樁項目可行性研究報告-可參考案例-備案立項-(一)
- T-CAMET 04017.7-2019 城市軌道交通 全自動運行系統(tǒng)規(guī)范 第7部分:運營管理
- 常用橋牌詞語(中英文對照)
- 小升初、小學生滿分優(yōu)秀作文匯編100篇
- 次聲波在臨床醫(yī)學及麻醉中的作用 次聲波在臨床麻醉中的作用
- 中石油HSE培訓(xùn)試題集(共33頁)
- 2022年云南省中考數(shù)學試題及答案解析
- TS16949五大工具:SPC
- 五年級下冊-綜合實踐教案
- 貴州出版社小學五年級下冊綜合實踐活動教案全冊
- [方案]隱框玻璃幕墻施工方案
- 設(shè)備安裝檢驗批表格
評論
0/150
提交評論