全球數據都能存在一個咖啡杯中?一杯星巴克中杯是 354 毫升,世界人口目前七十多億,這能存的下嗎?
答案是:理論上可以。
近日,麻省理工學院(MIT)科學家研發出一種新型 DNA 存儲技術,該技術可從大規模數據庫中檢索和標記 DNA 數據文件,實現了將數據存儲為 DNA 形式的可能。
當地時間 6 月 10 日,相關論文發表在 Nature Materials 上,通訊作者是 MIT 生物工程學教授馬克·巴斯(Mark Bathe)。
論文題為《在檔案文件存儲系統中使用布爾搜索的隨機存取 DNA 存儲器》(Random access DNA memory using Boolean search in an archival file storage system)。
這項研究意味著照片、音頻、文檔和其他文件都可存儲為 DNA 的形式,有望徹底改變人類存儲數據的方式。
據了解,當前全球大約有 10 萬億字節的數據,大部分數據存儲在占地面積龐大的數據中心里。這些數據中心比足球場還大,光是建設和維護成本就得 10 億美元。
以 DNA 形式儲存數據的靈感來自于包含遺傳信息的 DNA 分子,該團隊認為 DNA 分子有望以極高密度去存儲大量數據信息。馬克·巴斯表示,理論上一個咖啡杯即可存儲全球所有的數據。
據悉,DNA 的密度是閃存的 1000 倍,一旦制造出 DNA 聚合物,它就不會消耗任何能量,把 DNA 寫下來之后,即可進行永久存儲。
該團隊表示,他們可將圖像和文本頁面編碼為 DNA,但是要突破從眾多 DNA 片段的混合物中挑選出所需文件,即檢索功能的技術壁壘。
據悉,研究人員以 DNA 形式存儲數據需要一種約 6 微米大的二氧化硅顆粒,然后把數據文件固定在二氧化硅顆粒中,接下來用短 DNA 序列對文件進行標記。
其中,每個顆粒都標有與文件內容相對應的單鏈 DNA “條形碼”。用這種方法能從最多 1020 張圖像中準確提取出單個圖像。
北京大學第三醫院博士生導師、國家婦產疾病臨床醫學研究中心副主任李默告訴 DeepTech,這帶來的好處非常顯著,應用潛力也很巨大。
包括提高大規模數據存儲的效率、節省公共資源、極大提升信息運輸與流通速度等,還包括對諸多專業領域的促進,如以核酸為代表的生命科學在交叉學科的應用、機密信息的安全儲備、以及環境保護等。
以 DNA 形式存儲的數據,先到可以放在手掌里
在數字化時代, 文本、照片或任何其他形式的信息,都是由 0 和 1 通過二進制編碼而成的。類似的,我們也可將這些信息用四種核苷酸 A、T、C、G 編碼為 DNA,例如把 G 和 C 表示為 0,A 和 T 表示為 1。
作為一種存儲介質,DNA 具有高穩定性和高密度的優點,高穩定性意味著 DNA 的合成和測序比較容易,高密度指的是每個核苷酸只有兩個比特大小,即大約 1 立方納米。因此以 DNA 形式存儲的數據,其體積之小甚至能放在手掌中。
但是,西湖大學特聘研究員郭天南告訴 DeepTech,目前 DNA 存儲數據的訪問速度尚遠不及硬盤,數據讀寫成本較高,該成果的優勢在于數據存儲的穩定性,因此較適合于冷數據。
為了考察新方法的讀取速度,MIT 團隊將 20 個不同的圖片編碼到大約 3000 個核苷酸長的 DNA 片段中,大小相當于大約 100 個字節。
這些圖片包含貓、老虎、飛機和人物照等,因此研究人員給每張圖都設置了相對應的條形碼。
當提取特定圖像時,首先需要移除 DNA 樣本,然后添加與一定的標簽,比如老虎照片對應的標簽是 “貓科動物”“橘色” 和 “野生”,貓照片對應的標簽是 “貓”“橘色” 和 “家養”。
研究人員用熒光、或磁性顆粒來標記這些引物(primer),為的是方便從樣本中取出、并識別對應的匹配物。這時,需要的文件就可以被刪除,而剩下的 DNA 文件毫無損傷,并能被完整地放回原處。
該檢索過程還支持布爾邏輯(Boolean algebra)搜索查詢,比如從 “總統和 18 世紀” 可以搜出喬治?華盛頓的結果,和我們日常使用的百度搜索、谷歌搜索很相似。在概念驗證階段,搜索速度是每秒 1KB,搜索速度由每個膠囊的數據大小決定。
中國科學院生物學博士、助理研究員李雷告訴 DeepTech,事實上這等于提供了一種更加便捷的檢索策略,使得我們在查找信息的時候,可以更加容易找到具體的信息點,而不是像過去那樣通過 PCR( polymerase chain reaction 聚合酶鏈反應)來在全 DNA 上進行搜索。換句話,這種新策略使得數據定位更加容易,可以針對性地提取信息。
另據悉,該團隊使用哈佛醫學院(Harvard Medical School)遺傳學和醫學教授史蒂芬?埃利奇(Stephen Elledge)開發的 10 萬個序列中的單鏈 DNA 序列作為條形碼,如果在每個文件上放置兩個這樣的標簽,就可以唯一地標記 10^10 個不同的文件,也就是 100 億。
這意味著,每個文件上有 4 個標簽,就可以唯一地標記 10^20 個文件。故此,哈佛醫學院遺傳學教授喬治?丘奇(George Church)將該成果描述為 “知識管理和搜索技術的巨大飛躍”。
目前,該團隊已成立一家名為 Cache DNA 的初創公司,該公司目前正在開發 DNA 長期存儲技術,屆時相關技術既能用于數據的長期存儲,也可用于短期存儲。
但是,該成果仍有可優化的空間。比如,這種新技術成本非常高昂,寫 1PB 數據(100 萬 GB)需要花費 1 萬億美元。
如果想比普通用于存儲數據的磁帶更具競爭力,該團隊認為成本還需要降低約 6 個數量級。他們認為,這預計能在 10 年或 20 年內實現,因為過去幾十年存儲信息的成本一直在大幅下降。
另一個主要瓶頸,是這種技術難以從其他文件中挑選出想要的文件。假設成本問題已經解決,我們就能在 DNA 中寫入 1EB 甚至 1ZB 數據,然而這時就有無數的文件、圖像或電影和其他東西,要想找到目標文件簡直就像大海撈針。
當下,人們通常使用 PCR 來檢索 DNA 文件,每個 DNA 數據文件都包含一個與特定 PCR 引物結合的序列。要想提取特定文件,就得把該引物添加到樣本中以查找和擴增所需序列。
然而,這種方法的一個缺點是引物和脫靶 DNA 序列之間可能存在串擾,導致不需要的文件被拉出。此外,PCR 檢索過程需要酶,最終會消耗池中的大部分 DNA,因為所有其他 DNA 都沒有被放大,這是能做的就是把它扔掉。
西湖大學特聘研究員郭天南告訴 DeepTech,這種新方法的優勢主要在于克服了傳統方法對 PCR 擴增的依賴,減小了 PCR 擴增中可能產生的技術噪音。并且,這種方法盡量減小對未讀取數據的損害,即未讀取的 DNA 可以有效回收并且再次按需讀取。
針對 COVID-19 檢測、人類基因組測序等,我們迫切需要低成本、大規模存儲解決方案。如果 DNA 合成可以變得足夠便宜,那么就能可以實現存儲更大的文件。
另據悉,該團隊計劃將這種 DNA 封裝技術用于存儲 “冷” 數據,即保存在檔案中的不經常訪問的數據。
對此李雷認為這主要是因為 DNA 存儲技術不成熟,具體地說是 DNA 保存技術。DNA 很容易發生降解,除了會受到溫度影響,化學因素比如儲存 DNA 的溶液等都會致其發生降解,而一旦降解,這些物質就徹底成為雜亂無章的信息。此外反復訪問同樣會對 DNA 進行處理,最終導致 DNA 自身的不穩定。
李默認為,該技術的 “數據檢索” 環節依賴于熒光激活分類,限制了數據檢索及讀取的速度與效率,因此該技術不適用于讀取 “熱數據”,即存儲后被高頻次訪問的數據,并且讀取速度較傳統硬盤也不具備優勢。但如日后能在這些環節有所突破,則將是另一次質的進步。
責任編輯:haq
-
數據
+關注
關注
8文章
7006瀏覽量
88947 -
存儲
+關注
關注
13文章
4298瀏覽量
85807
原文標題:一杯“咖啡”存儲全人類數據?MIT團隊把數據存到DNA里,體積小到能放手掌中 | 專家解析
文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論