Nature:用2斤DNA就能存儲世界上所有的數據

◆ ◆ ◆
前言
現代存儲技術已經無法滿足字節的海嘯式增長,但是大自然也許已為這個難題提供了解決方案。
對尼克•高德曼(Nick Goldman)而言,用DNA來編碼數據始於一個玩笑。
那是2011年的2月16日,星期三。高德曼正在德國漢堡的一個酒店裏,與幾個生物信息學家討論如何解決鋪天蓋地而來的海量基因組序列以及其他數據的存儲難題。他記得科學家們差不多要被傳統計算技術的所耗費用和局限性難倒時,他們開始對其他方案開起了玩笑。“我們想,會有什麼能阻止我們用DNA來存儲信息呢?”
這時,笑聲停下來。“那是靈光一現的時刻。”高德曼說。那時,他是位於英國欣克斯頓的歐洲生物信息研究所(European Bioinformatics Institute (EBI))的小組負責人。的確,與矽質存儲芯片的毫秒級讀寫速度相比,DNA存儲可能慢的可憐。堿基通過特定模式合成DNA鏈要花數小時,而通過測序來解讀信息又要花費數小時。但是用DNA,人類全基因組都可以存儲到一個肉眼所不能見的細胞內。僅從信息的存儲密度而言,DNA是大於矽的幾個數量級倍。因此對於長期存儲,DNA能帶來更高的存儲密度。
高德曼介紹說:我們在酒吧裏坐下來,就用餐巾紙和圓珠筆,開始勾畫“如何做才能實現這個想法?”。研究人員最大的顧慮是DNA的合成和排序的過程中核甘酸通常會發生1%的錯誤,這使大規模的存儲信息變得不可信賴,除非他們能找到一個可實施的糾錯體係。他們通宵討論了是否能找到一個方法,把信息編碼到堿基對裏,並同時允許他們檢測和糾錯。
最後,高德曼說“我們知道可以做到”。然後,他和他的EBI同事伊萬•伯尼(Ewan Birney)帶著這個想法回到了實驗室。兩年後他們宣布成功地用DNA編碼了5個文件,包括莎士比亞的十四行詩和馬丁•路德•金“我有一個夢想”的演講片段。那時,哈佛大學的生物學家喬治•丘奇(George Church)和他的團隊也發表了一種DNA編碼的實例。
當時739KB數據量的EBI文件構成了有史以來的最大DNA存儲;但是在2016年7月,微軟和華盛頓大學的研究人員宣布,利用DNA存儲技術完成了約200MB數據的保存,是信息存儲的一個飛躍。
目前,全球範圍內都麵臨著數據量的快速增長。最近的實驗有跡象表明,對使用DNA作為存儲介質的興趣已經遠遠超過了基因組領域。在2020年之前,從天文圖像、雜誌文章到YouTube視頻,全球的數據存儲量預計將達到44兆GB,相比2013年將增長10倍。到2040年,如果所有的信息都使用即時存儲,比如像U盤那樣的閃存芯片,存儲耗費的微芯片級矽為預期供應量的10-100倍,這就是目前為什麼數據的永久存儲罕用老式磁帶的原因之一。
這種介質對信息的封裝比矽緊密很多,但是讀起來較慢,然而即使這種方法也正在變得不可持續。大衛•馬科維茨(David Markowitz)是位於美國華盛頓特區高級智慧研究計劃(IntelligenceAdvanced Research Projects Activity (IARPA))的一名計算神經學家。他說,可以想象一個數據中心有一個艾(exabyte,等於十億個G)的數據存儲在磁帶上,但是這樣一個中心需要十億美元和十年以上的時間來建造和維護,以及上億度電的耗費,而分子數據存儲器可以將所有這些要求降低3個數量級。如果信息封裝密度像大腸杆菌的基因那麼高,全世界的存儲需求可用1千克的DNA來滿足。(詳見“存儲限製”)
達到這個目的並非容易,在DNA成為傳統存儲技術的有力競爭對手之前,研究人員還有許多挑戰,從把信息可靠地編碼到DNA中、解碼某個用戶想要的特定信息,到能夠更加便宜、快捷地得到核苷酸排序,克服這些挑戰需要付出巨大努力。半導體研究委員會(The Semiconductor Research Corporation (SRC))是由芯片製造商財團讚助的基金會(位於北卡羅來納州達勒姆市),正在為DNA存儲工作提供支持。高德曼和伯尼得到了英國政府的資助,利用下一代(next-generation)方法進行DNA存儲的試驗,並在此研究的基礎上計劃設立公司。高級智慧研究計劃(IARPA)和半導體研究委員會(以下簡稱SRC)在4月舉辦了麵向學術界和工業界(如IBM)研究人員的研討會,來指導該領域的研究。SRC主任兼首席科學家維克多•哲諾夫(Victor Zhirnov)提到,十年來我們一直在尋找矽以外的數據存儲方法,而DNA被認為有可能是替代磁帶的最佳候選之一。
◆ ◆ ◆
長期存儲器
1988年,藝術家喬•戴維斯與哈佛的學者合作,第一個將數字信號0和1對應到DNA的四個堿基。他們把DNA序列插入到大腸杆菌裏,僅僅編碼了35個字節。當排列成一個5*7的矩陣時,1對應到暗像素,0對應到亮像素,它們組成了一幅古代日耳曼如尼字母圖畫,代表生命和女性的地球。
現在戴維斯已經加入了丘奇的實驗室,該實驗室2011年起開始探索DNA數據存儲。哈佛團隊希望該應用可以減少合成DNA的高成本,就像基因組學的測序成本已經降低了許多。丘奇與加州大學洛杉磯分校的瑟裏• 庫蘇裏(Sri Kosuri)以及約翰•霍普金斯大學的基因組專家高原(Yuan Gao)於2011年11月實施了概念證明性實驗。團隊使用了很多短DNA片段編碼了一本丘奇與他人合寫的659KB數據的書。每個片段的一部分用來進行排序後片段組裝順序,剩餘部分用於編碼數據。將數據保存在DNA之中需要將二進製0和1數據轉換為4種核苷酸,其中0用腺苷酸或胞嘧啶來編碼,而1則用鳥苷酸或胸腺嘧啶。這種靈活性幫助團隊設計序列,避免測序中高GC區讀取錯誤、重複序列或發卡結構導致的綁定彼此的片段發生序列折疊。他們沒有做嚴謹的糾錯,而是依靠每個片段擁有多個拷貝的信息冗餘。結果對片段測序後,他們發現了22個錯誤,大大高於可靠存儲的要求。
同時在EBI,高德曼、伯尼和他們的同事也在使用很多DNA片段來編碼一個739KB的數據存儲,包含一個圖片、ASCII文本、聲音文件和一個PDF版的華生和克裏克標誌性的雙螺旋結構。為了避免重複堿基和其他來源的錯誤,EBI領導的這個團隊使用了一個更加複雜的係統(見“製作存儲體”)。一方麵是將0和1組成的二進製數據編碼修改成以3個數為基礎,即0,1和2,然後持續地輪換使用每一個數的代表,因此而避免在讀取數據時序列可能出現的問題。通過利用序列重疊,100個堿基長度的片段持續位移25個堿基,EBI的科學家們確保有4個版本的片段來做錯誤檢查和互相比較。
但是他們仍然丟失了25個堿基序列中的2個,具有諷刺的是,恰恰是華生和克裏克的文件部分。盡管如此,高德曼確信這些結果證實了DNA極有潛力成為一種廉價的長期存儲介質且耗能量較小。究竟能存儲多長時間,高德曼例舉了2013年公布的在700,000年前陷入凍土中一匹馬的骨化石被解碼的基因組,他解釋說“在數據中心,沒有人相信一個三年之久的硬盤,或是一張十年之久的磁帶的可用性。如果你需要一個更安全的長壽命拷貝,那麼當我們能把數據都保存在DNA中,你就可以把它放到一個山洞裏,直到你想讀取的那一天。”
◆ ◆ ◆
一個迅速增長的領域
自從華盛頓大學計算機科學家路易斯(Luis Ceze)和在華盛頓州雷德蒙德市微軟研究院工作的計算機科學家施特勞斯(KarinStrauss)在2013年訪問英國期間,聽到Goldman討論EBI工作之後,那種可能性就激發了他們的想象力。施特勞斯說:“DNA的密度,穩定性和成熟足以讓我們對它感到興奮”。
當他們返回華盛頓州時,施特勞斯和路易斯就與他們在華盛頓大學的同事格奧爾格(Georg Seelig)一同展開了調查。他們的主要關注點之一是DNA麵對錯誤的脆弱性,這已經成為了DNA存儲的一個主要缺陷。應用標準的排序方法,隻能恢複任意一段數據而不能恢複全部數據,這意味著每一條DNA鏈都要被讀取。這將會極大地增加傳統計算機內存的負擔,因為計算機內存允許隨意接入的能力使得用戶能夠隻讀取他所需要的數據。
在四月初喬治亞州亞特蘭大市召開的會議上,這個團隊概述了他們的解決方案。研究人員們先從DNA存檔中取出很小的樣本,隨後應用聚合酶鏈反應(PCR)技術去標記和複製那些將他們想要提取的數據進行編碼的鏈條。與先前的方法相比,複製品的增殖使得排序變得更快,更廉價和更精確。此外,這個團隊還設計了一個可供替代的錯誤修正方案,此方案在可靠性上允許對數據進行同EBI方法一樣密集的二次編碼。微軟和華盛頓大學的研究人員們存儲了151kB大小的圖片作為樣品示範:在一個單一鏈條池中,一些采取EBI方法進行編碼,另一些采取他們的新方案進行編碼。他們應用類似EBI的方法提取了三種事物,一隻貓、悉尼歌劇院和一個卡通猴子,結果得到了一個讀取錯誤,他們不得不通過手工來修複。而應用他們的新方法讀取悉尼歌劇院圖片時,沒有任何錯誤報出。
◆ ◆ ◆
經濟VS化學
伊利諾伊香檳分校的計算機科學家奧爾吉察( Olgica Milenkovic)和她的同事已經研究出一種隨機接入的方法,這使他們有能力重寫被編碼的數據。該方法是將數據存儲為DNA長鏈,這些長鏈在兩端都有位置信息序列。研究人員隨後使用PCR方法或者CRISPR–Cas9基因編輯方法,通過這些位置選擇,增強和重寫鏈條。這些位置信息旨在消除阻礙讀取的序列,同時體現出相互之間的差異以阻止它們被混入錯誤中。要做到這一點需要進行大量的計算,同時規避諸如分子折疊(因為它們的序列包含可以識別和綁定彼此的片段)等問題。奧爾吉察說:“最開始,我們使用的是計算機搜索,因為很難想到其他擁有這些特性的方法。現在她的團隊使用數學公式替代了這種高消耗勞力的方法,使得他們能夠設計出更快速的編碼方案。
卡蘇瑞(Kosuri)提出,其他有關DNA存儲的挑戰包括規模化和合成分子的速度,這也是他為什麼不太看好這種想法的原因。他回憶說:在哈佛的早期實驗中,我們有700kB數據量,然後僅是1000倍的增長就達到700MB,就像CD。他認為,真正能夠對世界性數據歸檔問題做出改變意味著至少可以存儲千萬億字節的信息,這是可行的。但是人們要意識到規模大約要提高數百萬倍。馬科維茨(Markowitz)同意那不是件容易的事。他說:“優良的生產方法幾乎需要30年的化學過程,即每增加一個堿基將花費400秒的時間。如果持續使用這種方法,數以十億計的不同的鏈條需要並行地製作以實現快速寫入,而現在最大的並行產出量僅是數以萬計的鏈條”。
一個密切相關的影響因素是合成DNA的成本,它的花費占據了EBI實驗全部12,660美金的98%,而排序僅占到了2%。而這還要感謝在2003年人類基因組計劃完成後實現的兩百萬倍的成本減少。盡管這樣,卡蘇瑞(Kosuri)對DNA合成領域可以達到同樣的經濟效能並沒有信心。他說:“你可以輕易地想像,市場可以測序70億人,但不可能建立70億人的基因組”。他認可丘奇(Church)和其他人在六月提議的人類基因組編寫計劃(HGP-write)的費用成本上會有一些突破。如果項目被資助,它將致力於合成全部的人類基因組:23對染色體,包含32億核苷酸。但是,即使HGP-write成功了,卡蘇瑞認為一個人類基因組僅僅包含0.75GB的信息,而且這個數量還會因合成實際數據存儲所帶來的挑戰而變得更小。然而,日爾諾夫(Zhirnov)對此保持樂觀,他認為合成的成本將低於目前的水平達數量級,“沒有理由相信其為何如此之高?”。
在四月,微軟的研究人員邁出了第一步,他們與一家來自加州舊金山的DNA合成初創公司訂購了一千萬鏈條,這可能幫助創始一個必要的需求。施特勞斯(Strauss)和她的同事相信,他們已經使用這些鏈條推動隨機接入存儲方法到0.2GB。細節還沒有被發表,但是據報道,存檔包含了用超過100種語言記錄的世界人權宣言,古登堡計劃的前100本書和一個種子數據庫。盡管這跟HGP-write所麵臨的挑戰相比還微不足道,但是施特勞斯強調了在存儲容量上跳躍250倍的重要性。她說:“是時候訓練我們處理更大數量的DNA,推動它形成更大規模,並且找出這個過程中的瓶頸。它確實在很多地方都有中斷,而且我們正在努力學習去解決”。
高德曼(Goldman)堅信這隻是將要麵臨的難題之一並對此具有信心。他說:“我們的評估是需要十萬倍的提升來實現這一技術,而這是可行的。盡管以過去經驗並不能確保,但每一兩年就有很多新的讀取技術在運作。在基因組學,六個數量級並不是難事,你隻需要稍微等待”。
原文發布時間為:2016-09-07
本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號
最後更新:2017-06-06 17:02:08