数据存储的未来:把宇宙写进DNA里
测序猫 · 2014/05/25
浪漫的诗句说用一颗红豆换一整个宇宙,那是陷在爱中之人的一片痴心。这么说来,生物学家想用DNA来存储所有数据的愿望,可以称作大大的野心。问题是,如何实现呢?答案接二连三。


嗨,莎士比亚,快到DNA里来

DNA存储的设想,据说诞生于酒吧中。当时欧洲生物信息学研究所副所长Ewan Birney和同事Nick Goldman在德国汉堡市的一家酒吧里苦恼着用什么可以替代昂贵的存储硬盘和磁带、以便处理日益繁多的数据。后来两人开玩笑说,DNA就是一个很好的存储设备啊,你看猛犸象就让我们了解了数万年前的许多信息。讲完,两人都立马意识到这不是不可能的,于是,伟大的构想就被写在了餐巾纸上(果然灵感无处不在)。

2013年的时候,历经三年时间,Ewan Birney和Nick Goldman的研究团队就在Nature上发表了研究成果——他们把154首莎士比亚十四行诗、一张欧洲生物信息研究所的JPG格式图片、一份关于DNA分子结构的PDF学术论文、马丁·路德·金演讲“我有一个梦想”的26秒片段以及一个编码系统文档统统存进了微量的DNA里!

有关DNA存储的研究

Ewan Birney和Nick Goldman的研究为数据存储打开了一扇新的窗户,除了他们之外,也有其他科学家致力于DNA存储的研究。

同样在2013年,阿根廷科学家近日成功将该国国歌旋律以人工基因编码形式植入某种细菌染色体中。

2012年9月,哈佛医学院教授、著名遗传学家George Church(多届ICG大会的演讲嘉宾)的团队在Science杂志上发表的文章表示,他们将一本5.34万字的书籍、11张图片和一段Java程序存进了不到一沙克(亿万分之一克)DNA中!有人根据这个比例换算得出,1克DNA将能存储700TB数据,相当于1.4万张蓝光光盘,或233个3TB的硬盘。而George Church教授则表示:“今后,拇指大小的设备或许就能存下整个互联网的信息。”

还有更早的。据悉,2012年,台湾国立清华大学和德国一研究所合作,用三文鱼的DNA制造出单次写入、多次读取的存储器;2007年,日本科学家成功使用细菌DNA储存数据;而早在1986年,麻省理工学院一位被称为科学狂人的科学家Joe Davis就成功将5×7像素的图片编码到DNA中。

为什么我们需要用DNA来存储数据

这个问题的答案,绝不是好玩,或为了创新而创新。我们常说,现在已进入大数据时代,这是个什么概念呢?想想你旅个游就能用高清照片和视频把4G的相机存储卡拍满,一年下来下的电影得存满250G的硬盘,你的搜素行为信息、网络自媒体上发布的信息、上传网盘的资料……永远有服务商帮你备份,何况这世上还有千千万万个你,以及N多的内容提供商。照这个产出数据的速度,即使摩尔定律一直管用,这存储硬件的性能提高速度也跟不上人类产出数据的速度。

我们应该开始担忧数据泛滥可能带来的威胁,也无怪乎讲述大数据时代取舍之道的《删除》一书已出版就获得美国政治科学协会颁发的“唐•普赖斯奖”等奖励和主流媒体的好评。

IDC和EMC联合出版的数字世界研究报告称,在2013年,全世界数据有4.4ZB,即44万亿亿字节,到2020年,全球数据将达到44ZB,即440万亿亿字节,相当于每个人产出的数据可能达到5000GB左右,而这在现在看来,是很有可能的。到时候,现有的存储数据将无法满足数据存储需求,新的存储设备必须在此之前出现。


图片来自EMC.com

为什么DNA能存储如此大量的数据?

DNA存储技术的与传统的存储技术不同,传统的电子存储是基于0、1这两个符号的组合,而DNA有A、T、C、G4个碱基,在编码上就比传统的二进制存储多了许多可能。

对于今后如何将现有二进制存储全部转换成DNA数字存储形式的问题,科学家也已相处办法,比如George Church团队就将二进制信息翻译成某个中间代码,再通过微流体芯片对基因序列进行合成,从而使该序列的位置与相关数据集相匹配,方便读取。(新浪科技书聿)

在读取的时候, 测序器和计算机会按照序列索引,将DNA中存储的信息顺序排列,并转化为计算机能够识别的数字语言。同时,读取的时候计算机还会扫描多个备份,如果哪个副本出错了,计算机都能够发现并予以纠正。研究发现,通过这种方式存储和读取一份遗传学教材,其出错率很低,仅为百万分之二,意味着只有几个单词拼写错误。

也许你会质疑,如果细胞死亡,不再进行复制,DNA里存储的数据是否会丢失?这一点George Church团队也考虑到了。他们创建了基于任意细胞的 DNA 信息归档系统,并利用喷墨打印机将使用化学方法合成的 DNA 片段嵌入到微小的玻璃芯片表面。这样就可以避免因细胞死亡而导致的数据丢失。(36kr)

DNA存储是否为未来的最佳存储选择

我们提到的两个研究都被认为是在之前的生物存储技术上前进了一大步。但现在说DNA存储技术即将可以大范围推广的话,未免为时尚早。作为一个新兴的存储介质,DNA的优势很突出,但缺点也同样明显。

作为存储设备,DNA具有无可比拟的有点:容量大、集成度高、无需依赖电源、存储量大、存储稳定、保存时间长、不需要维护等优点使它从目前来看,的确是很好的存储设备选择,而且,它的兼容性和二进制的数字化存储一样好,因为只要是生命体,DNA的基本元素A、T、C、G都是一样的。

但这个先进的存储设备也有着不方便的地方。比如,以目前的技术,我们可以很轻松的从DNA中读取信息,难的是将信息写入DNA的过程,以及保证数据的写入和读出都不出错。而且,DNA不能被重复写入,意味着信息无法更新,而且要阅读文档的话,必须等所有文档都解码完毕,不能边解码边读取。而且,从目前的技术角度来看,DNA存储技术的成本太高,操作复杂,想要近期从实验室走向市场的可能性不大。(中国科技网)

DNA本就存储着生物体的奥秘,是个非常大的“数据盘”,当克服了存储和读取上的难题,也许未来某一天,我们所有的硬盘、U盘、网盘都可以丢到一边,用一块硬币大小的DNA,就能存储我们一生需要的数据了。

所有文章仅代表作者观点,不代表本站立场。如若转载请联系原作者。
查看更多
  • Next-Generation Digital Information Storage in DNA

    Digital information is accumulating at an astounding rate, straining our ability to store and archive it. DNA is among the most dense and stable information media known. The development of new technologies in both DNA synthesis and sequencing make DNA an increasingly feasible digital storage medium. We developed a strategy to encode arbitrary digital information in DNA, wrote a 5.27-megabit book using DNA microchips, and read the book by using next-generation DNA sequencing.

    展开 收起
  • Towards practical, high-capacity, low-maintenance information storage in synthesized DNA

    Digital production, transmission and storage have revolutionized how we access and use information but have also made archiving an increasingly complex task that requires active, continuing maintenance of digital media. This challenge has focused some interest on DNA as an attractive target for information storage1 because of its capacity for high-density information encoding, longevity under easily achieved conditions2, 3, 4 and proven track record as an information bearer. Previous DNA-based information storage approaches have encoded only trivial amounts of information5, 6, 7 or were not amenable to scaling-up8, and used no robust error-correction and lacked examination of their cost-efficiency for large-scale information archival9. Here we describe a scalable method that can reliably store more information than has been handled before. We encoded computer files totalling 739 kilobytes of hard-disk storage and with an estimated Shannon information10 of 5.2 × 106 bits into a DNA code, synthesized this DNA, sequenced it and reconstructed the original files with 100% accuracy. Theoretical analysis indicates that our DNA-based storage scheme could be scaled far beyond current global information volumes and offers a realistic technology for large-scale, long-term and infrequently accessed digital archiving. In fact, current trends in technological advances are reducing DNA synthesis costs at a pace that should make our scheme cost-effective for sub-50-year archiving within a decade.

    展开 收起
发表评论 我在frontend\modules\comment\widgets\views\文件夹下面 test