原标题:趣看丨如果将数据存到DNA里,全世界的信息只有1公斤重
数据不仅可以存在硬盘里,还可以存在生物的DNA里。1公斤重的DNA,就可以存下全世界的数据信息。科学家将“Hello World”翻译成碱基语言,储存到大肠杆菌的DNA中。|改编自ChemistryWorld
大数据时代,我们在网络上每一个动作,比如网上冲浪、观看视频,甚至跑步、走路等日常行为,每分每秒都在产生大量数据。它们如一条条河流,汇聚成数据的汪洋大海。
如此大量的信息如何存储?珍贵的数字记忆要如何长久可靠地保存?科学家们想到了一种方法,将数据写入活细菌的DNA中!
最近,美国哥伦比亚大学的研究人员通过改变环境电压,引导“基因魔剪” CRISPR-Cas系统,将“hello world”翻译成碱基语言,录入大肠杆菌的DNA中。在繁衍80代以后,这些大肠杆菌体内储存的数据仍然基本完好无损。
相关研究发表在1月11日的《自然·化学生物学》杂志。
1
数据时代,存储的革新
在地球生命系统中,DNA 可谓无处不在。自然将生命的遗传信息存储在 DNA 中,人类也可以将数据信息存储其中。
计算机的二进制语言只需要0和1两个符号,即可编码所有信息。生命的本质也是一种语言,那就是由 A、T、C、G 四种碱基串联而成的 DNA ,四种碱基的顺序蕴藏着生命的信息。
早在上世纪80年代末,就有人提出,或许可以将计算机的二进制数字语言转换成DNA的四种碱基语言,从而将数据信息存储在DNA上。读取时只要反向进行DNA测序即可。数据信息可以存储在DNA中,也可以反过来从DNA中读取数据信息。|来自网络相比于人类津津乐道的硅,DNA 简直是数据存储的理想载体。首先,DNA 的存储密度非常大。如果我们能够像大肠杆菌那样包装DNA,那么全世界的数据信息都可以储存在1公斤重、只占粉笔盒大小空间的一堆 DNA 中。
其次,一般物理存储设备使用寿命往往不到10年,DNA 则可将遗传信息完整保存100年以上;如果是在零下18℃以下的低温环境中,甚至可保存上万年、数十万年。
第三,DNA 存储过程耗能极少。要存储同样大小的信息,DNA 的耗能量只相当于闪盘的亿分之一。
2
人工合成 DNA 带来希望
在实际操作中,二进制数字语言要如何转换成DNA的四种碱基语言呢?2012年,哈佛大学遗传学家乔治·丘奇团队确立的规则是,用碱基A、C编码二进制的0,G、T编码二进制的1。
经过简单翻译,一本包含大约5.34万个单词的书籍、11张JPG图片、一段简短的计算机程序,全部被编码进不到亿万分之一克的DNA微芯片中。这些文件大小相当于659千字节。之后,研究人员利用 DNA 测序技术成功阅读了这本书,虽然略有瑕疵地发现了22个错误。
几个月后,欧洲生物信息研究所采用另一种策略,同样将大小为739千字节的文件写入人工合成DNA中,读取正确率接近100%。
这两项研究让人们看到了DNA存储技术的希望,也开启了研发热潮。之后,存储数据的大小不断突破上限,从22兆字节,到200兆字节,再到维基百科所有16GB 的数据。DNA数据存储设备。|Takahashiet al, 2019不过,人工合成DNA数据存储技术要实现商业化应用,还有一些重大问题要解决。
一是成本过高,目前人工合成存储1兆字节数据的DNA,需要3500美元,解码过程还需要额外的1000美元。二是无论存储还是读取过程都需要专业设备,个人使用极不方便。三是DNA保存需要低温环境,否则长时间容易发生 DNA 降解,导致数据失真或丢失。
3
活细菌蕴藏着新可能
既然人工合成 DNA 有缺陷,那能不能借用活细菌的 DNA 呢?比如大肠杆菌,在实验室只需要少量的营养物质就能茁壮成长,成本应该也会低很多。
事实上,早在2017年,丘奇团队就开创性地利用“基因魔剪” CRISPR–Cas 技术,将编码信息的DNA片段送入细菌体内。CRISPR–Cas 系统可以对任何DNA序列进行精准修改,如将碱基A替换成碱基G,或者删除、插入、替换一段特异的DNA序列,就像我们使用 Word 软件编辑文字一样。
实验中,丘奇团队将一些黑白图像和一张飞驰骏马动图编码为DNA序列,插入大肠杆菌的基因组中。在大肠杆菌经过多代繁殖后,研究人员仍然能够还原动图信息,正确率达90%以上。左边是飞驰骏马动图的原图, 右边是将该动图存储在活细菌中,并经过多代繁殖后恢复的动图。|SETH SHIPMAN
这一次,哥伦比亚大学的研究人员则进一步发展了该方法。他们用电化学方法调控 CRISPR 系统看是否行使功能。需要存储的二进制信息先被转换为DNA序列,并插入环状质粒(一种稳定的DNA环),然后随质粒转入大肠杆菌体内。
通过改变化学试剂的浓度,就可以改变细菌周围的电压,这时一些特定的环状质粒拷贝数会显著增加。CRISPR 系统感知到这种变化,并将质粒中的插入片段(目标DNA序列)写入细菌基因组,在生物体内实现数据信息的自动存储——这就像为存储动作设置了一个开关。通过感受周围电压变化,大肠杆菌将质粒中的目标片段自动写入基因组。|Sproetniek/iStock
为了研究该方法的可行性,研究人员将“hello world”录入大肠杆菌的DNA中,并测试它们繁衍80代后,所携带的信息是否仍然稳定,结果发现正确率达90%以上。他们还将大肠杆菌混入土壤微生物中,对混合物进行测序,仍然可以恢复存储的信息。信息编码为DNA序列,之后或者直接导入大肠杆菌中,或者先插入环状质粒,再转入大肠杆菌。|MDPI
当然,对活细菌存储数字信息的研究目前才刚刚开始,还有很多技术难题需要攻克。不过,随着众多科学家和大型企业的加入,这些技术难题将被一一解决。相信在不远的将来,DNA数据存储设备将随处可见。
那时,我们或许可以通过解码存放在小试管里或活细菌中的一段DNA,来阅读一本科幻小说,听一段摇滚乐,观看一部大制作电影。甚至如今存储在电子设备中的任何文件,将来都能在DNA数据存储设备中找到。
参考文献
1.Sang Yup Lee. DNA Data Storage Is Closer Than You Think.https://www.scientificamerican.com/article/dna-data-storage-is-closer-than-you-think/.
2.Craig A. de Ridder, Josh D. Morton. When Will DNA Solve the Data Storage Crisis?
https://www.pillsburylaw.com/en/news-and-insights/dna-data-storage.html
3.数据存储历史:http://www.chinastor.com/history/
4.Goldman N, Bertone P, Chen S, et al. Towards practical, high-capacity, low-maintenance information storage in synthesized DNA.Nature. 2013;494(7435):77-80. doi:10.1038/nature11875.
5.Church GM, Gao Y, Kosuri S. Next-generation digital information storage in DNA. Science. 2012, 28;337(6102):1628. doi: 10.1126/science.1226355.
6.Zhirnov V, Zadegan RM, Sandhu GS, Church GM, Hughes WL. Nucleic acid memory. Nat Mater. 2016;15(4):366-370. doi:10.1038/nmat4594.
7.Shipman, S., Nivala, J., Macklis, J. et al. CRISPR–Cas encoding of a digital movie into the genomes of a population of living bacteria. Nature 547, 345–349 (2017).https://doi.org/10.1038/nature23017.
8.Takahashi, C.N., Nguyen, B.H., Strauss, K. et al. Demonstration of End-to-End Automation of DNA Data Storage. Sci Rep 9, 4998 (2019).https://doi.org/10.1038/s41598-019-41228-8
9.Robert F. Service. Scientists ‘program’ living bacteria to store data.https://www.sciencemag.org/news/2021/01/scientists-program-living-bacteria-store-data
10.Yim, S.S., McBee, R.M., Song, A.M. et al. Robust direct digital-to-biological data storage in living cells. Nat Chem Biol (2021). https://doi.org/10.1038/s41589-020-00711-4.
文| 汤波 分子生物学博士