■本报记者 冯丽妃
“人家凭什么给你交数据?”作为国家微生物科学数据中心和中国科学院微生物科学数据中心主任,马俊才时常这样问自己。
“数据中心不是档案库,我们也不是‘官老爷’,一定要给对方提供所需的增值服务。”从事数据库建设多年,这是他的深切体会。
国家微生物科学数据中心和中国科学院微生物科学数据中心的前身,可追溯至30多年前成立的中国科学院微生物研究所(以下简称微生物所)微生物科学数据库。
近年来,该数据库不断脱胎换骨,升级换代。一个“变”字,或许最能体现微生物所研究员马俊才这些年来的感触:数据平台变了、数据来源变了、工作内容也变了……不过,万变不离其宗,该中心服务用户和国家需求的目标始终如一。
“变”中升级
数据与实物资源并存,这可能是国家微生物科学数据中心有别于大部分数据库的一个特点。“微生物研究离不开实物,这里的大多数数据都有相对应的微生物菌种资源。”马俊才介绍。
上世纪80年代,我国信息化发展开始起步。1987年,微生物所响应时代召唤,建立了微生物科学数据库。
35年来,该数据库在国家支持下飞速发展,芝麻开花“节节高”——
1994年,中国典型培养物保藏委员会信息中心成立,实现了中科院全部生物资源信息的汇集。
2010年,世界微生物数据中心(WDCM)经过全球各单位激烈竞争落户微生物所。该中心牵头制定的一系列国际研究计划和数据管理标准使我国实现了微生物数据领域的国际“领跑”。
2019年,该中心的发展迎来新起点——国家微生物科学数据中心作为20个首批国家级科学数据中心之一启动,微生物所成为牵头单位,中心的职能发生了巨大转变。
“最初的科学数据共享平台转变为国家权威数据管理和发布平台;自有数据的管理转变为全国整个领域的科技计划数据的汇交;原来本单位的数据共享转变为对国家数据资源进行管理、挖掘和应用。”作为该数据库发展的亲历者,马俊才说。
转变,是发展的机遇,也是挑战。
马俊才表示,国家微生物科学数据中心有两大职责:建设作为关键核心的微生物数据整合、分析、应用和安全保障体系;建立自主、安全、易用且具有国际影响力的微生物科学数据应用生态体系。
打铁还需自身硬。为实现这一目标,该中心不断探索新的发展模式。
为吸引用户积极汇交数据,该中心率先建立了与国际数据汇交体系接轨的全流程一站式数据提交模式,其发布的数据编号可在国际期刊直接使用,支撑中国科学家发表文章时的数据存储、共享,助力我国科学家科学数据的快速发布。
在专业人才队伍建设方面,为解决编制、经费不足等问题,该中心设立了比在编职工薪酬待遇更高的人才派遣制度,保证了队伍的稳定性,同时提高了队伍的新鲜血液输送能力。
该数据中心不只是单打独斗,近10年来还形成了涵盖6个分中心及应用微生物联盟、病原大数据联合中心、食品安全大数据联合中心等多个合作联盟在内的数据资源体系架构,在数据管理、应用与挖掘方面不断向更深、更实迈进。
超越“有用”
2020年2月20日,新冠疫情肆虐之初,微生物所研究员齐建勋向国家微生物科学数据中心提交了一组关于新冠病毒S蛋白与受体ACE2复合物高分辨率晶体结构的数据。仅用了半天时间,数据便上了线,随后其下载量迅速超过1万次。
而齐建勋2月19日投给PDB国际生物数据库的数据一个月后才上线。
“特殊时刻必须迅速响应。如果我们晚一天,就可能被国外抢发。”国家微生物科学数据中心副主任吴林寰介绍,该中心一般在数据提交一至三个工作日就能完成审核并发放编号。
“近五年来,国家改革力度很大,要求所有科研项目均向国家数据中心汇交数据。对我们来说,让别人交数据,也要让对方能够在数据服务链条上受益。”马俊才认为,数据中心要超越档案管理这种最基本的“有用之用”。
据介绍,国家微生物科学数据中心不仅提供数据管理、汇交、集成等“基础”服务,还提供数据调用、下载、分析、报告产出等“增值”服务。仅在2020年到2021年,该中心就汇交了包括合成生物学、食品安全关键技术研发、公共安全风险防控等19个领域的302项国家科技计划项目数据,汇集菌种数量逾3.9万份,实物标本数量超过5.8万份。
面对国家紧急需求,该平台更是雷厉风行。
2020年1月24日是大年三十。当天,国家微生物科学数据中心迅速建成新冠病毒国家科技资源服务系统,并在全球发布首个新冠病毒电镜照片及毒株信息。该系统目前已为全球177个国家和地区的240783名用户提供了1000多万人次的数据浏览和检索,为中国积极开展国际合作、实现全球数据共享打开了“一扇窗”。
在抗疫的“火线”上,该中心多次向国家相关机构提交关于北京新发地疫情、基因变异等分析报告,成为国家相关报告的重要组成部分;其搭建的新冠虚拟突变库利用AI模型预测潜在基因变异,为开展病原传播机制与途径、疫苗与药物设计辅助预测等研究提供了重要支撑;建设的重要病原体虚拟突变库和基于人工智能的风险预警评估体系可动态显示全球新冠变异等信息,向全球用户免费开放……这些作为科技抗疫的典型成果,入选国家“十三五”科技创新成就展,国家微生物科学数据中心也因此获得科技部全国科技系统抗击新冠肺炎疫情先进集体的表彰。
据介绍,目前国家微生物科学数据中心已汇聚一系列高质量数据产品,如中科院42个研究所76个馆藏单位的843万馆藏实物资源的数据,来自国家科技计划以及期刊、测序公司等不同领域的数万份微生物数据和实物资源,以及基于WDCM的来自51个国家143个保藏中心的52万微生物资源。
这些数据成为“盘点”我国,乃至全球微生物及其遗传资源“家底”的重要依据。
基于此,该中心的“增值”服务延伸到了国外。它联合10多个国家相关领域的专家,制定了第一个国际标准化组织(ISO)微生物资源数据标准,解决了长期以来由于各国微生物资源中心数据管理形式不同带来的共享阻碍。它还帮助我国微生物产业ISO参考用菌实现“零的突破”,使我国44株菌成为ISO菌,保障了我国相关生物产业发展。
该中心主导发起的全球万种微生物模式菌株测序计划目前已有16个国家的25个微生物保藏机构参与。据悉,目前全世界科学家已发表的模式细菌有17800种,其中已经测序的仅有8000种。“万种菌株测序项目的数据产品无疑将为原核物种的鉴定提供急需的国际平台,它将是任何与微生物相关的研究和开发不可或缺的基础设施。”世界微生物菌种保藏联合会主席Ipek Kurtboke和日本DNA数据库前主任Hideaki Sugawara评价说。
目前,国家微生物科学数据中心的“虹吸效应”已经凸显,其全球微生物实物资源目录中91.5%的数据来自国际合作伙伴。这与马俊才和团队时刻惦记为用户提供“个性化服务”的理念分不开,例如他们为每个国际数据提交机构提供其微生物资源数据全球使用情况的分析报告,盘点其对全世界所作的贡献,从而获得相关国家的关注和认可;该数据中心还通过举办学术研讨会、国际培训班,为进一步开展国际合作奠定基础。
功夫不负有心人。这些工作使该数据中心全球微生物资源数据共享平台在去年的世界互联网大会乌镇峰会上入选首批全球12项“携手构建网络空间命运共同体精品案例”。此外,该数据中心的数据科学家也在国际上脱颖而出,如马俊才担任微生物数据标准国际联合工作组主席、联合国教科文组织开放科学咨询委员会委员,吴林寰获得国际科学理事会世界数据系统数据管理奖。
再谱新篇
“微生物这门学科自带大数据。”微生物所所长钱韦说,自1977年第一个基因组序列——噬菌体X174被测出后,近半个世纪以来,微生物组学数据呈现爆炸式增长。此外,解析微生物丰富的种类与变异多样性,都离不开大数据的支撑。
钱韦认为,大数据驱动将带动科研范式的改变,未来的研究将不再局限于过去科学家个人所能接触到的微生物资源和传统实验室里作坊式的研究,而是将全球尺度的微生物数据与人工智能相结合,新的、更前沿的科学研究。
“比如防御病毒的自然变异,筛选所需要的人工变异,基于大数据‘有的放矢’,开展导向性的‘顶天立地’的前沿研究。”他希望以此进一步服务国家需求,推动国际合作,驱动产业发展。
当前,以国家微生物科学数据中心为依托,微生物所正在带动整个领域的相关合作与研究。该数据中心与国家疾控中心共建病原微生物大数据联合研究中心,开展病原微生物数据的系统整合和深度挖掘利用;与国家食品安全领域的相关单位合作,建立国家食源性致病微生物全基因组测序数据库,对来自全国31个省区市60种食品基质的菌种进行测序,无缝对接国家各溯源网络体系;为维护国内生物安全,配合真菌学国家重点实验室建立检疫性真菌参比物质及标准库,截获6种病原真菌新物种,这是我国实施口岸检疫83年来首次发现真菌新物种……
“随着国家微生物科学数据中心和中国科学院微生物科学数据中心体系的建立,微生物大数据发展迈上了新台阶。新起点也有新使命,下一步我们的目标是从实现数据集成向知识发展全面转型。”马俊才说,他和伙伴们希望能够将该数据中心建成一流的科研支撑中心、服务中心和数据研究中心,服务国家战略需求。