最近,谷歌旗下的DeepMind公司在Nature上发表论文宣布使用其开发的人工智能程序AlphaFold 2将人类98.5%的蛋白质预测了一遍,并决定公开AlphaFold 2的源代码,免费开源有关数据集,供全世界科研人员使用。这一突破性进展立刻受到全世界的广泛关注和积极反响,中国科学院院士施一公认为“AlphaFold 2是人工智能对科学领域最大的一次贡献,也是人类在 21 世纪取得的最重要的科学突破之一”。
那么,AlphaFold算基础研究吗?
对此,中国工程院院士李国杰将AlphaFold归为工程科学技术——“工程科学技术不只是工具,也不仅仅是基础研究成果的应用,而是在基础研究中可以发挥巨大作用的重要组成部分”。
笔者对于李国杰的这个论述特别有共鸣,同时个人对基础研究有以下几个观点,谨为抛砖引玉。
选择合适的“基础研究”的定义
科研有其自身的规律与法则,如果不按规律办事,就会事倍功半。那么,基础研究有什么规律?事实上,对于基础研究不同的定义反应了不同角度的认知,对应的具体实施方式也不同。总的来说,过去几十年主要有两种对基础研究的定义:
其一,Vannevar Bush在线性模型下定义基础研究和应用研究,这种模式就把基础研究看作是一个知识储备池,是技术进步的源泉。在这种定义下,基础研究的作用是产生知识,不需要考虑和具体技术的关系,因此在实施层面,“广撒网”可能是最有效的产生多样化知识的方式。
其二,Donald E. Stokes通过四个象限来定义不同的研究类型,Stokes把基础研究分为纯粹基础研究(玻尔象限)与“由应用驱动的”基础研究(巴斯德象限)。在实施层面,波尔象限和线性模型下的基础研究基本一致。而巴斯德象限中,要用尖端的基础科学研究来解决迫切、强烈且巨大的现实需求;在实践时,通过解决实际问题“倒逼”科研人员把一些应用问题的底层原理搞清楚。
笔者更青睐Stokes的四象限模型。在笔者看来,“把问题的底层原理搞清楚”就是基础研究。其实波尔象限与巴斯德象限在具体科研实践时其实是一样的,就是“把问题的底层原理搞清楚”,只是问题的来源有所不同而已。
波尔象限的问题来源主要来自学科自身,如为什么会有量子纠缠现象;而巴斯德象限的问题来源主要来自现实应用,如牛奶如何保鲜。从“把问题的底层原理搞清楚”这个角度来看,只要能提出一些未解的问题,那就有潜力做出好的基础研究工作。
要高度重视自研科研基础设施
我们可能都有一个体会,科技攻关时“第一次”往往特别困难,比如第一架飞机、第一颗原子弹、第一颗人造卫星、第一款CPU、第一次火星登陆等等。哪怕曾经有其他国家实现过,另一个国家要实现“第一次”依然很艰难。
为什么?这主要因为这些“第一次”输出的不仅仅是一款原型系统,还包含背后一套研制该原型系统的技术流程以及相应的平台、材料、试剂、设备、仪器等,也就是科研基础设施。这些科研基础设施的作用正是“把问题的底层原理搞清楚”,比如为研制飞机建设的风洞,研制CPU需要有高精度的仿真器和模拟器。即使在物理、化学、天文等领域的基础研究,现在也都离不开各种尖端设备和仪器,像研究核聚变的EAST托卡马克装置、研究天文的FAST望远镜等。
在笔者从事的CPU芯片设计领域,很多人都看作是纯粹的工程技术,认为这里面没有基础研究。但在笔者看来,能把CPU设计空间中一些问题的底层原理搞清楚,就是基础研究。
举个例子,苹果最近推出的M1处理器性能甚至超越Intel的桌面处理器,这得益于Ml采用了约600项ROB,这完全颠覆了传统CPU架构设计人员的观念,因为以往CPU的ROB一般都不超过200项。也许用反向工程思维,可以很快做出一个也具有600项的CPU架构设计来。但是,谁知道苹果为什么敢这么设计?为什么是600项ROB,而不是400项,或者800项?反向工程只是工程技术,但是如果能把这些问题的底层原理彻底搞清楚,那就是CPU架构设计领域的基础研究。
要搞清楚底层原理并不容易,这需要一整套CPU架构设计基础设施的支撑——从程序特征分析技术、设计空间探索技术、高精度模拟器、系统仿真技术、验证技术等;还需要对大量程序特征进行分析,需要收集大量的原始数据,需要大量细致的量化分析,需要大量的模拟仿真……这些都是为了把底层原理搞清楚。
某种程度上,相比较于原型系统,平台/材料/试剂/设备/仪器等科研基础设施是更重要的输出。只有具备这些,才能不断地去深入探索各种现象的底层原理,才能支持后续的迭代优化,同时也能成为培养人才的基地。
基础研究与工程开发相互交融
基础研究和工程技术并不是简单的二元对立。相反,在很多领域基础研究和工程开发是交融在一起的。出现这种交融是因为很多研究所需要的科研基础设施,如新平台、新设备、新流程都需要工程投入。即使是探测引力波、希格斯粒子这样的基础研究,也需要工程投入研制LIGO、LHC这样的仪器设备。一旦有了这类科研基础设施,其他人在上面开展科研就会容易很多。
美国基础研究很强,其中一个原因在于有不少学者在大学里和企业研究院里建这些科研基础设施。比如在CPU芯片设计领域,有GEM5模拟器、CACTI模型、FireSim仿真平台等一系列基础设施,这可以让其他大学的学者更容易开展研究。因此,有一些学者认为基础研究不需要工程,主要还是因为有人帮他们把底层的科研基础设施已经搭建完善,让他们可以更容易地去做优化,更容易发表论文。
美国的很多科技企业内部也会构建一套和学术界总体上打通的科研基础设施(有开源共享的、有内部自研的)。通过将业务需求和内部数据导入到企业的科研基础设施中,就能很容易消化学术界产生的新想法,集成到企业的产品中。因此,打通的基础设施加上人才流通,这是美国学术界—产业界形成“创新想法—得到应用—收集反馈—新的创新想法—得到新的应用”这个闭环的重要原因。
但是,中国的学术界—产业界之间尚未形成这种高效的闭环,大多数企业还没有和学术界打通的科研基础设施。所以对于中国的学术界来说,更需要参与科研基础设施的建设,尤其是和企业一起来补科研基础设施的课。
基础研究也需要管理与组织
虽然很多基础研究是纯理论探索,几个人的小团队甚至一个人便可开展。但也有很多基础研究需要大团队,需要管理与组织,例如探测希格斯粒子、研制LIGO观测引力波等。
美国国防部高级研究计划局(DARPA)资助了很多颠覆性创新项目。我们观察DARPA的项目立项与执行过程,可以看到有一些共性特征:首先会畅想未来,设立激进的目标;科学地把激进目标分解为一系列子任务;制定具体子任务的实施计划,包括目标、时间节点等;子任务最后要集成到一个原型系统中。
“项目主管”会负责上述4个任务,具有绝对的项目决策权,同时也对项目负责,相当于抓总。大量实践证明,这种科研组织管理模式具有很高的效率。
这种模式对基础研究也有效。以清华大学类脑计算研究中心为例,该中心于2014年成立,成员来自清华大学不同的院系。他们的研究模式就类似DARPA项目,整个团队围绕“天机”类脑芯片开展全栈研究,并集成到自动驾驶自行车系统中,形成具有很好显示度的科研成果,发表多篇Nature、Science论文,入选中国十大科技进展等,同时也把清华的类脑计算学科建立了起来。
回到本文开头的问题:AlphaFold算基础研究吗?
根据本文的讨论,我们可以得出如下结论:第一,AlphaFold研发的过程中面临很多未知的问题,把这些问题的底层原理搞清楚,就需要基础研究;第二,Alpha Fold是蛋白质结构预测领域的科研基础设施,它本身就属于蛋白质结构预测领域基础研究的一部分。
(作者系中国科学院计算技术研究所副所长、研究员)