还记得IBM的人工智能程序“沃森”(Watson)吗?2010年的一条宣传语称,“沃森能够理解自然语言的模糊性和复杂性。”然而,正如我们所看到的,沃森后来在“运用人工智能的医学革命”探索中遭遇惨败,表面上的语言能力并不等同于真正理解人类语言。
理解自然语言一直是人工智能研究的主要目标之一。起初,研究人员试图手动编程机器所需的一切,使其理解新闻故事、小说或其他人类可能编写的东西。正如沃森所展示的那样,这种方法是徒劳的,研究人员不可能将理解文本所需的所有不成文的事实、规则和假设都写下来。最近,一种新的范式已经建立起来:与其构建明确的知识,不如让机器自己学习理解语言,它所要做的,就是吸收大量的书面文本并学会预测单词。研究人员将此称为语言模型。2020年,美国旧金山的人工智能公司OpenAI训练并开发了一个自回归语言模型,称为“生成型已训练变换模型3”(Generative Pre-trained Transformer 3,简称 GPT-3)。当基于像GPT-3这样的大型神经网络时,这些模型可以产出令人难以置信的,可与人类散文(和诗歌!)媲美的“作品”,并似乎能执行复杂的语言推理。
GPT-3是用成千上万的网站、书籍和百科全书的文本训练出来的,那我们能否说,它已经超越了沃森的“表面功夫”?它真的理解它产生的语言和表面上的推理?在人工智能研究领域,这个话题存在着严重的分歧。在过去,这样的讨论是哲学家的研究范畴,但在过去十年间,人工智能已经冲破了学术圈层,进入了现实世界;有人认为,人工智能对现实世界的缺乏理解可能会产生真实的、甚至是毁灭性的后果。在一项研究中,沃森提出了“许多不安全和不正确的治疗建议”。另一项研究表明,谷歌的机器翻译系统在为非英语患者翻译医疗说明时,出现了一些重大错误。
那么,我们如何在实践中确定机器真的具有理解能力?1950年,计算机先驱阿兰·图灵试图用他著名的“模仿游戏”来回答这个问题,这个游戏现在被称为“图灵测试”。一个机器如果能和一个人展开对话(通过电传设备),而不被辨别出谁是人类,谁是机器,那么我们就应该认为这台机器具有智能,即它是能思考的,具有理解能力。
不幸的是,图灵低估了人类被机器愚弄的倾向。即使是简单的聊天机器人,比如德裔美国计算机科学家约瑟夫·魏森鲍姆在20世纪60年代发明的人工智能心理治疗师“Eliza”,也会欺骗人们,让他们相信自己是在和一个善解人意的人交谈,即使知道他们的谈话对象是一台机器。
在2012年的一篇论文中,计算机科学家赫克托·莱韦斯克、欧内斯特·戴维斯和莱奥拉·摩根斯坦提出了一个更客观的机器智能测试,他们称之为“威诺格拉德模式挑战”(Winograd schema challenge,简称WSC)。这项测试已经被人工智能语言社区采用,作为评估机器理解能力的一种方式,也许是最好的方式——尽管目前来看还尚不完美。该测试以斯坦福大学语言研究者和计算机科学家特里·威诺格拉德的名字命名,由两个句子组成,二者仅有一个单词不同,然后紧接着一个问题。机器需要识别问题中的前指关系,即指出问题中某一代词的先行词。为了正确回答问题,机器需要拥有常识推理的能力。以下是两个例子:
句子1:我把水从瓶子里倒进杯子里,直到它满为止。
问题:什么满了,瓶子还是杯子?
句子2:我把瓶子里的水倒进杯子里,直到它空为止。
问题:什么空了,瓶子还是杯子?
句子1:乔的叔叔打网球仍然能赢他,尽管他大了30岁。
问题:谁更年长,乔还是乔的叔叔?
句子2:乔的叔叔打网球仍然能赢他,尽管他年轻了30岁。
问题:谁更年轻,乔还是乔的叔叔?
对于特定的威诺格拉德模式集,神经网络语言模型达到了约97%的准确率。这大致可以和人类的表现相媲美。
在每一对句子中,一个词的差异可以改变代词指的是什么东西或什么人。正确回答这些问题需要一定的常识推理能力。威诺格拉德模式的设计正是为了测试这种理解能力,减轻了图灵测试在不可靠的人类判断或聊天机器人技巧下的弱点。特别是,该挑战的作者设计了几百种他们认为是“无法搜索”的模式:机器不应该使用谷歌搜索(或类似的任何东西)来获得正确的问题答案。
威诺格拉德模式是2016年举行的一场比赛的主题,在比赛中获胜的程序只理解对了58%的句子——很难说比瞎猜的结果好多少。人工智能研究专家奥伦·埃齐奥尼打趣道:“当人工智能无法确定一个句子中的‘它’指的是什么时,很难相信它会接管世界。”
然而,由于大型神经网络语言模型的出现,人工智能程序解决威诺格拉德模式挑战的能力正迅速提升。OpenAI公司在2020年的一篇论文报告称,在威诺格拉德模式的基准测试集中,GPT-3在近90%的句子上是正确的。其他的语言模型在经过这些任务的专门训练后,表现得甚至更好。在撰写本文时,神经网络语言模型在一组特定的威诺格拉德模式——SuperGLUE基准测试数据集的一部分——上达到了约97%的准确率。如此高的准确性已经大致相当于人类的表现。那么,这是否意味着神经网络语言模型已经获得了类似人类的理解能力?
不一定。尽管创建者尽了最大的努力,但这些威诺格拉德模式实际上并不能“免于谷歌搜索”。这些挑战,就像目前许多其他人工智能语言理解测试一样,有时会允许神经网络在没有理解的情况下也能很好地运行。例如,考虑以下句子,“跑车超过了邮车,因为它行驶得更快”和“跑车超过了邮车,因为它行驶得更慢”。一个在大量英语句子语料库上训练的语言模型会归纳“跑车”和“快”、“邮车”和“慢”之间的相关性,从而可以仅基于这些相关性而不是利用任何理解能力来做出正确回答。结果是,在SuperGLUE测试中,许多威诺格拉德模式允许使用这种类型的统计相关性。
艾伦人工智能研究所的一组研究人员没有放弃将威诺格拉德模式作为机器智能理解能力的测试,而是尝试解决其存在的一些问题。2019年,他们创建了“WinoGrande”,一个更大的威诺格拉德模式集。WinoGrande包含了多达44000个语句,而不是仅有数百个例子。为了获得如此大量的语句,研究人员求助于流行的众包工作平台“亚马逊土耳其机器人”(Amazon Mechanical Turk)。在这个平台上,每个(人类)工作者被要求写下几对句子,并加上一些约束,以确保集合中包含不同的主题。不过,现在每对句子中可能会有不止一个单词的差异。
然后,研究人员试图将一种相对简单的人工智能方法应用到每个句子上,剔除那些过于容易回答的句子,从而消除可能出现的统计捷径。正如预期的那样,对机器来说,剩下的句子比最初的威诺格拉德模式集要困难得多。人类的得分仍然很高,但与人类表现相匹配的神经网络语言模型在WinoGrande集合中的得分要低得多。这个新的挑战似乎弥补了威诺格拉德模式作为常识理解测试的缺陷——只要句子经过仔细筛选,就能确保它们不受“谷歌搜索”的影响。
然而,一个新的惊喜正在酝酿。在WinoGrande模式集发布后的近两年时间里,神经网络语言模型变得越来越大,它们在这个新挑战中的得分似乎也越来越高。在撰写本文时,目前最好的程序——已经在太字节(TB)级别的文本上进行了训练,然后在数以千计的WinoGrande示例上进行了进一步的训练——准确率接近90%(人类的准确率约为94%)。这种表现的提升几乎完全归功于神经网络语言模型及其训练数据规模的增加。
那么,这些规模越来越大的神经网络最终能获得像人类一样的常识理解能力吗?答案同样是否定的。WinoGrande的研究结果有一些重要的警示。例如,由于句子依赖于“亚马逊土耳其机器人”的工作者,写作的质量和连贯性相当不均衡。同时,在清除“不能免于谷歌搜索”的句子时,“不够成熟”的人工智能方法可能过于简单,不仅找出了所有可能用于大型神经网络的统计捷径,而且可能只应用在个别句子上,导致一些余下的句子最终失去了“孪生语句”。一项后续研究表明,当神经网络语言模型只对两个“孪生”句子进行测试——并且要求两个句子都正确——的时候,其准确率要比人类低得多。这意味着,早先准确率接近90%的结果并没有看上去的那么显著。
那么,我们应该如何看待威诺格拉德模式挑战?主要的教训是,我们通常很难从人工智能系统在特定挑战中的表现来判断它们是否真正理解其所处理的语言(或其他数据)。我们现在知道,神经网络经常使用统计捷径——而不是实际类似于人类的理解能力——以在威诺格拉德模式以及许多最流行的“通用语言理解”基准测试中获得上佳表现。
问题的关键在于,理解语言的前提是理解世界,而只接触语言的机器无法获得这样的理解。例如,让我们理解一下“跑车超过了邮车,因为它行驶得更快”这句话是什么意思。首先,你需要知道跑车和邮车分别是什么,而两种车之间可以互相“超车”;此外,在更基本的层面上,车辆存在于这个世界上,能与其他事物产生互动,而且由人类驾驶,有着各自的用途。
在我们人类的认知中,所有这些都是理所当然的知识,但它们并没有内置在机器当中,也不可能明确地记录在任何语言模型的训练文本中。一些认知科学家认为,人类依靠先天的、非语言的核心知识来学习和理解语言,这些核心知识包含了空间、时间和其他许多关于世界的基本属性。如果我们想让机器同样掌握人类语言,首先就需要赋予它们人类与生俱来的基本原则。在评估机器的理解能力时,我们应该从评估它们对这些原则的理解开始,这或许可以称为“婴儿形而上学”。
与沃森和GPT-3等人工智能系统的惊人成就相比,训练和评估婴儿水平的机器智能似乎是一个巨大的倒退。但如果我们的目标是让人工智能拥有真实可信的理解能力,这可能是唯一的途径;只有这样,机器才能真正理解句子中的“它”指的是什么,同时也理解与“它”有关的其他所有一切。(任天)