在今天的直播活动中,谷歌详细介绍了它使用人工智能技术的方式——特别是一种称为多任务统一模型 (MUM)的机器学习算法——来增强跨不同语言和设备的网络搜索体验。从明年初开始,该公司的图像识别技术 Google Lens 将能够根据照片和高级描述来查找衣服等物体。大约在同一时间,谷歌搜索用户将开始看到一个 AI 策划的列表,其中列出了他们应该了解的关于某些主题的事情,比如丙烯酸漆材料。他们还会看到根据相关主题以及通过搜索发现的视频中的相关主题来优化或扩大搜索范围的建议。
这些升级是 Google 多年努力的成果,旨在提高 Search 和 Lens 对语言与网络视觉效果之间关系的理解。根据谷歌搜索副总裁 Pandu Nayak 的说法,谷歌在去年 6 月的开发者大会上详细介绍了 MUM,它可以通过展示产品和评论以及改善“各种”语言理解来帮助更好地将用户与企业联系起来,无论是在客户服务级别还是在研究环境中。
“MUM 的强大之处在于它能够在广泛的层面上理解信息。它本质上是多模式的——也就是说,它可以同时处理文本、图像和视频,”Nayak 在电话采访中告诉 VentureBeat。“它保证了我们可以提出非常复杂的查询并将它们分解成一组更简单的组件,在那里您可以获得不同、更简单查询的结果,然后将它们拼接在一起以了解您真正想要的内容。”
妈妈
谷歌在搜索中进行了大量测试,以微调用户最终看到的结果。Nayak 说,在 2020 年——该公司推出了 3,600 多项新功能——它进行了超过 17,500 次流量实验和超过 383,600 次质量审核。
尽管如此,鉴于语言的复杂性,问题还是会出现。例如,几年前搜索“Isole good for kids”——在这种情况下,“sole”指的是鱼——会出现比较童鞋的网页。
2019 年,谷歌着手使用一种名为 Bidirectional Encoder Representations from Transformers 或BERT的技术来解决语言歧义问题。基于该公司对 Transformer 模型架构的研究,BERT 强制模型通过查看单词前后的单词来考虑单词的上下文。
追溯到 2017 年,Transformer 已成为自然语言任务的首选架构,展示了总结文档、语言之间翻译和分析生物序列的能力。根据谷歌的说法,BERT 帮助搜索更好地理解了美国 10% 的英语查询——尤其是更长、更多对话的搜索,其中像“for”和“to”这样的介词对意思很重要。
例如,谷歌之前的搜索算法无法理解“2019 年巴西旅游者到美国需要签证”是关于巴西人到美国旅游,而不是相反。BERT 意识到“to”这个词在上下文中的重要性,谷歌搜索为查询提供了更多相关结果。
“BERT 开始了解语言中的一些微妙之处,这非常令人兴奋,因为语言充满了细微差别,”Nayak 说。
但 BERT 有其局限性,这就是为什么谷歌人工智能部门的研究人员在 MUM 中开发了继任者的原因。MUM 大约比 BERT 大 1,000 倍,并在来自网络的文档数据集上进行训练,过滤掉露骨、仇恨、辱骂和误导性图像和文本等内容。它可以用 75 种语言回答问题,包括“明年秋天我想远足富士山 - 我应该做些什么准备?”等问题。并意识到“准备”可以包括健身训练和天气等内容。
MUM 还可以在图像和对话转向中依赖上下文等。给一张登山鞋的照片,然后问“我可以用它去远足富士山吗?”MUM 可以理解图像的内容和询问背后的意图,让提问者知道登山鞋是合适的,并在富士山博客中为他们指明课程。
MUM 可以在语言之间传递知识并且不需要明确教授如何完成特定任务,它帮助 Google 工程师识别了 50 多种语言中的800 多个 COVID-19名称变体。与人类团队可能需要数周的时间相比,MUM 只需要几个官方疫苗名称的例子就能够在几秒钟内找到语言间的差异。
“MUM 可以让你从具有大量数据的语言概括为像印地语等语言,语料库中的数据很少,”Nayak 解释道。
多模态搜索
在 2020 年进行内部试点以了解 MUM 可能能够解决的查询类型之后,Google 表示正在将 MUM 扩展到搜索的其他领域。
很快,MUM 将允许用户使用 Lens 拍摄物体(例如衬衫)的照片,并在网络上搜索具有类似图案的另一个物体(例如袜子)。MUM 还将使 Lens 能够识别搜索者不熟悉的物体,例如自行车的后链轮,并根据查询返回搜索结果。例如,给定一张链轮的图片和“我该如何修理这个东西”的查询,MUM 将显示有关如何修理自行车链轮的说明。
“妈妈可以理解你正在寻找的是修复技术以及这种机制是什么,”Nayak 说。“这是多型号 Lens 所承诺的那种东西,我们希望在明年初的某个时候推出它。”
顺便说一句,谷歌为美国用户推出了适用于 iOS 的“镜头模式”,它在谷歌应用程序中添加了一个新按钮,可以通过镜头搜索网页上的所有图像。Chrome 中的 Lens 也将在未来几个月在全球范围内推出,这将允许用户在带有 Lens 的网站上选择图像、视频和文本,从而在同一标签页中查看搜索结果,而无需离开他们所在的页面。
在搜索中,MUM 将为三个新功能提供支持:要了解的内容、优化和扩展以及视频中的相关主题。Things to Know 需要一个广泛的查询,比如“丙烯画”,并突出网络资源,比如分步说明和绘画风格。Refine & Broaden 可查找与查询相关的较窄或一般的主题,例如“绘画风格”或“著名画家”。在视频相关主题方面,它根据视频的音频、文字和视觉内容,挑选出视频中的主题,如“丙烯画材料”和“丙烯技法”。
“MUM 有一系列特定的应用程序,”Nayak 说,“它们开始影响我们的许多产品。”
潜在的偏见
越来越多的研究表明,多模态模型容易受到与语言和计算机视觉模型相同类型的偏见的影响。视觉问答等任务中涉及的问题和概念的多样性——以及缺乏高质量数据——通常会阻止模型学习“推理”,导致它们依靠数据集统计数据做出有根据的猜测。例如,在一项涉及 7 个多模态模型和 3 种减少偏差技术的研究中,合著者发现这些模型未能解决涉及不常见概念的问题,这表明该领域还有工作要做。
谷歌在算法偏见方面有相当多的问题——尤其是在计算机视觉领域。早在 2015 年,一位软件工程师就指出,谷歌照片中的图像识别算法将他的黑人朋友标记为“大猩猩”。三年后,谷歌并没有超越零碎的解决方案,即简单地阻止图像类别搜索“大猩猩”、“黑猩猩”、“黑猩猩”和“猴子”,而不是重新设计算法。最近,研究人员表明,谷歌的计算机视觉服务 Google Cloud Vision 会自动将一张拿着温度计的黑皮肤人的图像标记为“枪”,同时用一个浅肤色的人的“电子设备”标记类似的图像。
“经过大规模训练的[多模态]模型会产生紧急能力,因此很难理解它们的偏差和故障模式是什么。然而,商业激励是为了将这项技术部署到整个社会,”斯坦福大学 HAI 教师和计算机科学教授 Percy Liang 在最近的一封电子邮件中告诉 VentureBeat。
毫无疑问,为了避免产生一系列负面宣传,谷歌声称它在减轻 MUM 中的偏见方面煞费苦心——主要是通过在“高质量”数据上训练模型并让人类评估 MUM 的搜索结果。“我们使用 [an] 评估过程来寻找我们推出的任何应用程序集中的偏见问题,”Nayak 说。“当我们推出有潜在风险的产品时,我们会加倍小心。”