今天,微软宣布其人工智能文本翻译服务Microsoft Translator现在支持 100 多种不同的语言和方言。随着包括格鲁吉亚语、马其顿语、藏语和维吾尔语在内的 12 种新语言的加入,微软声称 Translator 现在可以让全球 56.6 亿人访问文档中的文本和信息。
它的翻译器并不是第一个支持超过 100 种语言的——谷歌翻译在 2016 年 2 月首次达到了这一里程碑。(亚马逊翻译只支持 71 种。)但微软表示,新语言得到了人工智能独特进步的支持,并且将可用在 Translator 应用程序、Office 和 Translator for Bing,以及 Azure 认知服务翻译器和 Azure 认知服务语音中。
微软 Azure AI 首席技术官黄学东在一份声明中说:“一百种语言对我们来说是一个很好的里程碑,它实现了我们的目标,让每个人都能够进行交流,而不管他们说什么语言。”“我们可以利用 [语言之间的共性] 并使用它……来改善整个语言家族 [ies]。”
Z码
截至今天,Translator 支持以下新语言,微软表示共有 8460 万人使用这些新语言
为 Translator 的升级提供动力的是 Z-code,它是微软更大的 XYZ-code 计划的一部分,旨在结合文本、视觉、音频和语言的人工智能模型,以创建可以说、看、听和理解的人工智能系统。该团队由一群科学家和工程师组成,他们是Azure AI和 Project Turing 研究小组的一部分,专注于构建支持各种生产团队的多语言、大规模语言模型。
Z-code 为整个语言家族提供基于文本的多语言 AI 语言翻译框架、架构和模型。由于在相似语言之间共享语言元素以及将知识从一项任务应用到另一项相关任务的迁移学习,微软声称它成功地显着提高了机器翻译能力的质量并降低了成本。
借助 Z-code,微软正在使用迁移学习来超越最常见的语言,并提高“低资源”语言的翻译准确性,“低资源”语言是指训练数据少于 100 万句的语言。(与所有模型一样,Microsoft 从来自公共和私人档案混合的大型数据集中的示例中学习。)大约 1,500 种已知语言符合此标准,这就是 Microsoft 开发了将语言家族和语言模型结合在一起的多语言翻译训练过程的原因。
技术,如神经机器翻译,改写为基础的范例,并在设备上的处理导致了机器翻译的准确性量化的飞跃。但直到最近,即使是最先进的算法也落后于人类的表现。微软以外的努力说明了问题的严重性——旨在使非洲大陆上的数千种语言自动翻译的Masakhane 项目尚未超越数据收集和转录阶段。此外,自 2017 年推出以来,Mozilla 致力于构建开源转录语音数据集合的Common Voice仅审查了数十种语言。
Z-code 语言模型经过多种语言的多语言训练,并且知识在语言之间转移。另一轮训练在翻译任务之间转移知识。例如,模型的翻译技能(“机器翻译”)用于帮助提高他们理解自然语言(“自然语言理解”)的能力。
8 月,微软表示,一个拥有 100 亿个参数的 Z-code 模型可以在机器翻译和跨语言摘要任务上取得最先进的结果。在机器学习中,参数是模型在进行预测时使用的内部配置变量,它们的值本质上——但并非总是——定义了模型在问题上的技能。
微软还在努力训练上述基准测试模型的 2000 亿参数版本。作为参考,OpenAI 的GPT-3是世界上最大的语言模型之一,有 1750 亿个参数。
市场动能
主要竞争对手谷歌也在使用新兴的人工智能技术来提高其服务的语言翻译质量。为了不甘示弱,Facebook最近公布了一种模型,该模型使用逐字翻译和反向翻译的组合,在 100 多种语言配对方面的表现优于系统。在学术界,麻省理工学院 CSAIL研究人员提出了一种无监督模型——即从没有明确标记或分类的测试数据中学习的模型——可以在两种语言的文本之间进行翻译,而无需在两者之间直接翻译数据。
当然,没有任何机器翻译系统是完美的。一些研究人员声称,人工智能翻译的文本在“词汇”上不如人工翻译丰富,并且有充分的证据表明语言模型会放大它们所训练的数据集中存在的偏见。来自麻省理工学院、英特尔和加拿大倡议 CIFAR 的人工智能研究人员发现,包括 BERT、XLNet、OpenAI 的 GPT-2 和 RoBERTa 在内的语言模型存在高度偏见。除此之外,谷歌还发现(并声称已经解决)支持谷歌翻译的翻译模型中的性别偏见,特别是在土耳其语、芬兰语、波斯语和匈牙利语等资源匮乏的语言方面。
就微软而言,它指出 Translator 的吸引力是该平台复杂性的证据。在一篇博客文章中,该公司指出,全球有数千家组织使用 Translator 来满足他们的翻译需求,其中包括大众汽车。
“大众汽车集团正在使用机器翻译技术为客户提供 60 多种语言的服务——每年翻译超过 10 亿个单词,”微软的约翰罗奇写道。“减少的数据要求……使翻译团队能够为资源有限或因母语人口减少而濒临灭绝的语言构建模型。”