在2021 年秋季 GPU 技术大会 (GTC) 上,Nvidia 推出了 Riva Custom Voice,这是一个新工具包,该公司声称可以让客户创建自定义的“类人”语音,只需 30 分钟的语音记录数据。据 Nvidia 称,企业可以使用 Riva Custom Voice 开发具有独特语音的虚拟助手,而呼叫中心和开发人员可以利用它来推出品牌语音和应用程序,以支持有语言障碍的人。
Progressive 的Flo等品牌代言人通常负责在企业培训视频系列中录制电话树和在线学习脚本。对于公司来说,这些成本可能会加起来——一位消息人士称,配音演员的平均时薪为 39.63 美元,加上交互式语音响应 (IVR) 提示的额外费用。合成可以通过减少对额外录音的需求来提高演员的生产力,有可能让演员有时间从事更具创造性的工作——并在此过程中为企业节省资金。
例如,Progressive 使用人工智能创建了一个 Facebook Messenger 聊天机器人,其中包含扮演 Flo 的 Stephanie Courtney 的声音。加拿大的肯德基在该公司的亚马逊 Alexa 应用程序中为该连锁店的大使桑德斯上校建立了美国南部英语口音的声音。Duolingo 正在使用人工智能为其语言学习应用程序中的角色创建声音。澳大利亚国民银行为呼叫其联络中心的客户部署了由人工智能驱动的澳大利亚英语语音。
英伟达 AI 产品管理副总裁 Kari Briski 在一篇博文中表示:“长期以来,人机交互一直是 AI 面临的最大挑战之一,尤其是对于具有特定行业术语的公司而言。”“现在,这些公司可以使用语音 AI 来倾听和回应客户,并以他们品牌独有的富有表现力的声音回应客户,从而推动更具吸引力和愉悦的互动。
语音合成
Riva 自定义语音可在最新版本的 Nvidia 的 Riva 对话式 AI 软件开发套件中使用,它利用半监督学习为软件、IVR 和其他业务应用程序创建合成的、定制的语音。在半监督学习(几种 AI 训练技术之一)中,机器学习算法确定数据点之间的相关性,然后使用少量标记数据来标记这些点。然后根据新应用的数据标签训练系统,无需手动标记所有数据。
半监督学习适用于一系列现实问题,其中少量标记数据会阻止监督学习算法发挥作用。(监督学习要求对所有数据进行标记以完成训练过程。)例如,它可以减轻语音分析中的数据准备负担,其中标记音频文件通常是非常劳动密集型的。
英伟达表示,对于小规模的研发,Riva Custom Voice 将在英伟达 NGC 容器注册表中免费推出公测版。该公司表示,对于大规模部署的客户,有新宣布的 Riva Enterprise 计划,预计将于明年初推出,并将提供来自 Nvidia 专家的技术支持。
借助 Riva 自定义语音,英伟达有效地与谷歌并驾齐驱,谷歌于 2019 年在其云文本转语音服务中推出了新的人工智能合成 WaveNet 语音和标准语音。英伟达在亚马逊还有另一个竞争对手,该公司最近推出了一项服务——品牌语音——利用人工智能生成定制代言人,并通过亚马逊 Polly提供多种语音风格和情感风格。就其本身而言,2 月份,微软推出了一项名为Custom Neural Voices的合成语音生成服务,访问受限。
潜在的滥用
人工智能语音可以提供品牌一致性,研究表明这是提高客户忠诚度的关键之一。根据Wunderman 和 Adobe 进行的一项调查,63% 的客户表示最好的品牌在整个客户旅程中都超出了预期。Forrester 的另一项调查发现,69% 的美国消费者更多地购买在商店和网上提供一致体验的品牌。
但这项技术也可能被滥用,例如一位 CEO 的声音被模仿得足以令人信服地发起了 243,000 美元的电汇。VMware 的 Rick McElroy 指出,“随处可见的劳动力时代”不断的 Zoom 会议创造了丰富的音频和视频数据,这些数据可以输入机器学习系统以创建引人注目的副本。根据FBI 的说法,恶意行为者可能会在未来 12 个月内利用合成内容进行网络和外国影响行动。
一些提供商要求配音演员同意使用该技术,审查每个潜在用例,并在部署合成语音之前让客户签署行为准则。微软表示,它正在研究一种在合成语音中嵌入数字水印的方法,以表明该内容是使用自定义神经语音创建的。其他人,如语音合成初创公司 Resemble AI,已经发布了旨在检测语音“深度伪造”的开源工具。
Nvidia 最初并未宣布防止滥用 Riva Custom Voice 的保护措施,但在其 Riva 服务条款中,该公司禁止创建“欺诈、虚假、误导或欺骗”内容以及“促进[s ] 对任何个人或团体的歧视、偏执、种族主义、仇恨、骚扰或伤害。”一旦发布更多信息,我们将更新这篇文章。