南方站长网 – 互联网爱好者创业的站长之家
您的位置:首页 >运营 >

谷歌表示其平行Tacotron模型产生合成声音的速度是其前身的13倍

时间:2021-01-11 16:43:37 | 来源:

2016年12月,Google发布了Tacotron 2,这是一种机器学习的文本语音转换(TTS)系统,可从原始笔录中生成听起来自然的语音。它用于诸如Google Assistant之类的面向用户的服务中,以创建听起来像人的声音,但它的计算量相对较大。在最新的一篇论文中,这家搜索巨头的研究人员声称已经通过他们所谓的Parallel Tacotron来解决了这一局限,该模型在训练和推理过程中高度并行化,从而可以在功能较弱的硬件上高效生成语音。

文本到语音的合成是所谓的一对多映射问题。给定任何文本片段,都可以生成具有不同韵律(语调,语调,重音和节奏)的多种声音。即使是像Tacotron 2这样的复杂模型,也容易出现诸如胡言乱语,断断续续的语音以及重复或跳过单词的错误。解决此问题的一种方法是通过合并捕获潜在语音因子的表示来增强模型。这些表示可以由编码器提取,该编码器将真实的频谱图(随时间变化的语音频率可视化表示)作 为输入。这就是Parallel Tacotron采取的方法。

在实验中,为了训练Parallel Tacotron,研究人员说他们使用了一个包含405个小时语音的数据集,其中包括来自3位英语口音(32位美国英语,8位英国英语和5位澳大利亚英语)的45位说话者的347,872言语。使用Google Cloud TPU进行了一天的培训,Google Cloud TPU是专门为加速AI而开发的专用集成电路。

研究人员让人工审核人员查看1,000个句子,以评估Parallel Tacotron的性能,这些语言是使用10位美国英语讲者(5位男性和5位女性)以轮询方式合成的(每位发言者100个句子)。尽管还有改进的余地,但结果表明,平行Tacotron与人类语音相比“表现良好”。而且,平行Tacotron比Tacotron 2快13倍。

研究人员写道:“已经提出了许多模型,以自然的发音方式来合成语音的各个方面(例如,说话风格)。”“平行Tacotron的自然匹配基线Tacotron 2并提供比Tacotron 2快得多的推断。”

在Microsoft和Facebook详细介绍了自己的快速文本转语音技术之后,可以在GitHub上发布Parallel Tacotron。微软的FastSpeech具有独特的体系结构,不仅可以提高许多领域的性能,而且还可以消除诸如跳字之类的错误,并且可以对速度和断字进行细粒度的调整。至于Facebook的系统,它利用语言模型进行策展,创造的声音是基线的160倍。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。