您的位置：首页 >业界 >

音频：文字、图片一键生成逼真音效，作者亲自揭秘音频AIGC模型

时间：2023-02-14 13:45:52 | 来源：

今天，分享一篇文字、图片一键生成逼真音效，作者亲自揭秘音频AIGC模型，希望以下文字、图片一键生成逼真音效，作者亲自揭秘音频AIGC模型的内容对您有用。

AIGC 在最近几月获得了巨大的突破，用户可以输入自然语言生成图像、视频、甚至是 3D 模型。但对于音频音效合成，高自由度音频生成因文本 - 音频对数据缺乏，以及长时波形建模困难而带来挑战。

此前，机器之心发布的文章《这段音频火爆外网！文字、图片一键生成逼真音效，音频界 AIGC 来了》很好的解决了上述问题，研究者提出了一款创新的、文本到音频生成系统，即 Make-An-Audio。其可以将自然语言描述作为输入，而且是任意模态（例如文本、音频、图像、视频等）均可，同时输出符合描述的音频音效。

具体而言，研究团队提出 Distill-then-Reprogram 文本增强策略已解决数据缺乏问题，即使用教师模型获得音频的自然语言描述，再通过随机重组获得具有动态性的训练样本。在 Distill 环节中，使用音频转文本与音频 - 文本检索模型，找到语言缺失 (Language-Free) 音频的自然语言描述候选 (Candidate)，通过计算候选文本与音频的匹配相似度，在阈值下取得最佳结果作为音频的描述。在 Reprogram 环节中，团队从额外的事件数据集中随机采样，并与当前训练样本相结合，得到全新的概念组合与描述，以扩增模型对不同事件组合的鲁棒性。

另一方面，自监督学习已经成功将图片迁移到音频频谱，利用了频谱自编码器以解决长音频序列问题，并基于 Latent Diffusion 生成模型完成对自监督表征的预测，避免了直接预测长时波形。

此外在研究中团队还探索了强大的文本条件策略，包括对比式 Contrastive Language-Audio Pretraining (CLAP) 以及语言模型 (LLM) T5， BERT 等，验证了 CLAP 文本表征的有效与计算友好性。同时还首次使用 CLAP Score 来评估生成的音频，可以用于衡量文本和生成场景之间的一致性；使用主、客观相结合的评估方式，在 benchmark 数据集测试中验证了模型的有效性，展示了模型出色的零样本学习 (Zero-Shot) 泛化性等。

为了让大家更好的了解这项研究，机器之心最新一期线上分享邀请到了论文两位作者黄融杰、任意，为大家解读文本到音频的生成系统，即 Make-An-Audio。

分享主题：音频 AIGC 模型 Make-An-Audio 与高可控文本转音频合成

分享摘要：近期 AIGC 如同上了热搜一般，火热程度居高不下，但在音频音效领域，AIGC 的福利似乎还差了一些：主要由于高自由度音频生成需要依靠大量文本 - 音频对数据，同时长时波形建模还有诸多困难。为了解决上述困难，浙江大学与北京大学联合火山语音，共同提出了一款创新的、文本到音频的生成系统，即 Make-An-Audio。其可以将自然语言描述作为输入，而且是任意模态（例如文本、音频、图像、视频等）均可，同时输出符合描述的音频音效，具有强可控性、泛化性。

嘉宾简介：黄融杰，浙江大学硕士二年级，师从赵洲教授。第一作者在 NeurIPS/ICLR/IJCAI/ACM-MM 等会议发表多篇文章，主要研究方向为多模态合成，语音翻译与自监督学习。

任意，火山语音（字节跳动 AI Lab Speech & Audio 智能语音与音频）团队研究员，著名语音合成框架 FastSpeech 系列作者，曾在人工智能顶会发表论文 40 余篇，谷歌学术引用超过 2000。主要研究方向为语音合成、语音翻译和机器翻译。

论文链接：https://arxiv.org/abs/2301.12661

项目链接：https://text-to-audio.github.io (https://text-to-audio.github.io/)

直播时间：2月15日19:00-20:00

直播间：关注机动组视频号，立即预约直播。

交流群：本次直播有 QA 环节，欢迎加入本次直播交流群探讨交流。

机器之心 · 机动组

机动组是机器之心发起的人工智能技术社区，聚焦于学术研究与技术实践主题内容，为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动，欢迎所有 AI 领域技术从业者加入。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如有侵权行为，请第一时间联系我们修改或删除，多谢。