您的位置：首页 >运营 >

AAAI 2022：AI字幕在儿童频道里吐“脏话”比例高达40%

时间：2022-02-28 12:55:24 | 来源：互联网

AI自动生成的字幕，能离谱到什么程度？不仅把“螃蟹”（crab）误听成“废话”（crap），当场爆粗，甚至还能把“玉米”（corn）给翻译成p*rn……

关键在于，这些是AI给儿童节目自动生成的字幕。

被AAAI 2022收录的一篇新研究发现，在7013个儿童视频中，接近40%的节目出现了少儿不宜或脏话等词汇。

甚至在一个113集的儿童机器人学习栏目中，AI就“爆粗”了103次，平均接近一集一次！

对此，油管（YouTube）在接受《连线》采访时回应：

我们为13岁以下的儿童开发了YouTube Kids，这个APP会关闭字幕生成功能。

但如果真有字幕需求的话，如何才能想办法减少这种AI生成错误？

一起来看看。

亚马逊Google都很“祖安”

先来看看这篇论文的调查结果。

研究人员一共从油管上选出了24个儿童频道，分别记录了这些频道的播放量和订阅量。

可以看出，这些筛选出来的视频播放量基本都达到了百万级，订阅人数也同样不少。

然后，研究人员分别试了一下Google和AWS（亚马逊网页服务）的字幕生成效果。

结果显示，AI字幕的“少儿不宜”率可谓离谱：

在7013个视频中，GoogleAI出现错误字幕的次数达到2768次，接近40%。

亚马逊的AI字幕错误率还要更高，达到了3672次，超过52%。

具体来说，两个AI分别容易在这些“不太恰当”的字词上出错：

图左亚马逊，图右Google

在这些数据集中，有一些词语又尤为“少儿不宜”，例如一些骂人的脏词：

经过作者们人工检查（例如确认原视频是否真的说了脏话），发现AI主要容易在以下几种情况中出错：

背景音乐嘈杂

说话者为婴儿

说话者为儿童

说话者以英语为第二语言

说话者在唱歌

包括但不限于这些情况

那么，有没有什么办法减少这种情况发生呢？

语序连贯的错误更容易修复

研究人员提出了一个新的数据集，利用近音字词来构建禁忌词的“替换”备选。

例如，对于crap这一可能出现的“粗口”，研究人员就给它设置了crab、craft等读音相似的字词，便于AI在搞错时进行替换。

具体来说，他们在BERT、XLM、XLNet等NLP模型上，针对“完形填空”任务进行了重新训练，也就是用[MASK]遮住部分单词，让AI来填写对应的内容。

结果显示，在语序正常、前后文案有逻辑的视频中，AI替换的准确率更高（蓝色为正确替换词）：

然而在一些逻辑不强的文案中，成功替换的效果就没有那么好了：

最终，Megatron和Levenshtein等模型展现出了最好的修复效果，分别给亚马逊AI带来了超过25%的正确修复率，给GoogleAI带来了超过28%的修复率。

看来AI在字幕生成能力上还是任重道远啊。

自量子位

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如有侵权行为，请第一时间联系我们修改或删除，多谢。

相关推荐

猜你喜欢

图文推荐

随着原油价格飙升至100美元买入2只高收益石油股票

随着原油价格飙升至100美元买入2只高收益石油股票

3个可以超越纳斯达克熊市的顶级股息之王

3个可以超越纳斯达克熊市的顶级股息之王

您可以永远购买并持有这些稳定的股票

您可以永远购买并持有这些稳定的股票

盈利超预期和前景改善使这只数字医疗保健股难以忽视

盈利超预期和前景改善使这只数字医疗保健股难以忽视

这就是柠檬水股票周四暴跌的原因

这就是柠檬水股票周四暴跌的原因

使用这2只ETF投资下一代技术

使用这2只ETF投资下一代技术

Novavax未来的2个绿旗

Novavax未来的2个绿旗

为什么天纳克股票今天几乎翻了一番

为什么天纳克股票今天几乎翻了一番

最新文章

精彩内容

1个市场波动时买入的成长型股票

2022-02-25
你有足够的房主保险吗你可能不会有一个重要原因

2022-02-25
这两只成长型股票从高点下跌了60%

2022-02-25
家得宝收益您可能错过的3件事

2022-02-25
我上周购买Roku股票是否犯了错误

2022-02-24
Arcos Dorados股票今天上涨该股获得了华尔街的大幅升级

2022-02-24
我在科技股修正期间购买的3只股票

2022-02-23
将市场调整视为一杯焦咖啡的3个理由

2022-02-23

随机推荐