互联网爱好者创业的站长之家 – 南方站长网
您的位置:首页 >微商 >

微软和英伟达联手训练世界上最大的语言模型之一

时间:2021-10-12 10:15:11 | 来源:

微软和英伟达今天宣布,他们训练了他们声称是迄今为止最大、最强大的人工智能语言模型:威震天-图灵自然语言生成 (MT-NLP)。微软和英伟达表示,作为两家公司 Turing NLG 17B 和 Megatron-LM 模型的继承者,MT-NLP 包含 5300 亿个参数,并在一系列广泛的自然语言任务中实现了“无与伦比”的准确性——包括阅读理解、常识推理和自然语言推理。

“我们今天获得的质量和结果是朝着在自然语言中释放 AI 全部承诺的旅程向前迈出的一大步。DeepSpeed 和 Megatron-LM 的创新将有利于现有和未来的 AI 模型开发,并使大型 AI 模型的训练成本更低、速度更快,”Nvidia 加速计算产品管理和营销高级总监 Paresh Kharya 和微软集团项目经理图灵团队,Ali Alvi 在一篇博文中写道。“我们期待 MT-NLG 将如何塑造未来的产品,并激励社区进一步推动自然语言处理 (NLP) 的界限。旅程漫长而且远未完成,但我们对可能发生的事情和未来的事情感到兴奋。”

训练海量语言模型

在机器学习中,参数是从历史训练数据中学习到的模型部分。一般来说,在语言领域,参数数量和复杂程度之间的相关性非常好。具有大量参数、更多数据和更多训练时间的语言模型已被证明可以获得更丰富、更细致的语言理解,例如获得总结书籍甚至完整编程代码的能力。

为了训练 MT-NLG,微软和 Nvidia 表示他们创建了一个训练数据集,其中包含来自英语网站的 2700 亿个令牌。标记是一种在自然语言中将文本片段分成更小的单元的方法,可以是单词、字符或单词的一部分。与所有 AI 模型一样,MT-NLP 必须通过摄取一组示例来“训练”以学习数据点之间的模式,例如语法和句法规则。

该数据集主要来自 The Pile,这是一个由开源 AI 研究工作EleutherAI创建的 835GB 的 22 个较小数据集的集合。The Pile 涵盖学术资源(例如,Arxiv、PubMed)、社区(StackExchange、Wikipedia)、代码存储库(Github)等,微软和 Nvidia 表示他们策划并结合了 Common Crawl 的过滤快照,这是一个大量的网页,包括新闻报道和社交媒体帖子。

训练在 560 台 Nvidia DGX A100 服务器上进行,每台服务器包含 8 个 Nvidia A100 80GB GPU。

微软表示,在进行基准测试时,即使符号“被严重混淆”,MT-NLP 也可以推断出基本的数学运算。虽然不是非常准确,但该模型似乎超越了对算术的记忆,并设法完成包含提示其回答的问题的任务,这是 NLP 的一项重大挑战。

众所周知,像 MT-NLP 这样的模型可以放大他们所训练的数据中的偏差,事实上,微软和 Nvidia 承认该模型“从 [训练] 数据中提取了刻板印象和偏见”。这可能是因为数据集的一部分来自普遍存在性别、种族、身体和宗教偏见的社区,而这些内容管理无法完全解决。

在一篇论文中,米德尔伯里国际研究所的恐怖主义、极端主义和反恐中心声称 GPT-3 和类似模型可以生成“信息性”和“有影响力”的文本,可能会使人们激进化为极右翼极端主义意识形态和行为。乔治城大学的一个小组使用 GPT-3 生成错误信息,包括围绕虚假叙述的故事、修改文章以推动虚假观点,以及针对特定虚假信息点的推文。其他研究,如英特尔、麻省理工学院和加拿大人工智能倡议 CIFAR 研究人员在 4 月份发表的一项研究,发现一些最流行的开源模型存在高度刻板的偏见,包括谷歌的 BERT、XLNet和Facebook 的罗伯塔。

微软和英伟达声称他们“致力于解决 [the] 问题”并鼓励“继续研究以帮助量化模型的偏差”。他们还表示,在生产中使用威震天-图灵“必须确保采取适当的措施来减轻和最大限度地减少对用户的潜在伤害”,并遵循微软负责任的人工智能原则中概述的原则。

“我们生活在一个人工智能进步远远超过摩尔定律的时代。我们继续看到更新一代的 GPU 提供了更多的计算能力,以闪电般的速度互连。与此同时,我们继续看到 AI 模型的超扩展导致更好的性能,似乎看不到尽头,”Kharya 和 Alvi 继续说道。“将这两种趋势结合在一起是推动优化和效率界限的软件创新。”

大模型的成本

像 MT-NLP、AI21 Labs 的Jurassic-1、华为的PanGu-Alpha、Naver 的HyperCLOVA和北京人工智能研究院的五道 2.0等项目从学术角度来看令人印象深刻,但构建它们并不便宜。例如,OpenAI 的 GPT-3(世界上最大的语言模型之一)的训练数据集大小为 45 TB,足​​以填满 90 500GB 硬盘。

据一位消息人士称,人工智能培训成本在 2017 年至 2019 年间下降了 100 倍,但总数仍超过大多数初创公司的计算预算。这种不公平有利于以牺牲小企业家为代价获得资源的公司,巩固了现有的优势。

例如,OpenAI 的 GPT-3 在训练期间估计需要每秒 3.1423^23 次浮点运算 (FLOPS) 的计算。在计算机科学中,FLOPS 是原始处理性能的度量,通常用于比较不同类型的硬件。假设 OpenAI 为一组 Nvidia V100 GPU(一种通过云服务提供的通用 GPU)保留了 28 teraflops(每秒 28 万亿次浮点运算)的计算,单次训练运行需要 460 万美元。一个具有 15 teraflops 计算能力的 Nvidia RTX 8000 GPU 会便宜得多——但完成训练需要 665 年。

微软和英伟达表示,它在训练 MT-NLP 时观察到每 GPU 每秒 113 到 126 teraflops。成本可能高达数百万美元。

一份同步报告估计,由华盛顿大学的研究人员开发的假新闻检测模型的训练成本为 25,000 美元,谷歌花费了大约 6,912 美元来训练一个名为BERT的语言模型,该模型用于提高谷歌搜索结果的质量。在处理 TB 或 PB 级的数据集时,存储成本也会迅速增加。举一个极端的例子,根据CrowdStorage的数据,特斯拉自动驾驶团队积累的其中一个数据集——1.5PB 的视频片段——在 Azure 中存储三个月的成本将超过 67,500 美元。

人工智能和机器学习模型训练对环境的影响也得到了缓解。2020 年 6 月,马萨诸塞大学阿默斯特分校的研究人员发布了一份报告,估计训练和搜索某个模型所需的电量涉及大约626,000 磅的二氧化碳排放量,相当于其生命周期排放量的近 5 倍。普通美国车。OpenAI 本身已经承认,像 Codex 这样的模型需要大量的计算——大约每天数百 petaflops——这会导致碳排放。

好消息是,FLOPS 和基本机器学习操作的成本在过去几年一直在下降。2020 年 OpenAI 的一项调查发现,自 2012 年以来,将模型训练到在流行的基准(ImageNet)中对图像进行分类具有相同性能所需的计算量每 16 个月就减少了两倍。其他最近的研究表明,大的语言模型并不总是小于模型更加复杂,这取决于用来训练它们的技术。

康奈尔大学的自然语言处理研究员和数据科学家 Maria Antoniak 表示,当谈到自然语言时,更大的模型是否是正确的方法是一个悬而未决的问题。虽然当今一些最好的基准性能分数来自大型数据集和模型,但将大量数据转储到模型中的回报是不确定的。

“该领域的当前结构以任务为中心,社区聚集在一起试图解决特定数据集上的特定问题,”Antoniak 在之前的一次采访中告诉 VentureBeat。“这些任务通常非常结构化,可能有其自身的弱点,因此虽然它们在某些方面帮助我们的领域向前发展,但它们也可能限制我们。大型模型在这些任务上表现良好,但这些任务是否能最终引导我们理解任何真正的语言还有待商榷。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。