互联网爱好者创业的站长之家 – 南方站长网
您的位置:首页 >资讯 >

英伟达为企业提供海量语言模型

时间:2021-11-18 10:25:42 | 来源:

在今天举行的 2021 年秋季 GPU 技术大会 (GTC)上,英伟达宣布将提供世界上最大的语言模型之一威震天 530B,供企业进行培训以服务于新的领域和语言。威震天 530B(也称为威震天-图灵自然语言生成 (MT-NLP))于 10 月初首次详细介绍,包含 5300 亿个参数,并在广泛的自然语言任务中实现了高精度,包括阅读理解、常识推理和自然语言推理。

“今天,我们为客户提供构建、训练和定制大型语言模型的方法,包括 Megatron 530B。这包括脚本、代码和 530B 未经训练的模型。客户可以从较小的模型开始,并在他们认为合适的情况下扩展到较大的模型,”Nvidia 人工智能软件产品管理副总裁 Kari Briski 通过电子邮件告诉 VentureBeat。“我们的研究人员[合作]与微软[在六周内[训练]了威震天 530B 模型。”

威震天 530B

在机器学习中,参数是从历史训练数据中学习到的模型部分。一般来说,在语言领域,参数数量和复杂程度之间的相关性非常好。具有大量参数、更多数据和更多训练时间的语言模型已被证明可以获得更丰富、更细致的语言理解,例如获得总结书籍甚至完整编程代码的能力。

为了训练威震天 530B,英伟达与微软合作创建了一个训练数据集,其中包含来自英语网站的 2700 亿个令牌。标记是一种在自然语言中将文本片段分成更小的单元的方法,可以是单词、字符或单词的一部分。与所有 AI 模型一样,Megatron 530B 必须通过摄取一组示例来“训练”以学习数据点之间的模式,例如基本的语法和句法规则。

该数据集主要来自 The Pile,这是一个由开源 AI 研究工作 EleutherAI 创建的 835GB 的 22 个较小数据集的集合。The Pile 涵盖学术资源(例如,Arxiv、PubMed)、社区(StackExchange、维基百科)、代码存储库 (GitHub) 等,微软和 Nvidia 表示,他们策划并结合了 Common Crawl 的过滤快照,这是一个大型集合网页,包括新闻报道和社交媒体帖子。

在进行基准测试时,Nvidia 表示,即使符号“被严重混淆”,Megatron 530B 也可以推断出基本的数学运算。虽然不是非常准确,但该模型似乎超越了对算术的记忆,并设法完成了包含提示其回答问题的任务——这是 NLP 中的一项重大挑战。

Kari 说:“客户渴望投资大型语言模型,因为他们在具有少量学习的广义 AI 方面的能力以及同时在许多任务中表现出色的能力。”“谈到对话式人工智能,这种通用方法对于开放域聊天机器人、文档摘要、文本生成等用例来说非常令人兴奋……威震天 530B 正在被英伟达内部使用。”

培训和使用挑战

鉴于 Megatron 530B 的庞大规模,即使对于拥有大量资源的企业而言,对其进行培训并将其部署到生产中也并非易事。该模型最初是在 560 个 Nvidia DGX A100 服务器上训练的,每个服务器托管 8 个 Nvidia A100 80GB GPU。微软和英伟达表示,他们在训练威震天 530B 时观察到每 GPU 每秒 113 到 126 teraflops,这将使训练成本达到数百万美元。(teraflop 等级衡量硬件的性能,包括 GPU。)

Nvidia 将其 DGX SuperPOD 作为首选解决方案。SuperPOD 是一系列服务器和工作站,是使用 A100 GPU 和 Nvidia Mellanox InfiniBand 构建的预配置 DGX A100 系统,用于计算和存储结构。

但单个 SuperPOD 的成本可能从 700 万美元到 6000 万美元不等,具体取决于部署规模。(单个 DGX A100 起价为 199,000 美元。)Nvidia 的 SuperPOD 订阅服务要便宜得多——SuperPOD 每月运行费用为 90,000 美元。然而,考虑到威震天 530B 是在 Nvidia 的 Selene 超级计算机上训练的,其中包括四个配备 560 个 A100 GPU 的 SuperPOD,其费用超出了大多数公司的承受能力。

甚至像谷歌母公司 Alphabet 这样的科技巨头在训练 AI 模型时也遇到了预算限制。当谷歌子公司 DeepMind 的研究人员设计一个模型来玩星际争霸 II 时,他们故意没有尝试多种方法来构建一个关键组件,因为训练成本太高了。同样,OpenAI 在实施GPT-3时也没有修复错误——一种参数数量不到 Megatron 530B 一半的语言模型——因为训练成本使得重新训练模型变得不可行。

不过,在最近接受Next Platform采访时,Catanzaro 表示,他认为公司完全有可能在未来五年内在计算时间上投资 10 亿美元来训练模型。马萨诸塞大学阿默斯特分校的一项研究表明,使用 2019 年的方法,训练一个错误率为 5% 的图像识别模型将花费 1000 亿美元。

虽然还没有企业接近,但据报道,DeepMind 拨出 3500 万美元来训练人工智能系统来学习围棋。OpenAI 估计花费了 460 万到 1200 万美元来培训 GPT-3。而AI21 Labs开发了一个大约相当于 GPT-3 大小的语言模型,在推出其商业服务之前筹集了 3450 万美元的风险投资。

“有了像 [OpenAI 的 GPT-3] 这样的模型,我们开始看到可以超越的模型,它实际上可以成为解决现实世界问题的更通用的工具。这是朝着更通用的人工智能形式迈出的一步,这证明了在像 Selene 这样的集群上训练这些巨大的语言模型的投资是合理的,”Catanzaro 说。“这些模型具有很强的适应性和灵活性,而且它们的能力与规模密切相关,我们实际上可能会看到它们从单个模型中提供价值数十亿美元的价值,因此在未来五年内,将花费 10 亿的计算来训练这些模型可能有道理。”

推理——实际运行经过训练的模型——是另一个挑战。在两个 DGX 系统上,Nvidia 声称使用 Megatron 530B 进行推理(例如,自动完成一个句子)只需半秒。但在基于 CPU 的本地服务器上可能需要一分钟多的时间。虽然云替​​代方案可能更便宜,但它们并不显着——据估计,在单个 Amazon Web Services 实例上运行 GPT-3 的成本至少为每年 87,000 美元。

这也许就是为什么除了 OpenAI、微软和 AI21 Labs 之外,很少有公司通过 API 向客户提供大型训练语言模型的原因。除了研究论文和(在 PanGu-Alpha 的案例中)GitHub 存储库之外,诸如华为的盘古-Alpha、Naver 的HyperCLOVA和北京人工智能研究院的五道 2.0 等系统仍然无法访问。

康奈尔大学的自然语言处理研究员和数据科学家 Maria Antoniak 表示,当谈到自然语言时,更大的模型是否是正确的方法是一个悬而未决的问题。虽然当今一些最好的基准性能分数来自大型数据集和模型,但将几乎不切实际的大量数据转储到大规模语言模型中的回报是不确定的。

“该领域的当前结构以任务为中心,社区聚集在一起试图解决特定数据集上的特定问题,”Antoniak 在之前的一次采访中告诉 VentureBeat。“这些任务通常非常结构化,可能有其自身的弱点,因此虽然它们在某些方面帮助我们的领域向前发展,但它们也可能限制我们。大型模型在这些任务上表现良好,但这些任务能否最终引导我们理解任何真正的语言还有待商榷。”

偏见

众所周知,像 Megatron 530B 这样的模型可以放大他们接受训练的数据中的偏见,事实上,微软和 Nvidia 承认该模型“从 [训练] 数据中提取了刻板印象和偏见”。这很可能是因为数据集的一部分来自普遍存在性别、种族、身体和宗教偏见的社区,而管理无法完全解决这些问题。

微软和英伟达声称他们“致力于解决 [the] 问题”并鼓励“继续研究以帮助量化模型的偏差”。他们还表示,在生产中使用威震天-图灵“必须确保采取适当的措施来减轻和最大限度地减少对用户的潜在伤害”,并遵循微软负责任的人工智能原则中概述的原则。

“虽然巨型语言模型正在推进语言生成的最新技术,但它们也存在偏见和毒性等问题,”Kari 补充道。“理解和消除语言模型中的这些问题正在受到包括英伟达在内的人工智能社区的积极研究。英伟达致力于解决这个问题。我们鼓励继续研究以帮助量化模型的偏差。”

其中,领先的人工智能研究员 Timnit Gebru质疑构建大型语言模型的智慧——研究谁从中受益,谁受到伤害。虽然偏见仍然是一个公开的挑战,但有一点好消息,过去几年基本机器学习操作的成本一直在下降。2020 年 OpenAI 的一项调查发现,自 2012 年以来,在流行的基准(ImageNet)中将模型训练到相同性能的图像分类所需的计算量每 16 个月就减少了两倍。在训练之前进行网络修剪等方法可能会带来进一步的收益。

无论是通过修剪、新颖的硬件还是元学习和神经架构搜索等技术,对大型语言模型的解决方案或替代方案的需求正在迅速变得清晰——至少如果没有大型企业资源的初创公司想要拥有战斗的机会。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。