您的位置：首页 >微商 >

送给大模型的「高考」卷：442人联名论文给大模型提出204个任务，谷歌领衔

时间：2022-06-11 13:45:16 | 来源：机器之心Pro

大规模预训练模型需要大型 benchmark 来进行验证。

在 Jeff Dean 等人 Pathways 架构的首个模型 PaLM 中，研究人员在一个名为 BIG-Bench 的大模型专用基准上与其他算法进行了多项任务测试。近日，谷歌终于将 BIG-Bench 的论文和 GitHub 公开出来。

研究人员表示，该工作历经两年努力完成，论文长达 100 页，作者有 442 人，目前 benchmark 包含的任务已经从 PaLM 论文时期的 150 个增加到超过 200 个。

BIG-bench 是一套用于各种规模语言模型评估的新基准测试，谷歌 AI 负责人 Jeff Dean 点赞了这一工作。

论文《Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models》

论文链接：https://arxiv.org/abs/2206.04615

GitHub：https://github.com/google/BIG-bench

随着规模的不断扩大，语言模型展示了定量改进和新的定性能力。尽管它们具有潜在的变革性影响，但其表现出的新功能特征仍然很差。为了给未来的研究提供更多信息，为颠覆性的新模型能力做好准备，了解语言模型当前和近期的能力和局限性至关重要。为了应对这一挑战，谷歌提出了超越模仿游戏基准（Beyond the Imitation Game Benchmark，BIG-bench）。

BIG-bench 目前由 204 个任务组成，获得了来自 132 个研究机构的 442 位作者贡献。该基准的任务主题多种多样，涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等领域的问题。BIG-bench 专注于被认为超出当前语言模型能力的任务。谷歌在 BIG-bench 上评估了 OpenAI 的 GPT 系列模型、谷歌内部的密集 transformer 架构和 Switch 式稀疏 transformer 的行为，模型规模跨越数百万到数千亿个参数。

此外，还有一组人类专家执行过所有任务，以提供较准确的基线水平。目前对于各类模型的调查结果包括：模型性能和校准都随规模而提高，但绝对值（absolute term）较差（与评估者性能相比）；不同类模型的性能非常相似，但稀疏性有性能增益；逐步和可预测地改进的任务通常涉及大量的知识或记忆部分，而在关键规模上表现出「突破性」行为的任务通常涉及多个步骤或脆弱的指标；在具有模糊背景的环境中，社会偏见通常会随着模型规模的扩大而增加，但可以通过 prompting 来改善。