您的位置：首页 >创业 >

是一个：速揽2500星，Andrej Karpathy重写了一份minGPT库

时间：2023-01-06 13:45:08 | 来源：

今天，分享一篇速揽2500星，Andrej Karpathy重写了一份minGPT库，希望以下速揽2500星，Andrej Karpathy重写了一份minGPT库的内容对您有用。

机器之心报道

编辑：陈萍

时隔两年，GPT的Pytorch训练库minGPT迎来更新！

作为人工智能领域「暴力美学」的代表作，GPT 可谓是出尽风头，从诞生之初的 GPT 1.17 亿参数，一路狂飙到 GPT-3 1750 亿参数。随着 GPT-3 的发布，OpenAI 向社区开放了商业 API，鼓励大家使用 GPT-3 尝试更多的实验。然而，API 的使用需要申请，而且你的申请很有可能石沉大海。

为了让资源有限的研究者也能体验一把玩大模型的乐趣，前特斯拉 AI 负责人 Andrej Karpathy 基于 PyTorch，仅用 300 行左右的代码就写出了一个小型 GPT 训练库，并将其命名为 minGPT。这个 minGPT 能够进行加法运算和字符级的语言建模，而且准确率还不错。

时隔两年，minGPT 迎来更新，Karpathy 又上线新版本，并命名为 NanoGPT，该库用于训练和微调中型大小的 GPT。上线短短几天，狂揽 2.5K 星。

项目地址：https://github.com/karpathy/nanoGPT

在项目介绍中，Karpathy 这样写道：「NanoGPT 是用于训练和微调中型尺度 GPT 最简单、最快的库。是对 minGPT 的重写，因为 minGPT 太复杂了，以至于我都不愿意在使用它。NanoGPT 还在开发当中，当前致力于在 OpenWebText 数据集上重现 GPT-2。

NanoGPT 代码设计目标是简单易读，其中 train.py 是一个约 300 行的代码；model.py 是一个约 300 行的 GPT 模型定义，它可以选择从 OpenAI 加载 GPT-2 权重。」

为了呈现数据集，用户首先需要将一些文档 tokenize 为一个简单的 1D 索引数组。

$cddata/openwebtext
$pythonprepare.py

这将生成两个文件：train.bin 和 val.bin，每个文件都包含一个代表 GPT-2 BPE token id 的 uint16 字节原始序列。该训练脚本试图复制 OpenAI 提供的最小的 GPT-2 版本，即 124M 版本。

$pythontrain.py

假如你想使用 PyTorch 分布式数据并行（DDP）进行训练，请使用 torchrun 运行脚本。

$torchrun--standalone--nproc_per_node=4train.py

为了让代码更有效，用户也可以从模型中进行取样：

$pythonsample.py

Karpathy 表示，该项目目前在 1 个 A100 40GB GPU 上一晚上的训练损失约为 3.74，在 4 个 GPU 上训练损失约为 3.60。在 8 x A100 40GB node 上进行 400,000 次迭代（约 1 天）atm 的训练降至 3.1。

至于如何在新文本上微调 GPT，用户可以访问 data/shakespeare 并查看 prepare.py。与 OpenWebText 不同，这将在几秒钟内运行。微调只需要很少的时间，例如在单个 GPU 上只需要几分钟。下面是运行微调的一个例子

$pythontrain.pyconfig/finetune_shakespeare.py

项目一上线，已经有人开始尝试了：

想要尝试的小伙伴，可以参考原项目运行。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如有侵权行为，请第一时间联系我们修改或删除，多谢。

图文推荐

是一个：速揽2500星，Andrej Karpathy重写了一份minGPT库

相关推荐

天翼：天翼云荣获2022年度“边缘计算先锋企业”“分布式云先锋企业”称号！

五年：2026年中国物联网IT支出规模将接近2981.2亿美元

基站：爱立信开通全球首个5G赋智型绿色基站，密码何在？

积分：中国电信“数智”奏响乡村振兴新乐章

浙江：原融信集团副总裁王卫为何跳槽走了？曾在5年内连升几次

健康：请回答2022丨轻松集团创始人杨胤科技加码互联网医疗产业数字化转型势在必行丨封面天天见

蜂蜜：“背景太假哥”当选县政协委员！他的新年目标1个亿

特斯拉：回归地球的特斯拉还有市梦率光环吗？

猜你喜欢

图文推荐

开放式投资者应该害怕房地产熊市吗

2只准备迎接牛市的顶级Metaverse股票

立即以低于55美元的价格购买2支不费吹灰之力的股票

邮轮公司的股票今天全速领先

投资铁股票了解这种重要金属的领先供应商

这只便宜得离谱的沃伦巴菲特股票可以让你变得富有

Meta的季度向投资者确认了什么

骏利国际集团的股票今天开盘上涨了23%

最新文章

精彩内容

随机推荐

是一个：速揽2500星，Andrej Karpathy重写了一份minGPT库

相关推荐

天翼：天翼云荣获2022年度“边缘计算先锋企业”“分布式云先锋企业”称号！

五年：2026年中国物联网IT支出规模将接近2981.2亿美元

基站：爱立信开通全球首个5G赋智型绿色基站，密码何在？

积分：中国电信“数智”奏响乡村振兴新乐章

浙江：原融信集团副总裁王卫为何跳槽走了？曾在5年内连升几次

健康：请回答2022丨轻松集团创始人杨胤科技加码互联网医疗产业 数字化转型势在必行丨封面天天见

蜂蜜：“背景太假哥”当选县政协委员！他的新年目标1个亿

特斯拉：回归地球的特斯拉还有市梦率光环吗？

猜你喜欢

图文推荐

最新文章

精彩内容

随机推荐

健康：请回答2022丨轻松集团创始人杨胤科技加码互联网医疗产业数字化转型势在必行丨封面天天见