热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Dwarkesh Patel
想要更好地理解强化学习在大型语言模型上的工作原理。
所以我写了一个简单的脚本来教Nanochat加5位数。
我对它学习的速度感到惊讶。
直到我查看模型的生成结果,意识到它只是学会了总是调用内置的Python解释器😂。
我写的代码非常基础、简约且低效——我可是个专业的播客主持人,懂吗?
但如果你只是想看看REINFORCE或GRPO的基本原理,这可能会有帮助。下面是gist的链接。
从根本上说,这并不复杂:每个提示生成多个轨迹。更新你的模型,使其更有可能从成功的轨迹中采样所有的标记。


Andrej Karpathy10月13日 23:16
很高兴发布新的代码库:nanochat!
(这是我写过的最疯狂的之一)。
与我之前类似的代码库nanoGPT仅涵盖预训练不同,nanochat是一个从头开始的最小化全栈训练/推理管道,构建了一个简单的ChatGPT克隆,所有内容都在一个依赖最小的代码库中。你只需启动一个云GPU实例,运行一个脚本,最多4小时后,你就可以在一个类似ChatGPT的网页UI中与自己的LLM对话。
它大约有8000行我认为相当干净的代码,功能包括:
- 使用新的Rust实现训练分词器
- 在FineWeb上预训练一个Transformer LLM,评估多个指标的CORE分数
- 在SmolTalk的用户助手对话、选择题、工具使用上进行中期训练。
- SFT,评估聊天模型在世界知识选择题(ARC-E/C,MMLU)、数学(GSM8K)、代码(HumanEval)上的表现
- 可选地在GSM8K上对模型进行RL训练,使用"GRPO"
- 在引擎中高效推理模型,使用KV缓存,简单的预填充/解码,工具使用(轻量级沙箱中的Python解释器),通过CLI或类似ChatGPT的WebUI与其对话。
- 编写一份单一的markdown报告卡,总结并游戏化整个过程。
即使成本低至约100美元(在8XH100节点上约4小时),你也可以训练一个小型的ChatGPT克隆,能够进行简单对话,并能写故事/诗歌,回答简单问题。大约12小时的训练超越了GPT-2的CORE指标。当你进一步扩展到约1000美元(约41.6小时的训练)时,它会变得更加连贯,能够解决简单的数学/代码问题并参加选择题测试。例如,一个训练24小时的深度30模型(这大约等于GPT-3 Small 125M的FLOPs和GPT-3的1/1000)在MMLU上得分40分,在ARC-Easy上得分70分,在GSM8K上得分20分,等等。
我的目标是将完整的"强基线"堆栈整合到一个连贯、最小、可读、可黑客化、最大限度可分叉的代码库中。nanochat将是LLM101n的顶点项目(该项目仍在开发中)。我认为它也有潜力发展成一个研究工具或基准,类似于之前的nanoGPT。它绝不是完成、调优或优化的(实际上我认为可能还有很多低垂的果实),但我认为它的整体框架已经足够好,可以在GitHub上发布,所有部分都可以改进。
代码库链接和nanochat速跑的详细演练在回复中。

142.78K
.@karpathy 说 LLM 目前缺乏推动人类走出草原的文化积累和自我游戏:
文化:> “为什么 LLM 不能为其他 LLM 写一本书?为什么其他 LLM 不能阅读这个 LLM 的书并受到启发,或者感到震惊?”
自我游戏:> “这非常强大。进化有很多竞争推动智能和进化。AlphaGo 是在与自己对弈,这就是它学习如何在围棋上变得非常出色的方式。LLM 中没有自我游戏的等价物。为什么 LLM 不能,例如,创建一堆问题让另一个 LLM 学习解决?这样 LLM 就总是在尝试提供越来越难的问题。”
我问 Karpathy 为什么 LLM 仍然无法像人类一样建立文化。
> “更笨的模型惊人地像一个幼儿园学生。[最聪明的模型仍然感觉像] 小学生。不过,我们似乎仍然没有毕业到足以让[这些模型]接管的程度。我的 Claude Code 或 Codex,它们仍然感觉像这个小学年级的学生。我知道它们可以参加博士生测验,但它们在认知上仍然感觉像幼儿园。”
> “我认为它们无法创造文化,因为它们仍然是孩子。它们是天才儿童。它们有完美的记忆。它们可以令人信服地创造出各种看起来非常好的垃圾。但我仍然认为它们并不真正知道自己在做什么。它们在所有这些小复选框中并没有真正具备我们仍需收集的认知。”

Dwarkesh Patel10月18日 01:16
@karpathy 采访
0:00:00 – AGI 仍然需要十年
0:30:33 – LLM 认知缺陷
0:40:53 – RL 很糟糕
0:50:26 – 人类是如何学习的?
1:07:13 – AGI 将融入 2% 的 GDP 增长
1:18:24 – ASI
1:33:38 – 智力与文化的演变
1:43:43 - 为什么自动驾驶花了这么长时间
1:57:08 - 教育的未来
在 YouTube、Apple Podcasts、Spotify 等平台上查找 Dwarkesh 播客,享受吧!
85.52K
热门
排行
收藏