跳转至主要内容
行情
扫链
追踪
信号
牛人榜
兑换
资产
邀请计划
更多
产品
DeFi
市场
洞察中心
Eco Hub
安全中心
开发者中心
DEX API
探索 DEX API
DEX API 文档
API Key 管理
区块链浏览器
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
Giveaway
完成指定任务,领取空投好礼
交易赛
交易热门代币,冲榜赢大奖
奖励中心
领取奖励和空投
预警
语言
货币
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
使用教程
学院
帮助中心
发现功能使用指南
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
+1.93%
USELESS
+4.61%
IKUN
-7.18%
gib
-18.15%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-0.87%
ALON
-8.09%
LAUNCHCOIN
-1.47%
GOONC
+6.01%
KLED
-0.14%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-0.16%
Boopa
+1.19%
PORK
+2.58%
主页
Dwarkesh Patel
Dwarkesh Patel
10月21日 08:16
想要更好地理解强化学习在大型语言模型上的工作原理。 所以我写了一个简单的脚本来教Nanochat加5位数。 我对它学习的速度感到惊讶。 直到我查看模型的生成结果,意识到它只是学会了总是调用内置的Python解释器😂。 我写的代码非常基础、简约且低效——我可是个专业的播客主持人,懂吗? 但如果你只是想看看REINFORCE或GRPO的基本原理,这可能会有帮助。下面是gist的链接。 从根本上说,这并不复杂:每个提示生成多个轨迹。更新你的模型,使其更有可能从成功的轨迹中采样所有的标记。
Andrej Karpathy
10月13日 23:16
很高兴发布新的代码库:nanochat! (这是我写过的最疯狂的之一)。 与我之前类似的代码库nanoGPT仅涵盖预训练不同,nanochat是一个从头开始的最小化全栈训练/推理管道,构建了一个简单的ChatGPT克隆,所有内容都在一个依赖最小的代码库中。你只需启动一个云GPU实例,运行一个脚本,最多4小时后,你就可以在一个类似ChatGPT的网页UI中与自己的LLM对话。 它大约有8000行我认为相当干净的代码,功能包括: - 使用新的Rust实现训练分词器 - 在FineWeb上预训练一个Transformer LLM,评估多个指标的CORE分数 - 在SmolTalk的用户助手对话、选择题、工具使用上进行中期训练。 - SFT,评估聊天模型在世界知识选择题(ARC-E/C,MMLU)、数学(GSM8K)、代码(HumanEval)上的表现 - 可选地在GSM8K上对模型进行RL训练,使用"GRPO" - 在引擎中高效推理模型,使用KV缓存,简单的预填充/解码,工具使用(轻量级沙箱中的Python解释器),通过CLI或类似ChatGPT的WebUI与其对话。 - 编写一份单一的markdown报告卡,总结并游戏化整个过程。 即使成本低至约100美元(在8XH100节点上约4小时),你也可以训练一个小型的ChatGPT克隆,能够进行简单对话,并能写故事/诗歌,回答简单问题。大约12小时的训练超越了GPT-2的CORE指标。当你进一步扩展到约1000美元(约41.6小时的训练)时,它会变得更加连贯,能够解决简单的数学/代码问题并参加选择题测试。例如,一个训练24小时的深度30模型(这大约等于GPT-3 Small 125M的FLOPs和GPT-3的1/1000)在MMLU上得分40分,在ARC-Easy上得分70分,在GSM8K上得分20分,等等。 我的目标是将完整的"强基线"堆栈整合到一个连贯、最小、可读、可黑客化、最大限度可分叉的代码库中。nanochat将是LLM101n的顶点项目(该项目仍在开发中)。我认为它也有潜力发展成一个研究工具或基准,类似于之前的nanoGPT。它绝不是完成、调优或优化的(实际上我认为可能还有很多低垂的果实),但我认为它的整体框架已经足够好,可以在GitHub上发布,所有部分都可以改进。 代码库链接和nanochat速跑的详细演练在回复中。
338.49K
1.4K
热门
排行
收藏