热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我在斯坦福大学CS 25的讲座“LLM推理”的幻灯片:
关键点:
1. LLM中的推理仅仅意味着在生成最终答案之前生成一系列中间标记。这是否类似于人类推理并不重要。关键的见解是,变换器模型通过生成许多中间标记可以变得几乎无限强大,而无需扩大模型规模。
2. 预训练模型,即使没有任何微调,也能够进行推理。挑战在于,基于推理的输出往往不会出现在输出分布的顶部,因此标准的贪婪解码无法将其呈现出来。
3. 提示技术(例如,链式思维提示或“让我们一步一步思考”)和监督微调通常用于引导推理。现在,RL微调已成为最强大的方法。这个技巧是由几个实验室独立发现的。在谷歌,功劳归于我团队的Jonathan Lai。根据我们的理论(见第1点),扩展RL应专注于生成长响应,而不是其他内容。
4. 通过生成多个响应然后进行聚合,而不是依赖单一响应,可以大大改善LLM推理。
177.28K
热门
排行
收藏