热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
如果我想定制LLM,我会学习的微调技术:
收藏这个。
1. LoRA
2. QLoRA
3. 前缀调优
4. 适配器调优
5. 指令调优
6. P-Tuning
7. BitFit
8. 软提示
9. RLHF
10. RLAIF
11. DPO(直接偏好优化)
12. GRPO(组相对策略优化)
13. RLAIF(带AI反馈的RL)
14. 多任务微调
15. 联邦微调
我最喜欢GRPO来构建推理模型。你呢?
我在回复中分享了关于GRPO的完整教程。
热门
排行
收藏
