如果我想定制LLM,我会学习的微调技术: 收藏这个。 1. LoRA 2. QLoRA 3. 前缀调优 4. 适配器调优 5. 指令调优 6. P-Tuning 7. BitFit 8. 软提示 9. RLHF 10. RLAIF 11. DPO(直接偏好优化) 12. GRPO(组相对策略优化) 13. RLAIF(带AI反馈的RL) 14. 多任务微调 15. 联邦微调 我最喜欢GRPO来构建推理模型。你呢? 我在回复中分享了关于GRPO的完整教程。