我很高兴看到这个项目发布,它是由@couplefire12在Together实习期间领导的🔥 如果你对在不可验证的环境中使用强化学习的推理感兴趣,请务必看看!