这里有一个重大的突破! 最终,你的代理可以像人类一样学习: 代理强化训练器(ART)是一个框架,用于训练多步骤的 LLM 代理,以执行现实世界的任务,使用 GRPO。 你只需要几行代码。无需手动奖励! 100% 开源。