为了推动 RL + LLM 的开源前沿,我们需要具有真实世界复杂性的可扩展、模块化环境,而不仅仅是数学基准。 今天,我们发布了 *benchmax*。 一个开源框架,用于构建、运行和扩展有用的 RL 环境,以便进行 LLM 微调,并与 verl 和验证器集成(更多内容即将推出!)
10.62K