我在本周早些时候的 @PyTorch 大会上的演讲中展示了一些幻灯片,讨论了验证者的设计选择,以及我们如何构建开放强化学习环境的旗舰生态系统 :)
特别是: - 我们认为,适合环境的封装是一个可安装的 Python 包,它实现了一个工厂函数,并且可以通过预构建组件的库或其自定义启动器来管理外部资源。 - 我们认为,OpenAI Chat Completions API 是大多数开发者构建环境的合适抽象层次,OpenAI Completions 是需要更细粒度控制的少数情况的选项。 - 我们认为,训练器和环境框架的开发者应该承担起向环境构建者暴露干净且熟悉的原语的责任,这些原语反映了构建静态代理或评估的开发体验。 - 我们认为,针对 LLM 的 RL 环境带来了与之前 RL 时代不同的独特挑战,抽象应该随着这些挑战的发展而演变。 - 我们认为,容器对许多环境很重要,但对于不需要它们的环境来说不应该是强制性的。 - 我们认为,构建这个生态系统是一个全球性挑战,需要相关利益相关者之间进行细致和开放的讨论,以确保每个人都能受益。 我们花了很多时间思考这些问题,辩论权衡,迭代和实验。如果有我们尚未支持的需求,或者对我们如何改进的建议,我们非常乐意倾听 :)
19.01K