今週初めの@PyTorch Confでの私の講演のスライドから、検証者の設計上の選択と、オープンRL環境のための主力エコシステムをどのように構築してきたかについて:)
特に: - 環境に適したカプセル化は、ファクトリ関数を実装し、事前に構築されたコンポーネントのライブラリまたは独自のカスタムランチャーを介して外部リソースを管理できるインストール可能なPythonパッケージであると考えています - OpenAI Chat Completions API は、環境を構築するほとんどの開発者にとって適切なレベルの抽象化であり、OpenAI Completions は、よりきめ細かな制御を必要とする一部のケースのオプションであると考えています。 - トレーナーと環境フレームワークの開発者は、静的エージェントまたは評価を構築する開発経験を反映する、クリーンで使い慣れたプリミティブを環境ビルダーに公開する負担を負うべきだと考えています - LLMのRL環境は、以前のRL時代に比べて独自の課題をもたらし、これを考慮するために抽象化を進化させる必要があると考えています - コンテナは多くの環境にとって重要であると考えていますが、コンテナを必要としない環境では必須であるべきではないと考えています - このエコシステムの構築は世界的な課題であり、誰もが恩恵を受けられるようにするために、関心のある利害関係者の間で微妙でオープンな議論が必要であると考えています 私たちは、このことについて考え、トレードオフについて議論し、反復し、実験することに多くの時間を費やしています。私たちがまだサポートしていないものが必要なことや、改善方法についての提案があれば、私たちは耳を傾けます:)
21.63K