Atropos v0.3 がリリースされました! 当社のRL環境フレームワークは、v0.2以降、多くのアップグレードが行われてきました。 - Atroposは、@rogershijin初の外部ベンチマークであるReward-Bench 2により、ベンチマークおよび評価フレームワークとして使用できるようになりました。 - @neurosp1keや友人による100以上の推理タスクを備えた外部環境ジムリポジトリであるReasoningGymを追加しました - @max_paperclips @intern_lmの推論ブートキャンプを統合し、RLに1000+の新しい推論タスクを追加 - @dmayhem93、Atroposのリードエンジニアは、数十のバグ修正、その他の信頼性と互換性の改善、マルチ環境のサポートの改善、CI/CDを追加しました。 - Atroposのハッカソン環境の多くは/environments/communityに統合されました - それらをすべてリストアップすると、画面スペースの大部分を占めてしまいますが、いくつかのハイライトがあります。 @JakeABoggsによるVR-CLI、Philosophy RLAIF、Adaptive LLM Teachers、WebVoyager、@halleriteによるタンパク質設計、@gabinfayによるモデルルーティング環境、リーンプルーフィングのマルチプルーフィング、キャットボットアリーナ、ポケモン対決、ポーカー、親切な医者、@khoomeikによるサンスクリット語の詩など、盛りだくさんです。 - その他の注目すべき公式にサポートされている新しい環境は次のとおりです。 環境に応じた回答形式 PydanticからJSON環境に移植された@MatternJustus作品 @natolambertと@allen_aiの作品から移植された指示フォロー レターカウンティング - 47人の新しい貢献者! ここで完全な変更ログを確認してください。
Teknium (e/λ)
Teknium (e/λ)2025年7月18日
審査員としてのLLMを改善し、判断を行う能力についてモデルを評価するための環境のPRをマージしました。 検証可能なすべてのRL環境はベンチマークとほぼ同等です(その逆も同様です)ことをご存知ですか?そこで、Atropos のベースに評価コマンドを追加し、Atropos 環境を通じてベンチマークを実行できるようになりました。 時代遅れまたは使用できないベンチマークフレームワークを非常に多く使用することに不満を感じたため、RL環境フレームワークであるAtroposに評価専用モードを実装しました。 そこで、既存の環境の外から最初に移植したのは、@natolambertのReward-Benchでした。 注: 現時点では、生成報酬モデル (通常の LLM ジャッジ) のみをサポートしています。 PRはこちらでご覧ください。
25.14K