Untuk mendorong batas open source untuk RL + LLM, kami membutuhkan lingkungan modular yang dapat diskalakan dengan kompleksitas dunia nyata, di luar tolok ukur matematika. Hari ini, kami merilis *benchmax*. Kerangka kerja sumber terbuka untuk membangun, menjalankan, dan menskalakan env RL yang berguna untuk penyempurnaan LLM, dengan integrasi ke verl & verifier (lebih banyak lagi akan segera hadir!).
10,62K