為了推進 RL + LLM 的開源前沿,我們需要可擴展的、模組化的環境,具備超越數學基準的現實世界複雜性。 今天,我們推出了 *benchmax*。 一個開源框架,用於構建、運行和擴展有用的 RL 環境,以便進行 LLM 微調,並與 verl 和驗證器集成(更多功能即將推出!)。
10.62K