Para expandir a fronteira do código aberto para RL + LLMs, precisamos de ambientes modulares escaláveis com complexidade do mundo real, além dos benchmarks matemáticos. Hoje, estamos lançando *benchmax*. Uma estrutura de código aberto para construir, executar e dimensionar ambientes RL úteis para ajuste fino de LLM, com integrações para verl e verificadores (mais em breve!).
10,62K