El RL para razonamiento suele depender de verificadores — genial para matemáticas, pero complicado para escritura creativa o investigación abierta.
Conoce a RARO: un nuevo paradigma que enseña a los LLM a razonar mediante juegos adversariales en lugar de verificación.
Sin verificadores. Sin entornos. Solo demostraciones. 🧵👇