RL pro uvažování často spoléhá na ověřovače — skvělé pro matematiku, ale složité pro kreativní psaní nebo otevřený výzkum.
Seznamte se s RARO: novým paradigmatem, které učí LLM uvažovat prostřednictvím adversariálních her místo ověřování.
Žádní ověřovatelé. Žádná prostředí. Jen ukázky. 🧵👇