RL для міркування часто покладається на перевірки — це чудово для математики, але складно для творчого письма чи відкритих досліджень.
Знайомтеся з RARO: новою парадигмою, яка вчить LLM міркувати через суперницькі ігри замість верифікації.
Без перевірок. Жодних оточень. Просто демонстрації. 🧵👇