RL для міркування часто покладається на перевірки — це чудово для математики, але складно для творчого письма чи відкритих досліджень. Знайомтеся з RARO: новою парадигмою, яка вчить LLM міркувати через суперницькі ігри замість верифікації. Без перевірок. Жодних оточень. Просто демонстрації. 🧵👇