RL do rozumowania często polega na weryfikatorach — świetne do matematyki, ale trudne do twórczego pisania lub otwartych badań. Poznaj RARO: nowy paradygmat, który uczy LLM-y rozumowania poprzez gry adwersarialne zamiast weryfikacji. Bez weryfikatorów. Bez środowisk. Tylko demonstracje. 🧵👇