RL untuk penalaran sering mengandalkan verifikator - bagus untuk matematika, tetapi rumit untuk penulisan kreatif atau penelitian terbuka.
Temui RARO: paradigma baru yang mengajarkan LLM untuk bernalar melalui permainan permusuhan alih-alih verifikasi.
Tidak ada verifikasi. Tidak ada lingkungan. Hanya demonstrasi. 🧵👇