Навчання з підкріпленням дозволяє LLM перемагати людей на змаганнях з програмування/математики та є рушійною силою останніх досягнень (o-серія OpenAI, Claude 4 від Anthropic) Чи дозволить РЛ здійснювати широке узагальнення так само, як це робить попередня підготовка? Не з сучасними технологіями 🧵 1/7
🔗Посилання тут і гілка нижче: Папір: Середнє: Підстек: 2/7
Існуюча оцінка для LLM в основному оцінює продуктивність у домені, використовуючи моделі підкріплення після тренування (RPT), навчені на даних зі змішаною доменною областю та оцінені за тестами, тісно пов'язаними з їхніми навчальними доменами. Ці установки вносять змішані фактори, які приховують справжню ступінь узагальнювальної здатності RPT 3/7
Ми представляємо єдину систему оцінювання, яка ізолює та перевіряє міждоменне узагальнення RPT, використовуючи 16 контрольних показників у математиці, коді та наукомістких міркуваннях. В рамках цього ми оцінюємо різні комбінації базових моделей і стратегій RPT 4/7
📌 Наші ключові висновки: 1️⃣ Прибуток від RPT в основному відбувається в домені 2️⃣ Математика і код добре узагальнюють один до одного 3️⃣ Структуровані навички не переносяться на неструктуровані, наукомісткі завдання 5/7
Який висновок? RPT потужний, але вузький Він покращує продуктивність там, де його тренують, але погано узагальнює 6/7
Ця робота є спільною з @ChuxuanHu, @maxYuxuanZhu, @aokellermann, Калебом Біддульфом, @PunWai та @jasoncbenn 7/7
2,78K