Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Навчання з підкріпленням дозволяє LLM перемагати людей на змаганнях з програмування/математики та є рушійною силою останніх досягнень (o-серія OpenAI, Claude 4 від Anthropic)
Чи дозволить РЛ здійснювати широке узагальнення так само, як це робить попередня підготовка? Не з сучасними технологіями
🧵 1/7
🔗Посилання тут і гілка нижче:
Папір:
Середнє:
Підстек:
2/7
Існуюча оцінка для LLM в основному оцінює продуктивність у домені, використовуючи моделі підкріплення після тренування (RPT), навчені на даних зі змішаною доменною областю та оцінені за тестами, тісно пов'язаними з їхніми навчальними доменами. Ці установки вносять змішані фактори, які приховують справжню ступінь узагальнювальної здатності RPT
3/7
Ми представляємо єдину систему оцінювання, яка ізолює та перевіряє міждоменне узагальнення RPT, використовуючи 16 контрольних показників у математиці, коді та наукомістких міркуваннях. В рамках цього ми оцінюємо різні комбінації базових моделей і стратегій RPT
4/7

📌 Наші ключові висновки:
1️⃣ Прибуток від RPT в основному відбувається в домені
2️⃣ Математика і код добре узагальнюють один до одного
3️⃣ Структуровані навички не переносяться на неструктуровані, наукомісткі завдання
5/7

Який висновок? RPT потужний, але вузький
Він покращує продуктивність там, де його тренують, але погано узагальнює
6/7
Ця робота є спільною з @ChuxuanHu, @maxYuxuanZhu, @aokellermann, Калебом Біддульфом, @PunWai та @jasoncbenn
7/7
2,78K
Найкращі
Рейтинг
Вибране