Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Навчання з підкріпленням дозволяє LLM перемагати людей на змаганнях з програмування/математики та є рушійною силою останніх досягнень (o-серія OpenAI, Claude 4 від Anthropic) Чи дозволить РЛ здійснювати широке узагальнення так само, як це робить попередня підготовка? Не з сучасними технологіями 🧵 1/7

🔗Посилання тут і гілка нижче: Папір: Середнє: Підстек: 2/7

Існуюча оцінка для LLM в основному оцінює продуктивність у домені, використовуючи моделі підкріплення після тренування (RPT), навчені на даних зі змішаною доменною областю та оцінені за тестами, тісно пов'язаними з їхніми навчальними доменами. Ці установки вносять змішані фактори, які приховують справжню ступінь узагальнювальної здатності RPT 3/7

Ми представляємо єдину систему оцінювання, яка ізолює та перевіряє міждоменне узагальнення RPT, використовуючи 16 контрольних показників у математиці, коді та наукомістких міркуваннях. В рамках цього ми оцінюємо різні комбінації базових моделей і стратегій RPT 4/7

📌 Наші ключові висновки: 1️⃣ Прибуток від RPT в основному відбувається в домені 2️⃣ Математика і код добре узагальнюють один до одного 3️⃣ Структуровані навички не переносяться на неструктуровані, наукомісткі завдання 5/7

Який висновок? RPT потужний, але вузький Він покращує продуктивність там, де його тренують, але погано узагальнює 6/7

Ця робота є спільною з @ChuxuanHu, @maxYuxuanZhu, @aokellermann, Калебом Біддульфом, @PunWai та @jasoncbenn 7/7

2,78K

Найкращі

Рейтинг

Вибране

Актуальне ончейн

Популярні в X

Нещодавнє найкраще фінансування

Найбільш варте уваги