Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Обучение с подкреплением позволяет LLM обыгрывать людей на конкурсах по программированию/математике и стало движущей силой недавних достижений (o-серия от OpenAI, Claude 4 от Anthropic)
Сможет ли RL обеспечить широкую обобщаемость так же, как это делает предварительное обучение? Нет, с текущими методами
🧵 1/7
🔗Ссылки здесь и ветка ниже:
Бумага:
Терпимая:
Сабстек:
2/7
Существующая оценка LLM в основном оценивает производительность в своей области, используя модели пост-тренировки с подкреплением (RPT), обученные на данных смешанных доменов и оцененные по стандартам, тесно связанным с их областями обучения. Эти настройки вводят сбивающие факторы, которые затушевывают истинную степень способности обобщения RPT
3/7
Мы представляем унифицированную систему оценки, которая изолирует и проверяет межпредметное обобщение RPT с использованием 16 тестов по математике, коду и наукоемким рассуждениям. В рамках этой работы мы оцениваем различные комбинации базовых моделей и стратегий RPT
4/7

📌 Наши основные выводы:
1️⃣ Прирост RPT в основном происходит внутри домена
2️⃣ Математика и код хорошо обобщаются друг для друга
3️⃣ Структурированные навыки не переносятся на неструктурированные, наукоемкие задачи
5/7

Вывод? RPT мощный, но узкий
Он улучшает производительность там, где его тренируют, но плохо обобщает
6/7
Эта работа выполнена совместно с @ChuxuanHu, @maxYuxuanZhu, @aokellermann, Калебом Биддульфом, @PunWai и @jasoncbenn
7/7
2,82K
Топ
Рейтинг
Избранное