Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Увлекательный новый курс: Тонкая настройка и Обучение с подкреплением для LLM: Введение в постобучение, который ведет @realSharonZhou, вице-президент по ИИ в @AMD. Доступен сейчас на .
Постобучение — это ключевая техника, используемая передовыми лабораториями для превращения базовой LLM — модели, обученной на огромном объеме неразмеченного текста для предсказания следующего слова/токена — в полезного, надежного помощника, который может следовать инструкциям. Я также видел много приложений, где постобучение превращает демонстрационное приложение, которое работает только 80% времени, в надежную систему, которая постоянно выполняет задачи. Этот курс научит вас самым важным техникам постобучения!
В этом курсе из 5 модулей Шарон проведет вас через полный процесс постобучения: контролируемая тонкая настройка, моделирование вознаграждений, RLHF и такие техники, как PPO и GRPO. Вы также научитесь использовать LoRA для эффективного обучения и разрабатывать оценки, которые выявляют проблемы до и после развертывания.
Навыки, которые вы получите:
- Применять контролируемую тонкую настройку и обучение с подкреплением (RLHF, PPO, GRPO) для согласования моделей с желаемым поведением
- Использовать LoRA для эффективной тонкой настройки без повторного обучения целых моделей
- Подготавливать наборы данных и генерировать синтетические данные для постобучения
- Понимать, как управлять производственными конвейерами LLM, с точками принятия решений go/no-go и обратными связями
Эти продвинутые методы больше не ограничиваются передовыми лабораториями ИИ, и теперь вы можете использовать их в своих собственных приложениях.
Узнайте здесь:
Топ
Рейтинг
Избранное

