Увлекательный новый курс: Тонкая настройка и Обучение с подкреплением для LLM: Введение в постобучение, который ведет @realSharonZhou, вице-президент по ИИ в @AMD. Доступен сейчас на . Постобучение — это ключевая техника, используемая передовыми лабораториями для превращения базовой LLM — модели, обученной на огромном объеме неразмеченного текста для предсказания следующего слова/токена — в полезного, надежного помощника, который может следовать инструкциям. Я также видел много приложений, где постобучение превращает демонстрационное приложение, которое работает только 80% времени, в надежную систему, которая постоянно выполняет задачи. Этот курс научит вас самым важным техникам постобучения! В этом курсе из 5 модулей Шарон проведет вас через полный процесс постобучения: контролируемая тонкая настройка, моделирование вознаграждений, RLHF и такие техники, как PPO и GRPO. Вы также научитесь использовать LoRA для эффективного обучения и разрабатывать оценки, которые выявляют проблемы до и после развертывания. Навыки, которые вы получите: - Применять контролируемую тонкую настройку и обучение с подкреплением (RLHF, PPO, GRPO) для согласования моделей с желаемым поведением - Использовать LoRA для эффективной тонкой настройки без повторного обучения целых моделей - Подготавливать наборы данных и генерировать синтетические данные для постобучения - Понимать, как управлять производственными конвейерами LLM, с точками принятия решений go/no-go и обратными связями Эти продвинутые методы больше не ограничиваются передовыми лабораториями ИИ, и теперь вы можете использовать их в своих собственных приложениях. Узнайте здесь: