Un nuevo y emocionante curso: Ajuste fino y aprendizaje por refuerzo para LLM: Introducción a la capacitación posterior, impartido por @realSharonZhou, vicepresidente de IA en @AMD. Disponible ahora en . El entrenamiento posterior es la técnica clave utilizada por los laboratorios fronterizos para convertir un LLM base, un modelo entrenado en texto masivo sin etiquetar para predecir la siguiente palabra / token, en un asistente útil y confiable que puede seguir instrucciones. También he visto muchas aplicaciones en las que el entrenamiento posterior es lo que convierte una aplicación de demostración que funciona solo el 80% del tiempo en un sistema confiable que funciona de manera constante. ¡Este curso te enseñará las técnicas post-entrenamiento más importantes! En este curso de 5 módulos, Sharon lo guía a través de la línea completa posterior al entrenamiento: ajuste fino supervisado, modelado de recompensas, RLHF y técnicas como PPO y GRPO. También aprenderá a usar LoRA para un entrenamiento eficiente y a diseñar evaluaciones que detecten problemas antes y después de la implementación. Habilidades que obtendrás: - Aplicar el ajuste fino supervisado y el aprendizaje por refuerzo (RLHF, PPO, GRPO) para alinear los modelos con los comportamientos deseados - Utilice LoRA para un ajuste fino eficiente sin volver a entrenar modelos completos - Preparar conjuntos de datos y generar datos sintéticos para el entrenamiento posterior - Comprender cómo operar las canalizaciones de producción de LLM, con puntos de decisión y ciclos de retroalimentación de ir / no ir Estos métodos avanzados ya no se limitan a los laboratorios de IA de frontera, y ahora puede usarlos en sus propias aplicaciones. Aprende aquí: