Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Un nuevo y emocionante curso: Ajuste fino y aprendizaje por refuerzo para LLM: Introducción a la capacitación posterior, impartido por @realSharonZhou, vicepresidente de IA en @AMD. Disponible ahora en .
El entrenamiento posterior es la técnica clave utilizada por los laboratorios fronterizos para convertir un LLM base, un modelo entrenado en texto masivo sin etiquetar para predecir la siguiente palabra / token, en un asistente útil y confiable que puede seguir instrucciones. También he visto muchas aplicaciones en las que el entrenamiento posterior es lo que convierte una aplicación de demostración que funciona solo el 80% del tiempo en un sistema confiable que funciona de manera constante. ¡Este curso te enseñará las técnicas post-entrenamiento más importantes!
En este curso de 5 módulos, Sharon lo guía a través de la línea completa posterior al entrenamiento: ajuste fino supervisado, modelado de recompensas, RLHF y técnicas como PPO y GRPO. También aprenderá a usar LoRA para un entrenamiento eficiente y a diseñar evaluaciones que detecten problemas antes y después de la implementación.
Habilidades que obtendrás:
- Aplicar el ajuste fino supervisado y el aprendizaje por refuerzo (RLHF, PPO, GRPO) para alinear los modelos con los comportamientos deseados
- Utilice LoRA para un ajuste fino eficiente sin volver a entrenar modelos completos
- Preparar conjuntos de datos y generar datos sintéticos para el entrenamiento posterior
- Comprender cómo operar las canalizaciones de producción de LLM, con puntos de decisión y ciclos de retroalimentación de ir / no ir
Estos métodos avanzados ya no se limitan a los laboratorios de IA de frontera, y ahora puede usarlos en sus propias aplicaciones.
Aprende aquí:
Populares
Ranking
Favoritas

