Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Un nuevo curso emocionante: Ajuste fino y Aprendizaje por Refuerzo para LLMs: Introducción al Post-entrenamiento, impartido por @realSharonZhou, VP de AI en @AMD. Disponible ahora en .
El post-entrenamiento es la técnica clave utilizada por los laboratorios de vanguardia para convertir un LLM base--un modelo entrenado en un gran volumen de texto no etiquetado para predecir la siguiente palabra/token--en un asistente útil y confiable que puede seguir instrucciones. También he visto muchas aplicaciones donde el post-entrenamiento es lo que convierte una aplicación de demostración que funciona solo el 80% del tiempo en un sistema confiable que rinde de manera consistente. ¡Este curso te enseñará las técnicas de post-entrenamiento más importantes!
En este curso de 5 módulos, Sharon te guiará a través de todo el proceso de post-entrenamiento: ajuste fino supervisado, modelado de recompensas, RLHF y técnicas como PPO y GRPO. También aprenderás a usar LoRA para un entrenamiento eficiente y a diseñar evaluaciones que detecten problemas antes y después del despliegue.
Habilidades que adquirirás:
- Aplicar ajuste fino supervisado y aprendizaje por refuerzo (RLHF, PPO, GRPO) para alinear modelos a comportamientos deseados
- Usar LoRA para un ajuste fino eficiente sin necesidad de reentrenar modelos completos
- Preparar conjuntos de datos y generar datos sintéticos para el post-entrenamiento
- Entender cómo operar pipelines de producción de LLM, con puntos de decisión de continuar/no continuar y bucles de retroalimentación
Estos métodos avanzados ya no están limitados a los laboratorios de IA de vanguardia, y ahora puedes usarlos en tus propias aplicaciones.
Aprende aquí:
Parte superior
Clasificación
Favoritos

