Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Un nouveau cours passionnant : Ajustement et apprentissage par renforcement pour les LLM : Introduction à l'après-formation, enseigné par @realSharonZhou, VP de l'IA chez @AMD. Disponible maintenant à .
L'après-formation est la technique clé utilisée par les laboratoires de pointe pour transformer un LLM de base - un modèle entraîné sur un texte non étiqueté massif pour prédire le mot/token suivant - en un assistant utile et fiable capable de suivre des instructions. J'ai également vu de nombreuses applications où l'après-formation transforme une application de démonstration qui fonctionne seulement 80 % du temps en un système fiable qui performe de manière constante. Ce cours vous enseignera les techniques d'après-formation les plus importantes !
Dans ce cours de 5 modules, Sharon vous guide à travers l'ensemble du pipeline d'après-formation : ajustement supervisé, modélisation des récompenses, RLHF, et des techniques comme PPO et GRPO. Vous apprendrez également à utiliser LoRA pour un entraînement efficace, et à concevoir des évaluations qui détectent les problèmes avant et après le déploiement.
Compétences que vous acquerrez :
- Appliquer l'ajustement supervisé et l'apprentissage par renforcement (RLHF, PPO, GRPO) pour aligner les modèles sur les comportements souhaités
- Utiliser LoRA pour un ajustement efficace sans réentraîner des modèles entiers
- Préparer des ensembles de données et générer des données synthétiques pour l'après-formation
- Comprendre comment faire fonctionner des pipelines de production LLM, avec des points de décision go/no-go et des boucles de rétroaction
Ces méthodes avancées ne sont plus réservées aux laboratoires d'IA de pointe, et vous pouvez maintenant les utiliser dans vos propres applications.
Apprenez ici :
Meilleurs
Classement
Favoris

