Um novo curso emocionante: Ajuste fino e Aprendizagem por Reforço para LLMs: Introdução ao Pós-treinamento, ministrado por @realSharonZhou, VP de AI na @AMD. Disponível agora em . O pós-treinamento é a técnica chave utilizada pelos laboratórios de ponta para transformar um LLM base--um modelo treinado em um grande volume de texto não rotulado para prever a próxima palavra/token--em um assistente útil e confiável que pode seguir instruções. Também vi muitas aplicações onde o pós-treinamento é o que transforma uma aplicação de demonstração que funciona apenas 80% do tempo em um sistema confiável que desempenha consistentemente. Este curso ensinará as técnicas de pós-treinamento mais importantes! Neste curso de 5 módulos, Sharon o guiará através de todo o pipeline de pós-treinamento: ajuste fino supervisionado, modelagem de recompensas, RLHF e técnicas como PPO e GRPO. Você também aprenderá a usar LoRA para um treinamento eficiente e a projetar avaliações que detectem problemas antes e depois da implementação. Habilidades que você adquirirá: - Aplicar ajuste fino supervisionado e aprendizagem por reforço (RLHF, PPO, GRPO) para alinhar modelos a comportamentos desejados - Usar LoRA para ajuste fino eficiente sem re-treinar modelos inteiros - Preparar conjuntos de dados e gerar dados sintéticos para pós-treinamento - Compreender como operar pipelines de produção de LLM, com pontos de decisão go/no-go e ciclos de feedback Esses métodos avançados não estão mais limitados aos laboratórios de AI de ponta, e agora você pode usá-los em suas próprias aplicações. Aprenda aqui: