Um novo curso empolgante: Ajuste fino e aprendizado por reforço para LLMs: introdução ao pós-treinamento, ministrado por @realSharonZhou, vice-presidente de IA da @AMD. Disponível agora em . O pós-treinamento é a principal técnica usada pelos laboratórios de fronteira para transformar um LLM básico - um modelo treinado em texto massivo não rotulado para prever a próxima palavra / token - em um assistente útil e confiável que pode seguir instruções. Também vi muitos aplicativos em que o pós-treinamento é o que transforma um aplicativo de demonstração que funciona apenas 80% do tempo em um sistema confiável que funciona de forma consistente. Este curso ensinará as técnicas pós-treino mais importantes! Neste curso de 5 módulos, Sharon orienta você através de todo o pipeline pós-treinamento: ajuste fino supervisionado, modelagem de recompensas, RLHF e técnicas como PPO e GRPO. Você também aprenderá a usar o LoRA para treinamento eficiente e a projetar avaliações que detectam problemas antes e depois da implantação. Habilidades que você ganhará: - Aplicar ajuste fino supervisionado e aprendizado por reforço (RLHF, PPO, GRPO) para alinhar os modelos aos comportamentos desejados - Use LoRA para ajuste fino eficiente sem treinar novamente modelos inteiros - Preparar conjuntos de dados e gerar dados sintéticos para pós-treinamento - Entender como operar pipelines de produção de LLM, com pontos de decisão go/no-go e loops de feedback Esses métodos avançados não se limitam mais aos laboratórios de IA de fronteira e agora você pode usá-los em seus próprios aplicativos. Saiba aqui: