Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Um novo curso empolgante: Ajuste fino e aprendizado por reforço para LLMs: introdução ao pós-treinamento, ministrado por @realSharonZhou, vice-presidente de IA da @AMD. Disponível agora em .
O pós-treinamento é a principal técnica usada pelos laboratórios de fronteira para transformar um LLM básico - um modelo treinado em texto massivo não rotulado para prever a próxima palavra / token - em um assistente útil e confiável que pode seguir instruções. Também vi muitos aplicativos em que o pós-treinamento é o que transforma um aplicativo de demonstração que funciona apenas 80% do tempo em um sistema confiável que funciona de forma consistente. Este curso ensinará as técnicas pós-treino mais importantes!
Neste curso de 5 módulos, Sharon orienta você através de todo o pipeline pós-treinamento: ajuste fino supervisionado, modelagem de recompensas, RLHF e técnicas como PPO e GRPO. Você também aprenderá a usar o LoRA para treinamento eficiente e a projetar avaliações que detectam problemas antes e depois da implantação.
Habilidades que você ganhará:
- Aplicar ajuste fino supervisionado e aprendizado por reforço (RLHF, PPO, GRPO) para alinhar os modelos aos comportamentos desejados
- Use LoRA para ajuste fino eficiente sem treinar novamente modelos inteiros
- Preparar conjuntos de dados e gerar dados sintéticos para pós-treinamento
- Entender como operar pipelines de produção de LLM, com pontos de decisão go/no-go e loops de feedback
Esses métodos avançados não se limitam mais aos laboratórios de IA de fronteira e agora você pode usá-los em seus próprios aplicativos.
Saiba aqui:
Melhores
Classificação
Favoritos

