Você está em uma entrevista para Cientista Pesquisador no Google. Entrevistador: Temos um LLM básico que é péssimo em matemática. Como você transformaria isso em uma potência de matemática e raciocínio? Você: Vou marcar alguns problemas e ajustar o modelo. Entrevista encerrada. Aqui está o que você perdeu:
Quando as saídas são verificáveis, os rótulos tornam-se opcionais. Matemática, código e lógica podem ser verificados e validados automaticamente. Vamos usar esse fato para construir um modelo de raciocínio sem rotulagem manual. Vamos usar: - @UnslothAI para ajuste fino eficiente em parametros. - @HuggingFace TRL para aplicar GRPO. Vamos! 🚀
O que é GRPO? A Otimização de Política Relativa de Grupo é um método de aprendizado por reforço que ajusta LLMs para tarefas de matemática e raciocínio usando funções de recompensa determinísticas, eliminando a necessidade de dados rotulados. Aqui está uma breve visão geral do GRPO antes de entrarmos no código:
1️⃣ Carregue o modelo Começamos carregando o Qwen3-4B-Base e seu tokenizer usando o Unsloth. Você pode usar qualquer outro LLM de peso aberto aqui. Verifique isso 👇
2️⃣ Definir configuração LoRA Usaremos LoRA para evitar o ajuste fino de todos os pesos do modelo. Neste código, usamos o PEFT da Unsloth especificando: - O modelo - LoRA de classificação baixa (r) - Módulos para ajuste fino, etc. Verifique isso 👇
3️⃣ Crie o conjunto de dados Carregamos o conjunto de dados Open R1 Math (um conjunto de dados de problemas matemáticos) e o formatamos para raciocínio. Cada amostra inclui: - Um prompt do sistema que impõe o raciocínio estruturado - Uma pergunta do conjunto de dados - A resposta no formato exigido Verifique este código 👇
4️⃣ Defina funções de recompensa No GRPO, usamos funções determinísticas para validar a resposta e atribuir uma recompensa. Não é necessária rotulagem manual! As funções de recompensa: - Formato de correspondência exatamente - Formato de correspondência aproximadamente - Verifique a resposta - Números de verificação Confira isso 👇
5️⃣ Use o GRPO e comece a treinar Agora que temos o conjunto de dados e as funções de recompensa prontos, é hora de aplicar o GRPO. O HuggingFace TRL fornece tudo o que descrevemos no diagrama GRPO, pronto para uso, na forma do GRPOConfig e do GRPOTrainer. Confira isso👇
6️⃣ Comparação Novamente, podemos ver como o GRPO transformou um modelo básico em uma potência de raciocínio. Confira isso👇
Antes de concluirmos, deixe-me abordar uma questão importante: Quando você deve usar o ajuste fino de reforço (RFT) versus o ajuste fino supervisionado (SFT)? Criei este diagrama para fornecer uma resposta:
157,42K