Estás en una entrevista para Científico de Investigación en Google. Entrevistador: Tenemos un LLM base que es terrible en matemáticas. ¿Cómo lo convertirías en una potencia de matemáticas y razonamiento? Tú: Etiquetaré algunos problemas y ajustaré el modelo. Entrevista terminada. Esto es lo que te perdiste:
Cuando las salidas son verificables, las etiquetas se vuelven opcionales. Las matemáticas, el código y la lógica pueden ser comprobados y validados automáticamente. Utilicemos este hecho para construir un modelo de razonamiento sin etiquetado manual. Usaremos: - @UnslothAI para un ajuste fino eficiente en parámetros. - @HuggingFace TRL para aplicar GRPO. ¡Vamos! 🚀
¿Qué es GRPO? La Optimización de Políticas Relativas de Grupo es un método de aprendizaje por refuerzo que ajusta los LLM para tareas de matemáticas y razonamiento utilizando funciones de recompensa deterministas, eliminando la necesidad de datos etiquetados. Aquí hay un breve resumen de GRPO antes de que pasemos al código:
1️⃣ Carga el modelo Comenzamos cargando Qwen3-4B-Base y su tokenizador usando Unsloth. Puedes usar cualquier otro LLM de peso abierto aquí. Mira esto 👇
2️⃣ Definir la configuración de LoRA Usaremos LoRA para evitar ajustar los pesos de todo el modelo. En este código, utilizamos PEFT de Unsloth especificando: - El modelo - LoRA de rango bajo (r) - Módulos para el ajuste fino, etc. Consulta esto 👇
3️⃣ Crea el conjunto de datos Cargamos el conjunto de datos Open R1 Math (un conjunto de datos de problemas matemáticos) y lo formateamos para el razonamiento. Cada muestra incluye: - Un aviso del sistema que impone un razonamiento estructurado - Una pregunta del conjunto de datos - La respuesta en el formato requerido Revisa este código 👇
4️⃣ Definir funciones de recompensa En GRPO utilizamos funciones deterministas para validar la respuesta y asignar una recompensa. ¡No se requiere etiquetado manual! Las funciones de recompensa: - Coincidir exactamente con el formato - Coincidir aproximadamente con el formato - Verificar la respuesta - Verificar números Mira esto 👇
5️⃣ Usa GRPO y comienza a entrenar Ahora que tenemos el conjunto de datos y las funciones de recompensa listas, es hora de aplicar GRPO. HuggingFace TRL proporciona todo lo que describimos en el diagrama de GRPO, listo para usar, en forma de GRPOConfig y GRPOTrainer. Mira esto👇
6️⃣ Comparación Una vez más, podemos ver cómo GRPO convirtió un modelo base en una potencia de razonamiento. Mira esto👇
Antes de concluir, permíteme abordar una pregunta importante: ¿Cuándo deberías usar el ajuste fino por refuerzo (RFT) en lugar del ajuste fino supervisado (SFT)? Creé este diagrama para proporcionar una respuesta:
157,42K