Diapositivas para mi conferencia "LLM Reasoning" en Stanford CS 25: Puntos clave: 1. Razonar en LLM simplemente significa generar una secuencia de tokens intermedios antes de producir la respuesta final. Si esto se parece al razonamiento humano es irrelevante. La idea crucial es que los modelos de transformadores pueden volverse casi arbitrariamente poderosos al generar muchos tokens intermedios, sin la necesidad de escalar el tamaño del modelo ( 2. Los modelos preentrenados, incluso sin ningún ajuste fino, son capaces de razonar. El desafío es que las salidas basadas en el razonamiento a menudo no aparecen en la parte superior de la distribución de salida, por lo que la decodificación codiciosa estándar no las muestra ( 3. Las técnicas de incitación (p. ej., la incitación en cadena de pensamiento o "pensemos paso a paso") y el ajuste fino supervisado se usaron comúnmente para obtener razonamiento. Ahora, el ajuste fino de RL se ha convertido en el método más poderoso. Este truco fue descubierto de forma independiente por varios laboratorios. En Google, el crédito es para Jonathan Lai en mi equipo. Según nuestra teoría (ver punto 1), escalar RL debería centrarse en generar respuestas largas en lugar de otra cosa. 4. El razonamiento de LLM se puede mejorar enormemente generando múltiples respuestas y luego agregándolas, en lugar de depender de una sola respuesta (
177.29K