Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Diapositivas para mi conferencia "Razonamiento LLM" en Stanford CS 25:
Puntos clave:
1. Razonar en LLMs simplemente significa generar una secuencia de tokens intermedios antes de producir la respuesta final. Si esto se asemeja al razonamiento humano es irrelevante. La idea crucial es que los modelos de transformadores pueden volverse casi arbitrariamente poderosos generando muchos tokens intermedios, sin necesidad de escalar el tamaño del modelo.
2. Los modelos preentrenados, incluso sin ningún ajuste fino, son capaces de razonar. El desafío es que las salidas basadas en el razonamiento a menudo no aparecen en la parte superior de la distribución de salida, por lo que la decodificación codiciosa estándar no logra hacerlas visibles.
3. Las técnicas de prompting (por ejemplo, prompting de cadena de pensamiento o "pensemos paso a paso") y el ajuste fino supervisado se utilizaron comúnmente para provocar razonamiento. Ahora, el ajuste fino por refuerzo ha surgido como el método más poderoso. Este truco fue descubierto de forma independiente por varios laboratorios. En Google, el crédito va a Jonathan Lai de mi equipo. Basado en nuestra teoría (ver punto 1), escalar el RL debería centrarse en generar respuestas largas en lugar de otra cosa.
4. El razonamiento LLM puede mejorarse enormemente generando múltiples respuestas y luego agregándolas, en lugar de depender de una sola respuesta.
177,33K
Parte superior
Clasificación
Favoritos