Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La parte más interesante para mí es donde @karpathy describe por qué los LLMs no pueden aprender como los humanos.
Como era de esperar, él propone una frase maravillosamente evocadora para describir el RL: “sorbiendo bits de supervisión a través de una pajita.”
Una única recompensa final se transmite a través de cada token en una trayectoria exitosa, aumentando incluso giros incorrectos o irrelevantes que conducen a la respuesta correcta.
> “Los humanos no utilizan el aprendizaje por refuerzo, como he dicho antes. Creo que hacen algo diferente. El aprendizaje por refuerzo es mucho peor de lo que la persona promedio piensa. El aprendizaje por refuerzo es terrible. Simplemente sucede que todo lo que teníamos antes es mucho peor.”
Entonces, ¿qué hacen los humanos en su lugar?
> “El libro que estoy leyendo es un conjunto de indicaciones para que yo haga generación de datos sintéticos. Es manipulando esa información que realmente adquieres ese conocimiento. No tenemos un equivalente de eso con los LLMs; ellos realmente no hacen eso.”
> “Me encantaría ver durante el preentrenamiento algún tipo de etapa donde el modelo reflexione sobre el material y trate de reconciliarlo con lo que ya sabe. No hay equivalente de nada de esto. Todo esto es investigación.”
¿Por qué no podemos simplemente añadir este entrenamiento a los LLMs hoy?
> “Hay razones muy sutiles y difíciles de entender por las que no es trivial. Si simplemente doy generación sintética del modelo pensando en un libro, lo miras y dices: 'Esto se ve genial. ¿Por qué no puedo entrenar en ello?' Podrías intentarlo, pero el modelo en realidad se volverá mucho peor si sigues intentando.”
> “Digamos que tenemos un capítulo de un libro y le pido a un LLM que piense en él. Te dará algo que parece muy razonable. Pero si le pregunto 10 veces, notarás que todos son iguales.”
> “No estás obteniendo la riqueza, la diversidad y la entropía de estos modelos como lo harías con los humanos. ¿Cómo haces que la generación de datos sintéticos funcione a pesar del colapso y mientras mantienes la entropía? Es un problema de investigación.”
¿Cómo evitan los humanos el colapso del modelo?
> “Estas analogías son sorprendentemente buenas. Los humanos colapsan durante el transcurso de sus vidas. Los niños aún no han sobreajustado. Dirán cosas que te sorprenderán. Porque aún no están colapsados. Pero nosotros [los adultos] estamos colapsados. Terminamos revisitando los mismos pensamientos, terminamos diciendo más y más de lo mismo, las tasas de aprendizaje disminuyen, el colapso continúa empeorando, y luego todo se deteriora.”
De hecho, hay un artículo interesante que argumenta que soñar evolucionó para ayudar a la generalización y resistir el sobreajuste al aprendizaje diario - busca The Overfitted Brain de @erikphoel.
Le pregunté a Karpathy: ¿No es interesante que los humanos aprenden mejor en una parte de sus vidas (la infancia) cuyos detalles reales olvidan por completo, los adultos aún aprenden muy bien pero tienen una memoria terrible sobre los pormenores de las cosas que leen o ven, y los LLMs pueden memorizar detalles arbitrarios sobre textos que ningún humano podría pero actualmente son bastante malos en la generalización?
...
Parte superior
Clasificación
Favoritos