La parte más interesante para mí es donde @karpathy describe por qué los LLM no pueden aprender como los humanos. Como era de esperar, se le ocurre una frase maravillosamente evocadora para describir a RL: "chupar trozos de supervisión a través de una pajita". Una única recompensa final se transmite a través de cada token en una trayectoria exitosa, aumentando incluso los giros incorrectos o irrelevantes que conducen a la respuesta correcta. > "Los humanos no usan el aprendizaje por refuerzo, como he dicho antes. Creo que hacen algo diferente. El aprendizaje por refuerzo es mucho peor de lo que piensa la persona promedio. El aprendizaje por refuerzo es terrible. Da la casualidad de que todo lo que teníamos antes es mucho peor". Entonces, ¿qué hacen los humanos en su lugar? > "El libro que estoy leyendo es un conjunto de indicaciones para que genere datos sintéticos. Es manipulando esa información que realmente obtienes ese conocimiento. No tenemos equivalente de eso con los LLM; realmente no hacen eso". > "Me encantaría ver durante el preentrenamiento algún tipo de etapa en la que el modelo piense en el material y trate de reconciliarlo con lo que ya sabe. No hay equivalente de nada de esto. Todo esto es investigación". ¿Por qué no podemos simplemente agregar esta capacitación a los LLM hoy? > "Hay razones muy sutiles y difíciles de entender por las que no es trivial. Si solo doy una generación sintética del modelo pensando en un libro, lo miras y dices: 'Esto se ve genial. ¿Por qué no puedo entrenar con él?' Podrías intentarlo, pero el modelo en realidad empeorará mucho si continúas intentándolo". > "Digamos que tenemos un capítulo de un libro y le pido a un LLM que lo piense. Te dará algo que parece muy razonable. Pero si lo pregunto 10 veces, notarás que todos son iguales". > "No obtienes la riqueza, la diversidad y la entropía de estos modelos como lo obtendrías de los humanos. ¿Cómo se consigue que la generación de datos sintéticos funcione a pesar del colapso y manteniendo la entropía? Es un problema de investigación". ¿Cómo sortean los humanos el colapso del modelo? > "Estas analogías son sorprendentemente buenas. Los humanos colapsan durante el transcurso de sus vidas. Los niños aún no se han sobrepuesto. Dirán cosas que te sorprenderán. Porque aún no están colapsados. Pero nosotros [los adultos] estamos colapsados. Terminamos revisando los mismos pensamientos, terminamos diciendo más y más de las mismas cosas, las tasas de aprendizaje bajan, el colapso continúa empeorando y luego todo se deteriora". De hecho, hay un artículo interesante que argumenta que soñar evolucionó para ayudar a la generalización y resistir el sobreajuste al aprendizaje diario: busque El cerebro sobreajustado por @erikphoel. Le pregunté a Karpathy: ¿No es interesante que los humanos aprendan mejor en una parte de sus vidas (la infancia) cuyos detalles reales olvidan por completo, los adultos aún aprenden muy bien pero tienen una memoria terrible sobre los detalles de las cosas que leen o ven, y los LLM pueden memorizar detalles arbitrarios sobre el texto que ningún humano podría pero que actualmente son bastante malos para generalizar? ...