El conocido podcaster Dwarkesh Patel recientemente tuvo una entrevista con AK, y esta es su descripción: Para mí, la parte más interesante fue cuando Andrej Karpathy (comúnmente conocido por los fans como "el dios de la IA") explicó por qué los modelos de lenguaje grandes (LLM) no pueden aprender como los humanos. Como era de esperar, el dios de la IA creó una expresión especialmente vívida para describir el aprendizaje por refuerzo (Reinforcement Learning, RL): "usar una pajita para absorber datos de supervisión". ¿Qué significa esto? Significa que, en un intento exitoso (por ejemplo, cuando la IA gana en un juego de ajedrez), la recompensa final de ese "ganar" se distribuye a cada paso que tomó y a cada palabra que generó. Incluso si algunos pasos intermedios fueron incorrectos o irrelevantes, siempre que el resultado final sea correcto, esos pasos recibirán "puntos" del algoritmo. > "Ya he dicho antes que los humanos no utilizan el aprendizaje por refuerzo. Creo que la forma en que los humanos aprenden es completamente diferente. El aprendizaje por refuerzo es mucho peor de lo que la gente común piensa. El aprendizaje por refuerzo es malo. Simplemente, los otros algoritmos que teníamos antes eran mucho peores que él." Entonces, ¿cómo aprenden los humanos? > "Leo un libro, y ese libro para mí es un conjunto de 'prompts' que me permite 'sintetizar datos' en mi mente. Debes procesar activamente esta información para realmente adquirir conocimiento. Pero los modelos de lenguaje grandes (LLM) no tienen un mecanismo correspondiente; realmente no lo hacen." > "Me gustaría ver en la fase de preentrenamiento del modelo un paso donde el modelo pueda 'reflexionar' sobre el material que ha leído y tratar de relacionarlo con el conocimiento que ya tiene. Actualmente, no hay tal mecanismo. Esto todavía está en la fase de investigación." Entonces, ¿por qué no podemos agregar este tipo de entrenamiento de "pensamiento" a los modelos de lenguaje grandes ahora mismo? > "Hay razones muy sutiles y difíciles de entender que hacen que esto no sea tan simple. Si le pido al modelo que 'reflexione' sobre un libro y genere algunos datos sintéticos, a primera vista podrías pensar: '¡Esto se ve genial! ¿Por qué no podemos usarlo para entrenar?'. Puedes intentarlo, pero si insistes en hacerlo, el rendimiento del modelo en realidad se volverá peor." > "Por ejemplo, tomemos un capítulo de un libro y le pido a un modelo de lenguaje grande que 'reflexione' sobre él. Te dará una respuesta que parece muy razonable. Pero si le pido que responda 10 veces, descubrirás que esas 10 respuestas son casi idénticas." > "No obtienes de estos modelos la riqueza, diversidad y 'entropía' (aquí refiriéndose al desorden y creatividad del pensamiento) que se tiene al pensar como un humano. No puedes obtener ideas extravagantes como lo haría un humano. Entonces, ¿cómo podemos hacer que los datos sintéticos funcionen y mantener esa 'entropía' mientras el modelo tiende a 'colapsar' (collapse) (refiriéndose a respuestas que se vuelven únicas y carecen de diversidad)? Este sigue siendo un problema de investigación." Entonces, ¿cómo evitan los humanos este "colapso del pensamiento"? > "(Comparando humanos y modelos) Esta idea es sorprendentemente buena. Los humanos también 'colapsan' a lo largo de sus vidas. Los niños aún no han 'sobreajustado' (overfitting) (refiriéndose a un pensamiento rígido que solo se adapta a patrones específicos). Ellos dirán cosas que te sorprenderán. Eso es porque aún no han 'colapsado'. Pero nosotros, los adultos, ya hemos 'colapsado'. Finalmente, reflexionamos sobre las mismas ideas, lo que decimos se vuelve cada vez más similar, nuestra tasa de aprendizaje disminuye, y el 'colapso' se vuelve cada vez peor, hasta que todo se degrada." De hecho, hay un artículo muy interesante ("El cerebro sobreajustado" de Erik Hoel) que sugiere que la evolución de la función de soñar en los humanos es para ayudarnos a mejorar nuestra 'capacidad de generalización' (generalization) (refiriéndose a la capacidad de aplicar lo aprendido a nuevas situaciones) y resistir el 'sobreajuste' que resulta del aprendizaje diario. ...