Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
El conocido bloguero de podcasts Dwarkesh Patel tuvo recientemente una entrevista con AK, y así es como la describió:
Para mí, la parte más interesante fue Andrej Karpathy (un experto en IA a menudo conocido como "Kashen") explicando por qué los grandes modelos de lenguaje (LLM) no pueden aprender como los humanos.
Efectivamente, Kashen acuñó una palabra particularmente vívida para describir el aprendizaje por refuerzo (RL): "Absorber datos supervisados con una pajita".
¿Qué significa esto? Es decir, en un intento exitoso (como que la IA gane una partida de ajedrez), la recompensa final por "ganar" se repartirá por igual a cada paso que dé y a cada palabra que genere. Incluso si algunos de los pasos en el medio son incorrectos o irrelevantes, siempre que el resultado final sea correcto, todos estos pasos serán "agregados" por el algoritmo.
> "He dicho antes que los humanos no usan el aprendizaje por refuerzo. Creo que los humanos aprenden de manera completamente diferente. El aprendizaje por refuerzo es mucho peor de lo que piensa la persona promedio. El aprendizaje intensivo apesta. Es solo que los otros algoritmos que teníamos antes eran mucho peores que él. ”
Entonces, ¿cómo aprenden los humanos?
> "Leí un libro que para mí es un conjunto de 'indicaciones' para hacerme 'generación de datos sintéticos' en mi cabeza. Tienes que trabajar con esta información de manera proactiva para obtener realmente conocimiento. Sin embargo, los modelos de lenguaje grandes (LLM) no tienen un mecanismo correspondiente; Realmente no hacen eso. ”
> "Me encantaría ver un enlace en la fase de preentrenamiento del modelo donde el modelo pueda 'reflexionar' sobre lo que lee y tratar de 'emparejarlo' con lo que ya sabe. Ahora no existe tal mecanismo en absoluto. Esto todavía está en la etapa de investigación. ”
Entonces, ¿por qué no podemos agregar este tipo de entrenamiento de "pensamiento" a los grandes modelos de lenguaje ahora?
> "Hay razones muy sutiles e incomprensibles para esto, lo que hace que no sea tan simple. Si le pido al modelo que "piense" en un libro y genere algunos datos sintéticos, a primera vista piensas: "¡Esto se ve genial!" ¿Por qué no puedes usarlo para entrenar? Puedes intentarlo, pero si sigues haciendo esto, el modelo en realidad funcionará peor. ”
> "Digamos que tomamos un capítulo de un libro y le pido a un modelo de lenguaje grande que 'piense'. Te dará un párrafo que parece muy razonable. Pero si le pido que responda 10 veces, verás que las respuestas son casi idénticas en esas 10 veces. ”
> "No se obtiene la riqueza, la diversidad y la 'entropía' del pensamiento humano de estos modelos (en este caso, el caos y la creatividad del pensamiento). No puedes tener todo tipo de ideas locas como una persona. Entonces, ¿cómo pueden los datos sintéticos funcionar y mantener esta "entropía" cuando el modelo tiende a "colapsar" (lo que significa que la respuesta se vuelve única y carece de diversidad)? Este sigue siendo un problema de investigación. ”
Entonces, ¿cómo evitan los humanos este "colapso del pensamiento"?
> La idea (de analogía entre personas y modelos) es sorprendentemente buena. En sus propias vidas, los seres humanos realmente "colapsarán". Los niños aún no se han "sobreadaptado" (refiriéndose al pensamiento rígido y solo se adaptan a ciertos patrones). Dirán algo que te sorprenda. Eso es porque aún no se han "derrumbado". Pero los adultos hemos 'colapsado'. Terminamos pensando lo mismo una y otra vez, lo que decimos se vuelve cada vez más convergente, nuestra tasa de aprendizaje disminuye, el 'colapso' empeora cada vez más, y finalmente todo se degrada. ”
De hecho, un artículo interesante (The Overfitted Brain de Erik Hoel) sugiere que la evolución de la función de sueño humano es ayudarnos a mejorar nuestra "generalización" (la capacidad de hacer inferencias) y resistir el "sobreajuste" provocado por el aprendizaje diario.
...
Populares
Ranking
Favoritas