Andrej Karpathy: Los datos de entrenamiento de Internet son terribles, por lo que los modelos grandes terminan comprimiendo la "memoria" en lugar de realizar trabajo cognitivo. Utiliza modelos inteligentes para filtrar hacia el núcleo cognitivo. Con datos más limpios, modelos más pequeños, probablemente destilados de uno más fuerte, son suficientes.