Andrej Karpathy: Os dados de treino da Internet são terríveis, então grandes modelos acabam por comprimir a "memória" em vez de fazer trabalho cognitivo. Use modelos inteligentes para filtrar até o núcleo cognitivo. Com dados mais limpos, modelos menores, provavelmente destilados de um mais forte, são suficientes.