Andrej Karpathy: I dati di addestramento di Internet sono terribili, quindi i modelli grandi finiscono per comprimere la "memoria" invece di svolgere un lavoro cognitivo. Utilizza modelli intelligenti per filtrare il nucleo cognitivo. Con dati più puliti, modelli più piccoli, probabilmente distillati da uno più forte, sono sufficienti.