Andrej Karpathy: Dane treningowe z Internetu są okropne, więc duże modele kończą na kompresowaniu "pamięci" zamiast wykonywania pracy poznawczej. Użyj inteligentnych modeli do filtrowania do rdzenia poznawczego. Z czystszymi danymi, mniejsze modele, prawdopodobnie destylowane z silniejszego, są wystarczające.