Der interessanteste Teil für mich ist, wo @karpathy beschreibt, warum LLMs nicht wie Menschen lernen können. Wie zu erwarten, kommt er mit einem wunderbar einprägsamen Ausdruck, um RL zu beschreiben: „Überwachungsbits durch einen Strohhalm saugen.“ Eine einzelne Endbelohnung wird über jedes Token in einer erfolgreichen Trajektorie ausgestrahlt und gewichtet sogar falsche oder irrelevante Wendungen, die zur richtigen Antwort führen, höher. > „Menschen verwenden kein Reinforcement Learning, wie ich schon zuvor gesagt habe. Ich denke, sie machen etwas anderes. Reinforcement Learning ist viel schlechter, als die durchschnittliche Person denkt. Reinforcement Learning ist schrecklich. Es stellt sich nur heraus, dass alles, was wir vorher hatten, viel schlechter ist.“ Was machen Menschen stattdessen? > „Das Buch, das ich lese, ist eine Reihe von Aufforderungen für mich zur synthetischen Datengenerierung. Es ist durch die Manipulation dieser Informationen, dass du tatsächlich dieses Wissen erlangst. Wir haben kein Äquivalent dazu mit LLMs; sie machen das nicht wirklich.“ > „Ich würde gerne sehen, dass während des Pretrainings eine Art Phase stattfindet, in der das Modell über das Material nachdenkt und versucht, es mit dem, was es bereits weiß, in Einklang zu bringen. Es gibt kein Äquivalent zu all dem. Das ist alles Forschung.“ Warum können wir dieses Training nicht einfach heute zu LLMs hinzufügen? > „Es gibt sehr subtile, schwer zu verstehende Gründe, warum es nicht trivial ist. Wenn ich einfach die synthetische Generierung des Modells gebe, das über ein Buch nachdenkt, schaust du es dir an und denkst: 'Das sieht großartig aus. Warum kann ich nicht darauf trainieren?' Du könntest es versuchen, aber das Modell wird tatsächlich viel schlechter, wenn du weiter versuchst.“ > „Angenommen, wir haben ein Kapitel eines Buches und ich bitte ein LLM, darüber nachzudenken. Es wird dir etwas geben, das sehr vernünftig aussieht. Aber wenn ich es 10 Mal frage, wirst du feststellen, dass alle gleich sind.“ > „Du bekommst nicht die Fülle und die Vielfalt und die Entropie von diesen Modellen, wie du sie von Menschen bekommen würdest. Wie bekommst du die synthetische Datengenerierung zum Laufen, trotz des Zusammenbruchs und während du die Entropie aufrechterhältst? Das ist ein Forschungsproblem.“ Wie umgehen Menschen den Modellzusammenbruch? > „Diese Analogien sind überraschend gut. Menschen kollabieren im Laufe ihres Lebens. Kinder haben sich noch nicht überangepasst. Sie werden Dinge sagen, die dich schockieren werden. Weil sie noch nicht kollabiert sind. Aber wir [Erwachsene] sind kollabiert. Wir besuchen immer wieder die gleichen Gedanken, wir sagen immer mehr von denselben Dingen, die Lernraten sinken, der Zusammenbruch wird immer schlimmer und dann verschlechtert sich alles.“ Tatsächlich gibt es ein interessantes Papier, das argumentiert, dass Träumen sich entwickelt hat, um die Verallgemeinerung zu unterstützen und das Überanpassen an das tägliche Lernen zu widerstehen - schau dir The Overfitted Brain von @erikphoel an. Ich fragte Karpathy: Ist es nicht interessant, dass Menschen am besten in einem Teil ihres Lebens (Kindheit) lernen, dessen tatsächliche Details sie völlig vergessen, Erwachsene immer noch sehr gut lernen, aber ein schreckliches Gedächtnis für die Einzelheiten der Dinge haben, die sie lesen oder sehen, und LLMs beliebige Details über Texte auswendig lernen können, die kein Mensch könnte, aber derzeit ziemlich schlecht in der Verallgemeinerung sind? ...