Der bekannte Podcaster Dwarkesh Patel hatte kürzlich ein Interview mit AK, und das ist seine Beschreibung: Für mich war der interessanteste Teil, als Andrej Karpathy (von den Fans oft als "Gott der KI" bezeichnet) erklärte, warum große Sprachmodelle (LLM) nicht wie Menschen lernen können. Wie zu erwarten war, hat Gott der KI ein besonders lebendiges Wort geprägt, um das Verstärkungslernen (Reinforcement Learning, kurz RL) zu beschreiben: "Mit einem Strohhalm Überwachungsdaten aufsaugen". Was bedeutet das? Es bedeutet, dass bei einem erfolgreichen Versuch (zum Beispiel wenn die KI ein Schachspiel gewinnt) die endgültige Belohnung für das "Gewonnen" auf jeden Schritt, den sie gemacht hat, und jedes Wort, das sie generiert hat, verteilt wird. Selbst wenn einige Schritte dazwischen falsch oder irrelevant sind, solange das Endergebnis richtig ist, werden diese Schritte vom Algorithmus "belohnt". > "Ich habe schon früher gesagt, dass Menschen kein Verstärkungslernen verwenden. Ich glaube, die Art und Weise, wie Menschen lernen, ist völlig anders. Verstärkungslernen ist viel schlechter, als die meisten Menschen denken. Verstärkungslernen ist schlecht. Es ist nur so, dass die anderen Algorithmen, die wir früher hatten, noch viel schlechter waren." Wie lernen Menschen also wirklich? > "Wenn ich ein Buch lese, ist dieses Buch für mich eine Art 'Prompt', um in meinem Kopf 'synthetische Daten' zu generieren. Du musst aktiv mit diesen Informationen umgehen, um wirklich Wissen zu erlangen. Aber große Sprachmodelle (LLM) haben keinen entsprechenden Mechanismus; sie tun das wirklich nicht." > "Ich würde mir wünschen, dass in der Vortrainingsphase des Modells so ein Schritt vorhanden ist: Das Modell könnte über das Material, das es liest, 'nachdenken' und versuchen, es mit dem Wissen, das es bereits hat, 'abzugleichen' (also es zu integrieren). Momentan gibt es diesen Mechanismus überhaupt nicht. Das ist noch in der Forschungsphase." Warum können wir also nicht jetzt schon dieses "Nachdenken"-Training in große Sprachmodelle einfügen? > "Es gibt sehr subtile, schwer verständliche Gründe, die dazu führen, dass es nicht so einfach ist. Wenn ich das Modell dazu bringe, über ein Buch 'nachzudenken' und einige synthetische Daten zu generieren, würdest du auf den ersten Blick denken: 'Das sieht großartig aus! Warum kann ich das nicht zum Trainieren verwenden?' Du kannst es versuchen, aber wenn du das weiterhin tust, wird die Leistung des Modells tatsächlich schlechter." > "Nehmen wir zum Beispiel ein Kapitel eines Buches, und ich lasse ein großes Sprachmodell 'nachdenken'. Es wird dir eine Antwort geben, die sehr vernünftig aussieht. Aber wenn ich es 10 Mal antworten lasse, wirst du feststellen, dass diese 10 Antworten fast identisch sind." > "Du bekommst aus diesen Modellen nicht die Vielfalt, den Reichtum und die 'Entropie' (hier im Sinne von Denkchaos und Kreativität), die du beim menschlichen Denken erhältst. Du kannst nicht wie ein Mensch eine Vielzahl von verrückten Ideen bekommen. Also, wie kann man synthetische Daten wirksam machen und gleichzeitig diese 'Entropie' bewahren, während das Modell dazu neigt, zu 'kollabieren' (Kollaps, was bedeutet, dass die Antworten einheitlich und wenig vielfältig werden)? Das ist immer noch ein Forschungsproblem." Wie vermeiden Menschen also diesen "Denk-Kollaps"? > "(Die Analogie zwischen Menschen und Modellen) ist eine erstaunlich gute Idee. Menschen 'kollabieren' tatsächlich auch im Laufe ihres Lebens. Kleine Kinder haben noch kein 'Overfitting' (Überanpassung, was bedeutet, dass das Denken starr wird und sich nur an bestimmte Muster anpasst). Sie sagen Dinge, die dich schockieren. Das liegt daran, dass sie noch nicht 'kollabiert' sind. Aber wir Erwachsenen sind bereits 'kollabiert'. Wir neigen dazu, immer wieder die gleichen Gedanken zu durchdenken, unsere Aussagen werden immer ähnlicher, unsere Lernrate sinkt, und der 'Kollaps' wird immer schlimmer, bis schließlich alles degeneriert." Tatsächlich gibt es ein sehr interessantes Papier (Erik Hoels "Das überanpassende Gehirn"), das vorschlägt, dass die Evolution der menschlichen Traumfunktion dazu dient, unsere 'Generalisierungsfähigkeit' (die Fähigkeit, von einem Beispiel auf andere zu schließen) zu verbessern und der 'Überanpassung' entgegenzuwirken, die durch das tägliche Lernen entsteht. ...