Jeder übersieht hier die eigentliche Geschichte. Das ist keine "Prompting-Technik." Das Papier heißt Recursive Language Models, nicht "Recursive Meta-Cognition." Und die Autoren sind keine zufälligen Forscher, die um Zitationszahlen kämpfen. Omar Khattab hat DSPy erstellt, das über 31.000 GitHub-Sterne hat und die Art und Weise verändert hat, wie Menschen komplexe KI-Systeme aufbauen. Tim Kraska hat zusammen mit Jeff Dean bei Google lernende Indexstrukturen entwickelt und leitet das Data Systems and AI Lab am MIT. Alex Zhang ist ein Doktorand, der an der Schnittstelle beider Bereiche arbeitet. Das eigentliche Papier behandelt ein spezifisches Problem: LLMs verschlechtern sich bei langen Kontexten. Der Graph zeigt, dass die Leistung von GPT-5 zusammenbricht, während die Eingabelänge von 2^14 auf 2^21 Tokens skaliert, während RLMs eine stabile Leistung aufrechterhalten. Sie verarbeiten Eingaben, die 100x über den Kontextfenstern liegen. Die entscheidende Einsicht aus Khattabs eigenem Twitter: "Die meisten Menschen missverstehen RLMs als LLMs, die sich selbst aufrufen. Die tiefere Einsicht ist, dass LLMs mit ihren eigenen Prompts als Objekte interagieren." Das erweitert Khattabs gesamten Forschungshorizont. DSPy hat Prompts in programmatische Module verwandelt. ColBERT hat die Abruftechnologie intelligenter gemacht. RLMs verwandeln den Kontext selbst in etwas, das das Modell wie Daten im Speicher manipulieren kann. Prime Intellect, eines der führenden dezentralen KI-Labore, baut bereits darauf auf. Sie schrieben, dass RLMs ihnen ermöglichen werden, "Modelle zu lehren, ihren eigenen Kontext von Anfang bis Ende durch verstärkendes Lernen zu verwalten" für Agenten, die über Wochen oder Monate laufen. Der eigentliche Handel? Das löst eine Einschränkung, mit der jedes KI-Labor konfrontiert ist: Kontextfenster sind eine harte Obergrenze. Sie durch Architektur und Training zu erweitern, ist teuer. RLMs bieten einen Ansatz zur Inferenzzeit, der mit bestehenden Modellen funktioniert. Aber achten Sie auf den Haken: Dies erfordert Modelle, die zuverlässig Code schreiben und ausführen können. Die Benchmarks verwenden GPT-5 in einer Python REPL. Modelle mit schwächerer Code-Generierung werden Schwierigkeiten haben, die rekursive Zerlegung sauber umzusetzen. Die Technik skaliert mit der Codefähigkeit, nicht nur mit der Denkfähigkeit.