Tutti stanno trascurando la vera storia qui. Non si tratta di una "tecnica di suggerimento". Il documento si chiama Modelli di Linguaggio Ricorsivi, non "Meta-Cognizione Ricorsiva". E gli autori non sono ricercatori a caso che cercano di aumentare il numero di citazioni. Omar Khattab ha creato DSPy, che ha oltre 31.000 stelle su GitHub e ha cambiato il modo in cui le persone costruiscono sistemi AI complessi. Tim Kraska ha pionierato le strutture di indice apprese con Jeff Dean di Google e dirige il Data Systems and AI Lab del MIT. Alex Zhang è uno studente di dottorato che lavora all'intersezione di entrambi. Il documento affronta un problema specifico: gli LLM degradano su contesti lunghi. Il grafico mostra il crollo delle prestazioni di GPT-5 mentre la lunghezza dell'input scala da 2^14 a 2^21 token, mentre gli RLM mantengono prestazioni stabili. Stanno gestendo input 100 volte oltre le finestre di contesto. L'intuizione chiave dal Twitter di Khattab: "La maggior parte delle persone fraintende gli RLM come se fossero LLM che si invocano da soli. L'intuizione più profonda è che gli LLM interagiscono con i propri suggerimenti come oggetti." Questo estende l'intero arco di ricerca di Khattab. DSPy ha trasformato i suggerimenti in moduli programmatici. ColBERT ha reso il recupero più intelligente. Gli RLM trasformano il contesto stesso in qualcosa che il modello può manipolare come dati in memoria. Prime Intellect, uno dei principali laboratori di AI decentralizzati, sta già costruendo su questo. Hanno scritto che gli RLM permetteranno loro di "insegnare ai modelli a gestire il proprio contesto end-to-end attraverso l'apprendimento per rinforzo" per agenti che operano per settimane o mesi. Il vero scambio? Questo risolve un vincolo che ogni laboratorio di AI affronta: le finestre di contesto sono un tetto rigido. Espanderle attraverso architettura e formazione è costoso. Gli RLM offrono un approccio in tempo di inferenza che funziona con modelli esistenti. Ma fai attenzione al trucco: questo richiede modelli che possano scrivere ed eseguire codice in modo affidabile. I benchmark utilizzano GPT-5 in un REPL Python. I modelli con capacità di generazione di codice più deboli faticheranno a implementare la decomposizione ricorsiva in modo pulito. La tecnica scala con la capacità di codice, non solo con la capacità di ragionamento.