Todos estão a perder a verdadeira história aqui. Isto não é uma "técnica de sugestão". O artigo chama-se Modelos de Linguagem Recursivos, não "Meta-Cognição Recursiva". E os autores não são investigadores aleatórios à procura de contagens de citações. Omar Khattab criou o DSPy, que tem mais de 31.000 estrelas no GitHub e mudou a forma como as pessoas constroem sistemas de IA compostos. Tim Kraska foi pioneiro em estruturas de índice aprendidas com Jeff Dean no Google e dirige o Laboratório de Sistemas de Dados e IA do MIT. Alex Zhang é um estudante de doutoramento que trabalha na interseção de ambos. O artigo real aborda um problema específico: os LLMs degradam-se em contextos longos. O gráfico mostra o desempenho do GPT-5 a colapsar à medida que o comprimento da entrada escala de 2^14 a 2^21 tokens, enquanto os RLMs mantêm um desempenho estável. Eles estão a lidar com entradas 100x além das janelas de contexto. A chave da percepção de Khattab no seu próprio Twitter: "A maioria das pessoas entende mal os RLMs como sendo sobre LLMs a invocarem-se a si mesmos. A percepção mais profunda é que os LLMs interagem com os seus próprios prompts como objetos." Isto estende todo o arco de pesquisa de Khattab. O DSPy transformou prompts em módulos programáticos. O ColBERT tornou a recuperação mais inteligente. Os RLMs transformam o contexto em algo que o modelo pode manipular como dados na memória. A Prime Intellect, um dos principais laboratórios de IA descentralizada, já está a construir sobre isto. Eles escreveram que os RLMs lhes permitirão "ensinar modelos a gerir o seu próprio contexto de ponta a ponta através de aprendizagem por reforço" para agentes que operam ao longo de semanas ou meses. O verdadeiro comércio? Isto resolve uma limitação que todos os laboratórios de IA enfrentam: as janelas de contexto são um teto rígido. Expandir essas janelas através de arquitetura e treino é caro. Os RLMs oferecem uma abordagem em tempo de inferência que funciona com modelos existentes. Mas atenção ao truque: isto requer modelos que consigam escrever e executar código de forma fiável. Os benchmarks usam o GPT-5 num REPL Python. Modelos com capacidade de geração de código mais fraca terão dificuldades em implementar a decomposição recursiva de forma limpa. A técnica escala com a capacidade de código, não apenas com a capacidade de raciocínio.