Uma coisa com que os modelos de IA atuais ainda lutam é como os objetos podem ser dispostos no espaço, ou seja, modelos de mundo espacial. Tikz, um pacote nativo do latex para criar diagramas do zero, é um bom ambiente de testes para isso. Exige que o modelo crie código para representar objetos visuais de forma especial. Pedi ao Claude Code para recriar um conjunto de slides PPT em beamer, usando tikz para os diagramas. A escrita estava perfeita, mas aqui estava o primeiro diagrama (à esquerda). O texto estava desalinhado, as setas no lugar errado, inseriu um x aleatório no meio. Iterei várias vezes e não tive sorte. Dei a mesma tarefa ao GPT 5.2 Thinking, pedindo-lhe para mudar o diagrama se fosse muito difícil de reproduzir, mas para garantir que tudo estivesse alinhado e não sobreposto. A imagem do meio foi a saída--ainda pior. Iterar não ajudou (dando-lhe imagens, tentando diferentes prompts)--não tinha um modelo de como esses objetos deveriam ser orientados no espaço. Tentei o Gemini 3 Pro, em um slide diferente. Aqui estava a saída (à direita). Bem ruim. Tikz parece ser um bom benchmark para estudar como esses modelos evoluem ao longo do tempo.