A maioria dos benchmarks de VLM observa o mundo; Poucos perguntam como as ações *mudam* isso a partir do olho de um robô. A cognição incorporada nos diz que a inteligência não é apenas observar – ela é exercida por meio da interação. 👉Apresentamos o ENACT: um benchmark que testa se os VLMs conseguem acompanhar a evolução de um ambiente em escala doméstica a partir da visão egocêntrica de um robô. 🌐 📄 1/N