Die meisten VLM-Benchmarks beobachten die Welt; wenige fragen, wie Handlungen *sie verändern* aus der Sicht eines Roboters. Embodied Cognition lehrt uns, dass Intelligenz nicht nur Beobachtung ist – sie wird durch Interaktion verwirklicht. 👉Wir stellen ENACT vor: Ein Benchmark, das testet, ob VLMs die Entwicklung einer haushaltsgroßen Umgebung aus der egozentrischen Sicht eines Roboters verfolgen können. 🌐 📄 1/N