Majoritatea benchmark-urilor VLM urmăresc lumea; Puțini se întreabă cum acțiunile *schimbă* acest lucru față de ochiul unui robot. Cogniția întrupată ne spune că inteligența nu este doar a privi – ci se manifestă prin interacțiune. 👉Introducem ENACT: Un benchmark care testează dacă VLM-urile pot urmări evoluția unui mediu la scară domestică din perspectiva egocentrică a unui robot. 🌐 📄 1/N