$A^3$-Bench
Un nouveau benchmark qui évalue les mécanismes basés sur la mémoire dans le raisonnement scientifique. Il mesure comment les modèles activent des "ancres" (formules clés) et des "attracteurs" (schémas/exemples) lors de l'inférence, allant au-delà de la simple vérification des réponses finales.
Meta vient de publier le benchmark MapAnything sur Hugging Face
Évaluation universelle de la reconstruction 3D à travers des tâches de stéréo multi-vues, de profondeur et de pose de caméra. Évaluez les modèles feed-forward sur des scènes réelles diversifiées avec des métriques standardisées.