$A^3$-Bench Un nouveau benchmark qui évalue les mécanismes basés sur la mémoire dans le raisonnement scientifique. Il mesure comment les modèles activent des "ancres" (formules clés) et des "attracteurs" (schémas/exemples) lors de l'inférence, allant au-delà de la simple vérification des réponses finales.