$A^3$-Bench Un nuevo estándar que evalúa mecanismos impulsados por la memoria en el razonamiento científico. Mide cómo los modelos activan "anclas" (fórmulas clave) y "atractores" (esquemas/ejemplos) durante la inferencia, yendo más allá de simplemente verificar respuestas finales.