$A^3$-Bench Ett nytt riktmärke som utvärderar minnesdrivna mekanismer i vetenskapligt resonemang. Den mäter hur modeller aktiverar "ankare" (kärnformler) och "attraktorer" (scheman/exempel) under inferensen—och går bortom att bara kontrollera slutgiltiga svar.