$A^3$-Bench 一個新的基準,評估科學推理中的記憶驅動機制。它測量模型在推理過程中如何激活「錨點」(核心公式)和「吸引子」(範本/例子)—超越僅僅檢查最終答案。