$A^3$-Bench Một tiêu chuẩn mới đánh giá các cơ chế dựa trên bộ nhớ trong lý luận khoa học. Nó đo lường cách mà các mô hình kích hoạt "neo" (công thức cốt lõi) và "điểm thu hút" (mô hình/ ví dụ) trong quá trình suy diễn—vượt ra ngoài việc chỉ kiểm tra các câu trả lời cuối cùng.