これはGPT-4とOpus 4.5の間の性能飛躍を大幅に過小評価しており、その飛躍がCoTから関数呼び出しに至るまで問題を「解決」したことを示しています