tämä aliarvioi huomattavasti suorituskyvyn harppauksia GPT-4:n ja Opus 4.5:n välillä, ja miten nämä suorituskyvyn harppaukset "korjasivat" ongelmia, jotka pahentuivat kaikessa CoT:sta funktiokutsuihin