dette undervurderer kraftig ytelseshoppene mellom GPT-4 og Opus 4.5, og hvordan disse ytelseshoppene «løste» problemer som kunne forsterke alt fra CoT til funksjonskall