questo sottovaluta drasticamente i salti di prestazione tra GPT-4 e Opus 4.5, e come quei salti di prestazione abbiano "appiattito" problemi che si sarebbero accumulati in tutto, dal CoT alla chiamata di funzioni