Man mano che le valutazioni per i modelli diventano sature, le "valutazioni" per gli agenti diventeranno la prossima frontiera di ciò che conta. Sarà anche più difficile procurarle poiché sono così specifiche e basate su compiti. Devin è migliore di Amp nel refactoring? Codex è migliore di Claude Code per il debugging?
254