Kun mallien evalit kyllästyvät, agenttien "evaleista" tulee seuraava raja sille, mikä on tärkeää On myös vaikeampi hankkia, koska se on niin spesifinen/tehtäväpohjainen Onko Devin parempi kuin Amp refaktoroinnissa? Onko Codex parempi kuin Claude Code virheenkorjaukseen?