S tím, jak se hodnocení modelů stávají nasycenými, se "hodnocení" pro agenty stane další hranicí toho, na čem záleží Bude také těžší ji získat, protože je to tak specifické/založené na úkolu Je Devin při refaktoringu lepší než Amp? Je Codex lepší než Claude Code pro ladění?
252