Ketika eval untuk model menjadi jenuh, "eval" untuk agen akan menjadi perbatasan berikutnya dari apa yang penting Akan lebih sulit untuk dibeli juga karena sangat spesifik / berbasis tugas Apakah Devin lebih baik daripada Amp dalam pemfaktoran ulang? Apakah Codex lebih baik daripada Claude Code untuk debugging?
253