モデルの評価が飽和状態になると、エージェントの「評価」が重要なことの次のフロンティアになります 非常に具体的/タスクベースであるため、調達も難しくなります DevinはリファクタリングでAmpよりも優れていますか?CodexはデバッグにClaude Codeよりも優れていますか?
265