随着模型的评估逐渐饱和,代理的“评估”将成为下一个重要领域。 由于其特定性/任务导向,获取这些评估将变得更加困难。 德文在重构方面是否比安普更优秀?Codex在调试方面是否比Claude Code更好?
262