隨著模型的評估逐漸飽和,代理的「評估」將成為下一個重要領域。 由於其特定性/任務導向,獲取這些評估將變得更加困難。 德文在重構方面是否比安普更優秀?Codex在調試方面是否比Claude Code更好?
263