在我看来,SWE-bench 和 T-bench 是少数几个在我们模型进展方面有良好信号的基准。这款模型的表现与 Qwen3 Coder 相当,仅比 GPT-5 差 10%,同时它还是一款通用的 LLM,而不是专门针对代码的。
Z.ai
Z.ai8月11日 11:43
呈现 GLM-4.5 技术报告!👇 这项工作展示了我们如何通过独特的多阶段训练范式开发出在推理、编码和代理任务方面表现出色的模型。 关键创新包括通过自我蒸馏进行专家模型迭代以统一能力、用于动态问题解决的混合推理模式,以及基于难度的强化学习课程。
28.53K