En mi opinión, SWE-bench y T-bench son los pocos benchmarks que tienen una buena señal en términos de cuánto progreso hacemos con los modelos. Este modelo funciona tan bien como Qwen3 Coder y es solo un 10% peor que GPT-5, mientras que también es un LLM de propósito general en lugar de especializado en código.
Z.ai
Z.ai11 ago, 11:43
¡Presentando el informe técnico GLM-4.5!👇 Este trabajo demuestra cómo desarrollamos modelos que sobresalen en razonamiento, codificación y tareas agenciales a través de un paradigma de entrenamiento único y en múltiples etapas. Las innovaciones clave incluyen la iteración de modelos expertos con auto-destilación para unificar capacidades, un modo de razonamiento híbrido para la resolución dinámica de problemas y un currículo de aprendizaje por refuerzo basado en la dificultad.
28,66K