En mi opinión, SWE-bench y T-bench son los pocos puntos de referencia que tienen una buena señal en términos de cuánto progreso hacemos con los modelos. Este modelo funciona tan bien como Qwen3 Coder y es solo un 10% peor que GPT-5, además de ser un LLM de propósito general en lugar de un código especializado.
Z.ai
Z.ai11 ago, 11:43
¡Presentamos el informe técnico del GLM-4.5! 👇 Este trabajo demuestra cómo desarrollamos modelos que sobresalen en el razonamiento, la codificación y las tareas agenciales a través de un paradigma de entrenamiento único de múltiples etapas. Las innovaciones clave incluyen la iteración de modelos expertos con autodestilación para unificar capacidades, un modo de razonamiento híbrido para la resolución dinámica de problemas y un plan de estudios de aprendizaje por refuerzo basado en la dificultad.
28.54K