Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
En mi opinión, SWE-bench y T-bench son los pocos puntos de referencia que tienen una buena señal en términos de cuánto progreso hacemos con los modelos. Este modelo funciona tan bien como Qwen3 Coder y es solo un 10% peor que GPT-5, además de ser un LLM de propósito general en lugar de un código especializado.

11 ago, 11:43
¡Presentamos el informe técnico del GLM-4.5! 👇
Este trabajo demuestra cómo desarrollamos modelos que sobresalen en el razonamiento, la codificación y las tareas agenciales a través de un paradigma de entrenamiento único de múltiples etapas.
Las innovaciones clave incluyen la iteración de modelos expertos con autodestilación para unificar capacidades, un modo de razonamiento híbrido para la resolución dinámica de problemas y un plan de estudios de aprendizaje por refuerzo basado en la dificultad.

28.54K
Populares
Ranking
Favoritas