A mio avviso, SWE-bench e T-bench sono i pochi benchmark che hanno un buon segnale in termini di quanto progresso facciamo con i modelli. Questo modello si comporta altrettanto bene quanto Qwen3 Coder ed è solo il 10% peggiore di GPT-5, pur essendo un LLM di uso generale piuttosto che specializzato nel codice.
Z.ai
Z.ai11 ago, 11:43
Presentazione del rapporto tecnico GLM-4.5!👇 Questo lavoro dimostra come abbiamo sviluppato modelli che eccellono nel ragionamento, nella codifica e nei compiti agentici attraverso un paradigma di formazione unico e multi-fase. Le principali innovazioni includono l'iterazione del modello esperto con auto-distillazione per unificare le capacità, una modalità di ragionamento ibrida per la risoluzione dinamica dei problemi e un curriculum di apprendimento rinforzato basato sulla difficoltà.
28,15K