Etter mitt syn er SWE-bench og T-bench de få benchmarkene som har et godt signal når det gjelder hvor mye fremgang vi gjør med modeller. Denne modellen yter like bra som Qwen3-koder og er bare 10 % dårligere enn GPT-5, samtidig som den er en generell LLM i stedet for kodespesialisert.
Z.ai
Z.ai11. aug., 11:43
Presenterer den tekniske rapporten for GLM-4.5! 👇 Dette arbeidet viser hvordan vi utviklet modeller som utmerker seg ved resonnement, koding og agentiske oppgaver gjennom et unikt treningsparadigme i flere trinn. Viktige innovasjoner inkluderer iterasjon av ekspertmodeller med selvdestillasjon for å forene evner, en hybrid resonneringsmodus for dynamisk problemløsning og en vanskelighetsbasert læreplan for forsterkende læring.
28,14K