Podle mého názoru jsou SWE-bench a T-bench několik benchmarků, které mají dobrý signál, pokud jde o to, jak velký pokrok s modely děláme. Tento model funguje stejně dobře jako Qwen3 Coder a je pouze o 10 % horší než GPT-5, přičemž je také spíše univerzálním LLM než specializovaným na kód.
Z.ai
Z.ai11. 8. 11:43
Představujeme technickou zprávu GLM-4.5! 👇 Tato práce ukazuje, jak jsme vyvinuli modely, které vynikají v uvažování, kódování a agentních úlohách prostřednictvím jedinečného, vícestupňového trénovacího paradigmatu. Mezi klíčové inovace patří iterace expertního modelu se samodestilací pro sjednocení schopností, hybridní režim uvažování pro dynamické řešení problémů a učební plán zpětnovazebního učení založený na obtížnosti.
28,14K