Moim zdaniem, SWE-bench i T-bench to nieliczne benchmarki, które mają dobry sygnał w kwestii postępów, jakie osiągamy z modelami. Ten model działa tak samo dobrze jak Qwen3 Coder i jest tylko o 10% gorszy od GPT-5, będąc jednocześnie modelem ogólnego przeznaczenia, a nie specjalizowanym w kodzie.
Z.ai
Z.ai11 sie, 11:43
Prezentujemy raport techniczny GLM-4.5!👇 Ta praca pokazuje, jak opracowaliśmy modele, które doskonale radzą sobie z rozumowaniem, kodowaniem i zadaniami agentowymi dzięki unikalnemu, wieloetapowemu paradygmatowi szkoleniowemu. Kluczowe innowacje obejmują iterację modeli eksperckich z samodystylacją w celu zjednoczenia możliwości, hybrydowy tryb rozumowania do dynamicznego rozwiązywania problemów oraz program nauczania oparty na trudności w uczeniu przez wzmocnienie.
28,64K