Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Moim zdaniem, SWE-bench i T-bench to nieliczne benchmarki, które mają dobry sygnał w kwestii postępów, jakie osiągamy z modelami. Ten model działa tak samo dobrze jak Qwen3 Coder i jest tylko o 10% gorszy od GPT-5, będąc jednocześnie modelem ogólnego przeznaczenia, a nie specjalizowanym w kodzie.

11 sie, 11:43
Prezentujemy raport techniczny GLM-4.5!👇
Ta praca pokazuje, jak opracowaliśmy modele, które doskonale radzą sobie z rozumowaniem, kodowaniem i zadaniami agentowymi dzięki unikalnemu, wieloetapowemu paradygmatowi szkoleniowemu.
Kluczowe innowacje obejmują iterację modeli eksperckich z samodystylacją w celu zjednoczenia możliwości, hybrydowy tryb rozumowania do dynamicznego rozwiązywania problemów oraz program nauczania oparty na trudności w uczeniu przez wzmocnienie.

28,64K
Najlepsze
Ranking
Ulubione