Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A mio avviso, SWE-bench e T-bench sono i pochi benchmark che hanno un buon segnale in termini di quanto progresso facciamo con i modelli. Questo modello si comporta altrettanto bene quanto Qwen3 Coder ed è solo il 10% peggiore di GPT-5, pur essendo un LLM di uso generale piuttosto che specializzato nel codice.

11 ago, 11:43
Presentazione del rapporto tecnico GLM-4.5!👇
Questo lavoro dimostra come abbiamo sviluppato modelli che eccellono nel ragionamento, nella codifica e nei compiti agentici attraverso un paradigma di formazione unico e multi-fase.
Le principali innovazioni includono l'iterazione del modello esperto con auto-distillazione per unificare le capacità, una modalità di ragionamento ibrida per la risoluzione dinamica dei problemi e un curriculum di apprendimento rinforzato basato sulla difficoltà.

28,15K
Principali
Ranking
Preferiti