Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tutti stanno sottovalutando questo nuovo documento di AWS.
Un modello 100 volte più piccolo di GPT e Claude li ha schiacciati nel richiamo degli strumenti.
I ricercatori di AWS hanno preso l'OPT-350M di Facebook, un modello del 2022 con 500 volte meno parametri di GPT, e lo hanno affinato su ToolBench per un singolo epoch.
I risultati sono sorprendenti:
↳ Il loro SLM: 77,55% di tasso di successo
↳ ChatGPT-CoT: 26%
↳ ToolLLaMA: 30%
↳ Claude-CoT: 2,73%
Ecco cosa sta succedendo:
I modelli grandi soffrono di "diluzione dei parametri." La maggior parte della loro capacità è ottimizzata per compiti linguistici generali, non per i precisi schemi di Input Pensiero-Azione-Azione che richiede il richiamo degli strumenti.
Un modello piccolo addestrato specificamente per il richiamo degli strumenti concentra tutta la sua capacità su quella sola cosa. Nessuna distrazione.
L'impostazione dell'addestramento era sorprendentemente semplice. Hugging Face TRL, 187K esempi, tasso di apprendimento di 5e-5 e clipping aggressivo del gradiente per stabilità.
Ma voglio essere chiaro su una cosa:
Questo non significa che i modelli piccoli vincano ovunque. Gli autori riconoscono che il loro modello potrebbe avere difficoltà con sfumature contestuali complesse o richieste ambigue. È uno specialista, non un generalista.
Tuttavia, se stai costruendo sistemi agentici e vuoi ridurre i costi di inferenza di ordini di grandezza, questo merita attenzione.
Ho condiviso il link al documento nel tweet successivo.

Principali
Ranking
Preferiti
