Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Iedereen slaapt op dit nieuwe paper van AWS.
Een model dat 100x kleiner is dan GPT en Claude heeft hen verslagen op tool calling.
AWS-onderzoekers hebben Facebook's OPT-350M genomen, een model uit 2022 met 500x minder parameters dan GPT, en het fijn afgestemd op ToolBench voor een enkele epoch.
De resultaten zijn wild:
↳ Hun SLM: 77,55% slaagpercentage
↳ ChatGPT-CoT: 26%
↳ ToolLLaMA: 30%
↳ Claude-CoT: 2,73%
Dit is wat er aan de hand is:
Grote modellen lijden onder "parameterverdunning." Het grootste deel van hun capaciteit is geoptimaliseerd voor algemene taal taken, niet de precieze Thought-Action-Action Input patronen die tool calling nodig heeft.
Een klein model dat specifiek is getraind op tool calling concentreert al zijn capaciteit op dat ene ding. Geen afleidingen.
De trainingsopstelling was verrassend eenvoudig. Hugging Face TRL, 187K voorbeelden, leersnelheid van 5e-5, en agressieve gradient clipping voor stabiliteit.
Maar ik wil iets duidelijk maken:
Dit betekent niet dat kleine modellen overal winnen. De auteurs erkennen dat hun model moeite kan hebben met complexe contextuele nuances of ambiguïteit in verzoeken. Het is een specialist, geen generalist.
Toch, als je agentische systemen bouwt en de inferentiekosten met een paar orde van grootte wilt verlagen, is dit het waard om op te letten.
Ik heb de link naar het paper in de volgende tweet gedeeld.

Boven
Positie
Favorieten
