Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kaikki nukkuvat tämän AWS:n uuden artikkelin äärellä.
Malli, joka oli 100 kertaa pienempi kuin GPT, ja Claude murskasi heidät työkalujen kutsumisessa.
AWS:n tutkijat ottivat Facebookin OPT-350M:n, vuoden 2022 mallin, jossa on 500 kertaa vähemmän parametreja kuin GPT:llä, ja hienosäätivät sitä ToolBenchillä yhdelle aikakaudelle.
Tulokset ovat hurjia:
↳ Heidän SLM:nsä: 77,55 % läpäisyprosentti
↳ ChatGPT-CoT: 26%
↳ ToolLLaMA: 30%
↳ Claude-CoT: 2,73%
Tässä mitä tapahtuu:
Suuret mallit kärsivät "parametrien laimenemisesta". Suurin osa niiden kapasiteetista on optimoitu yleisiin kielitehtäviin, ei niihin tarkkoihin Ajatus-Toiminta-Toiminto-Syötekuvioihin, joita työkalukutsut tarvitsevat.
Pieni malli, joka on koulutettu erityisesti työkalujen kutsumiseen, keskittyy täysin siihen yhteen asiaan. Ei häiriötekijöitä.
Harjoitusjärjestely oli yllättävän yksinkertainen. Hugging Face TRL, 187K esimerkkiä, oppimisnopeus 5e–5 ja aggressiivinen gradientin leikkaaminen vakauden takaamiseksi.
Mutta haluan tehdä yhden asian selväksi:
Tämä ei tarkoita, että pienet mallit voittaisivat kaikkialla. Kirjoittajat myöntävät, että heidän mallinsa saattaa kamppailla monimutkaisten kontekstuaalisten vivahteiden tai epäselvien pyyntöjen kanssa. Se on asiantuntija, ei yleismies.
Silti, jos rakennat agenttisia järjestelmiä ja haluat leikata päättelykustannuksia moninkertaisesti, tähän kannattaa kiinnittää huomiota.
Olen jakanut linkin lehteen seuraavassa twiitissä.

Johtavat
Rankkaus
Suosikit
