2025 er agentenes år, og nøkkelfunksjonen til agenter er å ringe verktøy. Når jeg bruker Claude Code, kan jeg be AI om å sile gjennom et nyhetsbrev, finne alle lenkene til startups, bekrefte at de finnes i CRM-en vår, med en enkelt kommando. Dette kan innebære at to eller tre forskjellige verktøy kalles. Men her er problemet: å bruke en stor fundamentmodell for dette er dyrt, ofte prisbegrenset og overmannet for en utvalgsoppgave. Hva er den beste måten å bygge et agentisk system med verktøykall? Svaret ligger i små handlingsmodeller. NVIDIA ga ut en overbevisende artikkel som argumenterte for at "Små språkmodeller (SLM-er) er tilstrekkelig kraftige, iboende mer egnet og nødvendigvis mer økonomiske for mange påkallelser i agentiske systemer." Jeg har testet forskjellige lokale modeller for å validere en kostnadsreduksjonsøvelse. Jeg startet med en Qwen3:30b-parametermodell, som fungerer, men som kan være ganske treg fordi det er en så stor modell, selv om bare 3 milliarder av de 30 milliarder parameterne er aktive til enhver tid. NVIDIA-dokumentet anbefaler Salesforce xLAM-modellen – en annen arkitektur kalt en stor handlingsmodell spesielt designet for verktøyvalg. Så jeg kjørte en egen test, hver modell kalte et verktøy for å liste opp Asana-oppgavene mine. Resultatene var slående: xLAM fullførte oppgaver på 2,61 sekunder med 100 % suksess, mens Qwen tok 9,82 sekunder med 92 % suksess – nesten fire ganger så lenge. Dette eksperimentet viser hastighetsøkningen, men det er en avveining: hvor mye intelligens som skal bo i modellen kontra i selve verktøyene. Denne begrensede Med større modeller som Qwen kan verktøy være enklere fordi modellen har bedre feiltoleranse og kan omgå dårlig utformede grensesnitt. Modellen kompenserer for verktøybegrensninger gjennom brute-force-resonnement. Med mindre modeller har modellen mindre kapasitet til å komme seg etter feil, så verktøyene må være mer robuste og seleksjonslogikken mer presis. Dette kan virke som en begrensning, men det er faktisk en funksjon. Denne begrensningen eliminerer sammensetningsfeilraten for LLM-kjedede verktøy. Når store modeller foretar sekvensielle verktøykall, akkumuleres feil eksponentielt. Små handlingsmodeller tvinger frem bedre systemdesign, beholder det beste fra LLM-er og kombinerer det med spesialiserte modeller. Denne arkitekturen er mer effektiv, raskere og mer forutsigbar.
5,13K