2025 är agenternas år, och agenternas viktigaste förmåga är att ringa verktyg. När jag använder Claude Code kan jag be AI:n att sålla igenom ett nyhetsbrev, hitta alla länkar till nystartade företag, verifiera att de finns i vårt CRM, med ett enda kommando. Det kan handla om att två eller tre olika verktyg anropas. Men här är problemet: att använda en stor grundmodell för detta är dyrt, ofta hastighetsbegränsat och överdrivet för en urvalsuppgift. Vad är det bästa sättet att bygga ett agentiskt system med verktygsanrop? Svaret ligger i små handlingsmodeller. NVIDIA släppte en övertygande artikel där de hävdade att "Små språkmodeller (SLM) är tillräckligt kraftfulla, i sig mer lämpliga och nödvändigtvis mer ekonomiska för många anrop i agentiska system." Jag har testat olika lokala modeller för att validera en kostnadsminskningsövning. Jag började med en Qwen3:30b parametermodell, som fungerar men kan vara ganska långsam eftersom det är en så stor modell, trots att bara 3 miljarder av dessa 30 miljarder parametrar är aktiva samtidigt. NVIDIA-rapporten rekommenderar Salesforce xLAM-modellen – en annan arkitektur som kallas en stor åtgärdsmodell som är särskilt utformad för verktygsval. Så jag körde ett eget test, där varje modell anropade ett verktyg för att lista mina Asana-uppgifter. Resultaten var slående: xLAM slutförde uppgifter på 2,61 sekunder med 100 % framgång, medan Qwen tog 9,82 sekunder med 92 % framgång – nästan fyra gånger så lång tid. Det här experimentet visar hastighetsvinsten, men det finns en kompromiss: hur mycket intelligens som ska finnas i modellen jämfört med i själva verktygen. Denna begränsade Med större modeller som Qwen kan verktygen vara enklare eftersom modellen har bättre feltolerans och kan kringgå dåligt utformade gränssnitt. Modellen kompenserar för verktygsbegränsningar genom brute-force-resonemang. Med mindre modeller har modellen mindre kapacitet att återhämta sig från misstag, så verktygen måste vara mer robusta och urvalslogiken mer exakt. Detta kan tyckas vara en begränsning, men det är faktiskt en funktion. Denna begränsning eliminerar den sammansatta felfrekvensen för LLM-länkade verktyg. När stora modeller gör sekventiella verktygsanrop ackumuleras fel exponentiellt. Små actionmodeller tvingar fram bättre systemdesign, behåller det bästa av LLM:er och kombinerar det med specialiserade modeller. Den här arkitekturen är effektivare, snabbare och mer förutsägbar.
5,17K