Todo mundo está dormindo sobre esse novo artigo da AWS. Um modelo 100x menor que o GPT e Claude os dominou na chamada de ferramentas. Pesquisadores da AWS pegaram o OPT-350M do Facebook, um modelo de 2022 com 500 vezes menos parâmetros que o GPT, e o ajustaram no ToolBench para uma única época. Os resultados são impressionantes: ↳ Seu SLM: taxa de aprovação de 77,55% ↳ ChatGPT-CoT: 26% ↳ ToolLLaMA: 30% ↳ Claude-CoT: 2,73% Veja o que está acontecendo: Modelos grandes sofrem com "diluição de parâmetros". A maior parte da capacidade deles é otimizada para tarefas gerais de linguagem, não para os padrões precisos de Pensamento-Ação-Ação de Entrada que a chamada de ferramenta precisa. Um modelo pequeno treinado especificamente em chamada de ferramentas concentra toda a sua capacidade naquela única coisa. Sem distrações. A configuração do treinamento era surpreendentemente simples. Abraços do Face TRL, exemplos de 187K, taxa de aprendizado de 5e-5 e clipping gradiente agressivo para estabilidade. Mas quero deixar claro uma coisa: Isso não significa que modelos pequenos ganhem em todos os lugares. Os autores reconhecem que seu modelo pode ter dificuldades com nuances contextuais complexas ou pedidos ambíguos. É um especialista, não um generalista. Ainda assim, se você está construindo sistemas agenticos e quer reduzir custos de inferência em ordens de magnitude, isso vale a pena prestar atenção. Compartilhei o link do artigo no próximo tweet.