Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Todo mundo está dormindo sobre esse novo artigo da AWS.
Um modelo 100x menor que o GPT e Claude os dominou na chamada de ferramentas.
Pesquisadores da AWS pegaram o OPT-350M do Facebook, um modelo de 2022 com 500 vezes menos parâmetros que o GPT, e o ajustaram no ToolBench para uma única época.
Os resultados são impressionantes:
↳ Seu SLM: taxa de aprovação de 77,55%
↳ ChatGPT-CoT: 26%
↳ ToolLLaMA: 30%
↳ Claude-CoT: 2,73%
Veja o que está acontecendo:
Modelos grandes sofrem com "diluição de parâmetros". A maior parte da capacidade deles é otimizada para tarefas gerais de linguagem, não para os padrões precisos de Pensamento-Ação-Ação de Entrada que a chamada de ferramenta precisa.
Um modelo pequeno treinado especificamente em chamada de ferramentas concentra toda a sua capacidade naquela única coisa. Sem distrações.
A configuração do treinamento era surpreendentemente simples. Abraços do Face TRL, exemplos de 187K, taxa de aprendizado de 5e-5 e clipping gradiente agressivo para estabilidade.
Mas quero deixar claro uma coisa:
Isso não significa que modelos pequenos ganhem em todos os lugares. Os autores reconhecem que seu modelo pode ter dificuldades com nuances contextuais complexas ou pedidos ambíguos. É um especialista, não um generalista.
Ainda assim, se você está construindo sistemas agenticos e quer reduzir custos de inferência em ordens de magnitude, isso vale a pena prestar atenção.
Compartilhei o link do artigo no próximo tweet.

Melhores
Classificação
Favoritos
