Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Todos están vigilando este nuevo artículo de AWS.
Un modelo 100 veces más pequeño que GPT y Claude les destrozó en la llamada de herramientas.
Investigadores de AWS tomaron el OPT-350M de Facebook, un modelo de 2022 con 500 veces menos parámetros que GPT, y lo ajustaron en ToolBench para una sola época.
Los resultados son sorprendentes:
↳ Su SLM: tasa de aprobados del 77,55%
↳ ChatGPT-CoT: 26%
↳ ToolLLaMA: 30%
↳ Claude-CoT: 2,73%
Esto es lo que está pasando:
Los modelos grandes sufren de "dilución de parámetros". La mayor parte de su capacidad está optimizada para tareas generales de lenguaje, no para los patrones precisos de Pensamiento-Acción-Acción de Entrada que necesita la llamada de herramienta.
Un modelo pequeño entrenado específicamente en llamada de herramientas concentra toda su capacidad en esa única cosa. Sin distracciones.
La configuración del entrenamiento era sorprendentemente sencilla. Ejemplos de Face Abrazado TRL, 187K, tasa de aprendizaje de 5e-5 y recorte de gradiente agresivo para mayor estabilidad.
Pero quiero dejar claro algo:
Esto no significa que los modelos pequeños ganen en todas partes. Los autores reconocen que su modelo puede tener dificultades con matices contextuales complejos o peticiones ambiguas. Es un especialista, no un generalista.
Aun así, si estás construyendo sistemas agenticos y quieres reducir los costes de inferencia en órdenes de magnitud, merece la pena prestar atención a esto.
He compartido el enlace al artículo en el próximo tuit.

Populares
Ranking
Favoritas
