Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Todo el mundo está ignorando este nuevo documento de AWS.
Un modelo 100 veces más pequeño que GPT y Claude los superó en la llamada a herramientas.
Los investigadores de AWS tomaron el OPT-350M de Facebook, un modelo de 2022 con 500 veces menos parámetros que GPT, y lo ajustaron en ToolBench durante una sola época.
Los resultados son sorprendentes:
↳ Su SLM: 77.55% de tasa de aprobación
↳ ChatGPT-CoT: 26%
↳ ToolLLaMA: 30%
↳ Claude-CoT: 2.73%
Esto es lo que está sucediendo:
Los modelos grandes sufren de "dilución de parámetros." La mayor parte de su capacidad está optimizada para tareas de lenguaje general, no para los patrones de Entrada Pensamiento-Acción-Acción precisos que necesita la llamada a herramientas.
Un modelo pequeño entrenado específicamente en la llamada a herramientas concentra toda su capacidad en eso. Sin distracciones.
La configuración de entrenamiento fue sorprendentemente simple. Hugging Face TRL, 187K ejemplos, tasa de aprendizaje de 5e-5 y recorte de gradiente agresivo para estabilidad.
Pero quiero dejar claro algo:
Esto no significa que los modelos pequeños ganen en todas partes. Los autores reconocen que su modelo puede tener dificultades con matices contextuales complejos o solicitudes ambiguas. Es un especialista, no un generalista.
Aun así, si estás construyendo sistemas agentes y quieres reducir los costos de inferencia en órdenes de magnitud, esto merece la pena prestar atención.
He compartido el enlace al documento en el siguiente tweet.

Parte superior
Clasificación
Favoritos
