Todo el mundo está ignorando este nuevo documento de AWS. Un modelo 100 veces más pequeño que GPT y Claude los superó en la llamada a herramientas. Los investigadores de AWS tomaron el OPT-350M de Facebook, un modelo de 2022 con 500 veces menos parámetros que GPT, y lo ajustaron en ToolBench durante una sola época. Los resultados son sorprendentes: ↳ Su SLM: 77.55% de tasa de aprobación ↳ ChatGPT-CoT: 26% ↳ ToolLLaMA: 30% ↳ Claude-CoT: 2.73% Esto es lo que está sucediendo: Los modelos grandes sufren de "dilución de parámetros." La mayor parte de su capacidad está optimizada para tareas de lenguaje general, no para los patrones de Entrada Pensamiento-Acción-Acción precisos que necesita la llamada a herramientas. Un modelo pequeño entrenado específicamente en la llamada a herramientas concentra toda su capacidad en eso. Sin distracciones. La configuración de entrenamiento fue sorprendentemente simple. Hugging Face TRL, 187K ejemplos, tasa de aprendizaje de 5e-5 y recorte de gradiente agresivo para estabilidad. Pero quiero dejar claro algo: Esto no significa que los modelos pequeños ganen en todas partes. Los autores reconocen que su modelo puede tener dificultades con matices contextuales complejos o solicitudes ambiguas. Es un especialista, no un generalista. Aun así, si estás construyendo sistemas agentes y quieres reducir los costos de inferencia en órdenes de magnitud, esto merece la pena prestar atención. He compartido el enlace al documento en el siguiente tweet.