Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Всі сплять на цій новій газеті від AWS.
Модель у 100 разів менша за GPT і Claude розгромила їх у виклику інструментів.
Дослідники AWS взяли модель Facebook OPT-350M, модель 2022 року з у 500 разів меншими параметрами, ніж GPT, і допрацювали її на ToolBench для однієї епохи.
Результати вражають:
↳ Їхній SLM: 77,55% відсоток складання
↳ ChatGPT-CoT: 26%
↳ ToolLLaMA: 30%
↳ Claude-CoT: 2,73%
Ось що відбувається:
Великі моделі страждають від «розведення параметрів». Більшість їхніх потужностей оптимізована для загальних мовних завдань, а не для точних шаблонів Думка-Дія-Дія, які потрібні для виклику інструментів.
Невелика модель, спеціально навчена виклику інструментів, зосереджує всі свої можливості саме на цій об'єкті. Жодних відволікань.
Тренування було дивовижно простим. Hugging Face TRL, 187 тис. прикладів, швидкість навчання 5e-5 та агресивне градієнтне обрізання для стабільності.
Але хочу прояснити дещо:
Це не означає, що маленькі моделі виграють скрізь. Автори визнають, що їхня модель може мати труднощі з складними контекстуальними нюансами або неоднозначними запитами. Це спеціаліст, а не універсал.
Проте, якщо ви створюєте агентні системи і хочете знизити витрати на виведення в рази, це варто звернути увагу.
Я поділився посиланням на статтю в наступному твіті.

Найкращі
Рейтинг
Вибране
