Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Все спят на этой новой статье от AWS.
Модель в 100 раз меньше, чем GPT и Claude, обошла их по вызову инструментов.
Исследователи AWS взяли модель Facebook OPT-350M, модель 2022 года с 500 раз меньшим количеством параметров, чем GPT, и дообучили её на ToolBench за одну эпоху.
Результаты впечатляют:
↳ Их SLM: 77.55% уровень прохождения
↳ ChatGPT-CoT: 26%
↳ ToolLLaMA: 30%
↳ Claude-CoT: 2.73%
Вот что происходит:
Большие модели страдают от "разбавления параметров". Большая часть их возможностей оптимизирована для общих языковых задач, а не для точных паттернов ввода "Мысль-Действие-Действие", которые нужны для вызова инструментов.
Маленькая модель, обученная специально для вызова инструментов, концентрирует все свои возможности на этой одной задаче. Никаких отвлечений.
Настройка обучения была удивительно простой. Hugging Face TRL, 187K примеров, скорость обучения 5e-5 и агрессивное обрезание градиентов для стабильности.
Но я хочу прояснить одну вещь:
Это не значит, что маленькие модели выигрывают везде. Авторы признают, что их модель может испытывать трудности с сложными контекстуальными нюансами или неоднозначными запросами. Это специалист, а не универсал.
Тем не менее, если вы строите агентные системы и хотите сократить затраты на вывод в несколько раз, на это стоит обратить внимание.
Я поделился ссылкой на статью в следующем твите.

Топ
Рейтинг
Избранное
