Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

汉松

Разработка приложений для крупных заводов и больших моделей | Адвент ИИ | Обучение на протяжении всей жизни | Вкус — это все, что вам нужно

В четвертой статье о реализации vLLM с нуля мы обратим внимание на еще один, казалось бы, простой, но крайне важный компонент архитектуры Transformer: RMSNorm (нормализация по среднему квадрату). Сначала давайте посмотрим, что такое нормализация. Предположим, вы только что сдали финальные экзамены, и результаты по трем предметам вышли: Математика: 120 баллов (максимум 150) Английский: 80 баллов (максимум 100) Физика: 160 баллов (максимум 200) Какой предмет вы сдали лучше всего? Если вы просто сравните 120, 80 и 160, вы придете к выводу, что физика лучше всего. Но на самом деле: все три предмета сданы одинаково хорошо. Математика: 120/150 = 80% Английский: 80/100 = 80% Физика: 160/200 = 80% Это и есть основная идея нормализации: преобразовать данные с разными единицами измерения и диапазонами в единый стандарт для сравнения. Почему нейронным сетям нужна нормализация? Представьте, что вы играете в игру "испорченный телефон". Первый человек говорит "Мне нравятся яблоки", а к десятому человеку это превращается в "Мне нравятся ананасы". Это и есть проблема, с которой сталкиваются глубокие нейронные сети. Каждый слой сети выполняет некоторые вычисления над входными данными, а затем передает результат следующему слою. Проблема в том, что с увеличением количества слоев эти значения становятся все более неконтролируемыми — либо они взрываются, либо исчезают без следа. Как в игре "испорченный телефон", информация постепенно искажается в процессе передачи. Добавление слоя нормализации в модель может снизить вероятность взрыва или исчезновения градиента, что делает процесс обучения модели более стабильным. Нормализационные технологии сначала эволюционировали от BatchNorm к LayerNorm, а затем до RMSNorm, став стандартом для больших моделей. В моей статье я проведу вас через историю эволюции нормализационных технологий, заинтересованные могут ознакомиться с оригиналом.

Навыки агента Claude по сути представляют собой "разгрузку контекста", перемещая громоздкую информацию о навыках за пределы контекста и загружая по мере необходимости. Забавно, что недавно Manus также поделился некоторыми приемами "разгрузки контекста". У Manus есть много инструментов, но он не сообщает модели полные определения этих инструментов. Так как же она знает, какие инструменты доступны и как их вызывать? Представьте, что у вас есть новый компьютер, как вы узнаете, какие инструменты доступны? Обычный пользователь откроет список приложений, а программист выполнит `ls /usr/bin`, чтобы посмотреть, какие команды доступны. Аналогично, решение Manus заключается в том, чтобы в системном подсказке сообщить модели, что в определенной папке есть множество предустановленных утилит командной строки. Наиболее часто используемые инструменты (ls, grep, cat, less, more и т.д.) по умолчанию встроены в системную подсказку. Не нужно объяснять модели, как использовать эти инструменты, достаточно просто перечислить их названия и сказать, что можно использовать параметр --help, чтобы узнать, как ими пользоваться. Самое замечательное, что эти модели shell-операций уже обучены, поэтому их обобщающая способность очень высока, и чтобы добавить новый инструмент, достаточно просто положить команду в папку. Я обнаружил, что Manus действительно полностью придерживается философии Unix: KISS (Keep It Simple, Stupid).

Топ

Рейтинг

Избранное