Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Исследователи из Meta разработали новый подход RAG, который:
- превосходит LLaMA по 16 бенчмаркам RAG.
- имеет скорость до первого токена в 30,85 раз быстрее.
- обрабатывает контекстные окна в 16 раз больше.
- и использует на 2-4 раза меньше токенов.
Вот основная проблема с типичной настройкой RAG, которую решает Meta:
Большинство того, что мы извлекаем в настройках RAG, на самом деле не помогает LLM.
В классическом RAG, когда поступает запрос:
- Вы кодируете его в вектор.
- Извлекаете похожие фрагменты из векторной базы данных.
- Сбрасываете извлеченный контекст в LLM.
Это обычно работает, но с огромной ценой:
- Большинство фрагментов содержит нерелевантный текст.
- LLM приходится обрабатывать гораздо больше токенов.
- Вы платите за вычисления, задержку и контекст.
Это именно та проблема, которую решает новый метод REFRAG от Meta AI.
Он принципиально переосмысливает извлечение, и диаграмма ниже объясняет, как это работает.
По сути, вместо того чтобы подавать LLM каждый фрагмент и каждый токен, REFRAG сжимает и фильтрует контекст на уровне векторов:
- Сжатие фрагментов: Каждый фрагмент кодируется в одно сжатое встраивание, а не в сотни токенов....

Топ
Рейтинг
Избранное