Исследователи из Meta разработали новый подход RAG, который: - превосходит LLaMA по 16 бенчмаркам RAG. - имеет скорость до первого токена в 30,85 раз быстрее. - обрабатывает контекстные окна в 16 раз больше. - и использует на 2-4 раза меньше токенов. Вот основная проблема с типичной настройкой RAG, которую решает Meta: Большинство того, что мы извлекаем в настройках RAG, на самом деле не помогает LLM. В классическом RAG, когда поступает запрос: - Вы кодируете его в вектор. - Извлекаете похожие фрагменты из векторной базы данных. - Сбрасываете извлеченный контекст в LLM. Это обычно работает, но с огромной ценой: - Большинство фрагментов содержит нерелевантный текст. - LLM приходится обрабатывать гораздо больше токенов. - Вы платите за вычисления, задержку и контекст. Это именно та проблема, которую решает новый метод REFRAG от Meta AI. Он принципиально переосмысливает извлечение, и диаграмма ниже объясняет, как это работает. По сути, вместо того чтобы подавать LLM каждый фрагмент и каждый токен, REFRAG сжимает и фильтрует контекст на уровне векторов: - Сжатие фрагментов: Каждый фрагмент кодируется в одно сжатое встраивание, а не в сотни токенов....