Дослідники з Meta розробили новий підхід RAG, який: - перевершує LLaMA за 16 бенчмарками RAG. - має в 30,85 разів швидший час до першого токена. - обробляє контекстні вікна в 16 разів більші. - І він використовує в 2-4 рази менше токенів. Ось основна проблема типового налаштування RAG, яку вирішує Meta: Більшість з того, що ми отримуємо в налаштуваннях RAG, насправді ніколи не допомагає LLM. У класичному RAG, коли надходить запит: - Ви кодуєте його у вектор. - Отримання подібних фрагментів з векторної бази даних. - Скиньте отриманий контекст у LLM. Зазвичай це працює, але з величезною вартістю: - Більшість фрагментів містять нерелевантний текст. - LLM має обробляти набагато більше токенів. - Ви платите за обчислення, затримку та контекст. Саме таку проблему вирішує новий метод Meta AI REFRAG. Він фундаментально переосмислює пошук, і діаграма нижче пояснює, як це працює. По суті, замість того, щоб згодовувати LLM кожен фрагмент і кожен токен, REFRAG стискає і фільтрує контекст на векторному рівні: - Стиснення фрагментів: Кожен фрагмент кодується в одне стиснене вбудовування, а не в сотні вбудовувань токенів....