Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Avi Chawla

Щоденні навчальні посібники та інсайти про DS, ML, LLM та RAGs • Співзасновник @dailydoseofds_ • IIT Варанасі • колишній інженер зі штучного інтелекту @ MastercardAI

Дослідники з Meta розробили новий підхід RAG, який: - перевершує LLaMA за 16 бенчмарками RAG. - має в 30,85 разів швидший час до першого токена. - обробляє контекстні вікна в 16 разів більші. - І він використовує в 2-4 рази менше токенів. Ось основна проблема типового налаштування RAG, яку вирішує Meta: Більшість з того, що ми отримуємо в налаштуваннях RAG, насправді ніколи не допомагає LLM. У класичному RAG, коли надходить запит: - Ви кодуєте його у вектор. - Отримання подібних фрагментів з векторної бази даних. - Скиньте отриманий контекст у LLM. Зазвичай це працює, але з величезною вартістю: - Більшість фрагментів містять нерелевантний текст. - LLM має обробляти набагато більше токенів. - Ви платите за обчислення, затримку та контекст. Саме таку проблему вирішує новий метод Meta AI REFRAG. Він фундаментально переосмислює пошук, і діаграма нижче пояснює, як це працює. По суті, замість того, щоб згодовувати LLM кожен фрагмент і кожен токен, REFRAG стискає і фільтрує контекст на векторному рівні: - Стиснення фрагментів: Кожен фрагмент кодується в одне стиснене вбудовування, а не в сотні вбудовувань токенів. - Політика відповідності: Легка політика, навчена RL, оцінює стиснені вбудовування та зберігає лише найбільш релевантні фрагменти. - Вибіркове розширення: лише фрагменти, вибрані політикою RL, розгортаються назад у їхні повні вкладення та передаються до LLM. Таким чином, модель обробляє лише те, що має значення, і ігнорує решту. Ось покрокова інструкція: - Крок 1-2) Закодуйте документи та збережіть їх у векторній базі даних. - Крок 3-5) Закодуйте повний запит користувача та знайдіть відповідні фрагменти. Крім того, обчисліть вбудовування на рівні токена як для запиту (крок 7), так і для відповідних фрагментів. - Крок 6) Використовуйте політику відповідності (навчену через RL), щоб вибрати фрагменти для збереження. - Крок 8) Об'єднайте представлення вхідного запиту на рівні токена з вбудовуванням вибраних фрагментів на рівні токена та стисненим одновекторним представленням відхилених фрагментів. - Крок 9-10) Надішліть все це в LLM. Крок RL робить REFRAG більш релевантним пайплайном RAG. Виходячи з наукової роботи, такий підхід: - має в 30,85 рази швидший токен часу до першого токена (у 3,75 рази краще, ніж попередній токен SOTA) - забезпечує в 16 разів більші контекстні вікна - перевершує LLaMA на 16 тестах RAG, використовуючи в 2–4 рази менше токенів декодера. - не призводить до втрати точності в завданнях RAG, узагальнення та багатоходової розмови Це означає, що ви можете обробляти в 16 разів більше контексту зі швидкістю в 30 разів швидше, з тією ж точністю. Код ще не оприлюднила компанія Meta. Вони мають намір зробити це найближчим часом.

Найкращі

Рейтинг

Вибране