Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Avi Chawla
Щоденні навчальні посібники та інсайти про DS, ML, LLM та RAGs • Співзасновник @dailydoseofds_ • IIT Варанасі • колишній інженер зі штучного інтелекту @ MastercardAI
Це не повинно бути можливим!
Ви можете очистити будь-який набір даних ML всього за три рядки коду. Позначайте викиди, знаходьте помилки на етикетках тощо:
- Будь-які дані (табличні, текстові, графічні тощо)
- Будь-яке завдання (класифікація, розпізнавання сутностей і т.д.)
100% відкритий вихідний код, створений дослідниками Массачусетського технологічного інституту.

1,04K
Дослідники з Meta розробили новий підхід RAG, який:
- перевершує LLaMA за 16 бенчмарками RAG.
- має в 30,85 разів швидший час до першого токена.
- обробляє контекстні вікна в 16 разів більші.
- І він використовує в 2-4 рази менше токенів.
Ось основна проблема типового налаштування RAG, яку вирішує Meta:
Більшість з того, що ми отримуємо в налаштуваннях RAG, насправді ніколи не допомагає LLM.
У класичному RAG, коли надходить запит:
- Ви кодуєте його у вектор.
- Отримання подібних фрагментів з векторної бази даних.
- Скиньте отриманий контекст у LLM.
Зазвичай це працює, але з величезною вартістю:
- Більшість фрагментів містять нерелевантний текст.
- LLM має обробляти набагато більше токенів.
- Ви платите за обчислення, затримку та контекст.
Саме таку проблему вирішує новий метод Meta AI REFRAG.
Він фундаментально переосмислює пошук, і діаграма нижче пояснює, як це працює.
По суті, замість того, щоб згодовувати LLM кожен фрагмент і кожен токен, REFRAG стискає і фільтрує контекст на векторному рівні:
- Стиснення фрагментів: Кожен фрагмент кодується в одне стиснене вбудовування, а не в сотні вбудовувань токенів.
- Політика відповідності: Легка політика, навчена RL, оцінює стиснені вбудовування та зберігає лише найбільш релевантні фрагменти.
- Вибіркове розширення: лише фрагменти, вибрані політикою RL, розгортаються назад у їхні повні вкладення та передаються до LLM.
Таким чином, модель обробляє лише те, що має значення, і ігнорує решту.
Ось покрокова інструкція:
- Крок 1-2) Закодуйте документи та збережіть їх у векторній базі даних.
- Крок 3-5) Закодуйте повний запит користувача та знайдіть відповідні фрагменти. Крім того, обчисліть вбудовування на рівні токена як для запиту (крок 7), так і для відповідних фрагментів.
- Крок 6) Використовуйте політику відповідності (навчену через RL), щоб вибрати фрагменти для збереження.
- Крок 8) Об'єднайте представлення вхідного запиту на рівні токена з вбудовуванням вибраних фрагментів на рівні токена та стисненим одновекторним представленням відхилених фрагментів.
- Крок 9-10) Надішліть все це в LLM.
Крок RL робить REFRAG більш релевантним пайплайном RAG.
Виходячи з наукової роботи, такий підхід:
- має в 30,85 рази швидший токен часу до першого токена (у 3,75 рази краще, ніж попередній токен SOTA)
- забезпечує в 16 разів більші контекстні вікна
- перевершує LLaMA на 16 тестах RAG, використовуючи в 2–4 рази менше токенів декодера.
- не призводить до втрати точності в завданнях RAG, узагальнення та багатоходової розмови
Це означає, що ви можете обробляти в 16 разів більше контексту зі швидкістю в 30 разів швидше, з тією ж точністю.
Код ще не оприлюднила компанія Meta. Вони мають намір зробити це найближчим часом.

71,91K
Найкращі
Рейтинг
Вибране