Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Чому DeepSeek-OCR такий ВАЖЛИВИЙ?
Існуючі LLM мають проблеми з довгими входами, оскільки вони можуть обробляти лише фіксовану кількість токенів, відому як контекстне вікно, і вартість уваги швидко зростає в міру того, як вхідні дані стають довшими.
DeepSeek-OCR використовує новий підхід.
Замість того, щоб надсилати довгий контекст безпосередньо до LLM, він перетворює його на зображення, стискає це зображення у візуальні токени, а потім передає ці токени до LLM.
Менша кількість токенів призводить до нижчих обчислювальних витрат та більшого ефективного контекстного вікна. Це робить чат-боти та моделі документів більш функціональними та ефективними.
Як побудований DeepSeek-OCR? Система складається з двох основних частин:
1. Кодувальник: він обробляє зображення тексту, витягує візуальні функції та стискає їх у невелику кількість токенів зору.
2. Декодер: модель мови Mix of Experts, яка зчитує ці токени та генерує текст по одному токену за раз, подібно до стандартного трансформатора лише з декодером.
Коли його використовувати?
DeepSeek-OCR показує, що текст можна ефективно стискати за допомогою візуальних представлень.
Це особливо корисно для роботи з дуже довгими документами, які перевищують стандартні контекстні обмеження. Ви можете використовувати його для стиснення контексту, стандартних завдань OCR або глибокого аналізу, наприклад, перетворення таблиць і складних макетів на текст.
До вас: Що ви думаєте про використання візуальних токенів для вирішення проблем з довгим контекстом у LLM? Чи може це стати наступним стандартом для великих моделей?
--
Ми щойно запустили програму Стати AI Engineer | Навчайтеся на практиці: Когорта 2. Якщо ви пропустили Когорту 1, зараз у вас є шанс приєднатися до нас у Когорті 2.
Перевірте це тут:
#AI #AIEngineer #MachineLearning...

Найкращі
Рейтинг
Вибране

