Чому DeepSeek-OCR такий ВАЖЛИВИЙ? Існуючі LLM мають проблеми з довгими входами, оскільки вони можуть обробляти лише фіксовану кількість токенів, відому як контекстне вікно, і вартість уваги швидко зростає в міру того, як вхідні дані стають довшими. DeepSeek-OCR використовує новий підхід. Замість того, щоб надсилати довгий контекст безпосередньо до LLM, він перетворює його на зображення, стискає це зображення у візуальні токени, а потім передає ці токени до LLM. Менша кількість токенів призводить до нижчих обчислювальних витрат та більшого ефективного контекстного вікна. Це робить чат-боти та моделі документів більш функціональними та ефективними. Як побудований DeepSeek-OCR? Система складається з двох основних частин: 1. Кодувальник: він обробляє зображення тексту, витягує візуальні функції та стискає їх у невелику кількість токенів зору. 2. Декодер: модель мови Mix of Experts, яка зчитує ці токени та генерує текст по одному токену за раз, подібно до стандартного трансформатора лише з декодером. Коли його використовувати? DeepSeek-OCR показує, що текст можна ефективно стискати за допомогою візуальних представлень. Це особливо корисно для роботи з дуже довгими документами, які перевищують стандартні контекстні обмеження. Ви можете використовувати його для стиснення контексту, стандартних завдань OCR або глибокого аналізу, наприклад, перетворення таблиць і складних макетів на текст. До вас: Що ви думаєте про використання візуальних токенів для вирішення проблем з довгим контекстом у LLM? Чи може це стати наступним стандартом для великих моделей? -- Ми щойно запустили програму Стати AI Engineer | Навчайтеся на практиці: Когорта 2. Якщо ви пропустили Когорту 1, зараз у вас є шанс приєднатися до нас у Когорті 2. Перевірте це тут: #AI #AIEngineer #MachineLearning...