Андрій Карпати запропонував радикальну ідею: всі входи LLM повинні бути зображеннями, включаючи звичайний текст. Що ти маєш на увазі? Традиційні великі мовні моделі: токенізатор тексту → → вивід LLM → Бачення Андрія: Текст → перетворюватися на зображення → вивід LLM → Навіть якщо ви хочете ввести звичайний текст, відобразіть його як зображення та передайте його моделі. Навіщо це робити? Він навів 4 причини: 1. Стиснення інформації стає більш ефективним Це саме те, що доводить DeepSeek-OCR. Для односторінкового документа традиційний метод може вимагати 2 000 текстових токенів, а токена vision — лише 64. Ступінь стиснення в 30 разів. Текстові токени марнотратні, токени зображень щільніші. 2. Більш універсальний Текстові токени можуть виражати лише слова. Але реальна інформація – це більше, ніж просто слова: - Жирний шрифт, курсив - Кольоровий текст - Таблиці, діаграми - Довільні зображення Все відображається як вхідні дані зображення, і модель може обробляти їх природним чином. ...