Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Андрій Карпати запропонував радикальну ідею: всі входи LLM повинні бути зображеннями, включаючи звичайний текст.
Що ти маєш на увазі?
Традиційні великі мовні моделі: токенізатор тексту → → вивід LLM →
Бачення Андрія: Текст → перетворюватися на зображення → вивід LLM →
Навіть якщо ви хочете ввести звичайний текст, відобразіть його як зображення та передайте його моделі.
Навіщо це робити?
Він навів 4 причини:
1. Стиснення інформації стає більш ефективним
Це саме те, що доводить DeepSeek-OCR. Для односторінкового документа традиційний метод може вимагати 2 000 текстових токенів, а токена vision — лише 64. Ступінь стиснення в 30 разів.
Текстові токени марнотратні, токени зображень щільніші.
2. Більш універсальний
Текстові токени можуть виражати лише слова. Але реальна інформація – це більше, ніж просто слова:
- Жирний шрифт, курсив
- Кольоровий текст
- Таблиці, діаграми
- Довільні зображення
Все відображається як вхідні дані зображення, і модель може обробляти їх природним чином.
...
Найкращі
Рейтинг
Вибране