Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Андрей Карпаты предложил радикальную идею: все входные данные для LLM должны быть изображениями, включая чистый текст.
Что это значит?
Традиционная модель большого языка: текст → токенизатор → LLM → вывод
Видение Андрея: текст → рендеринг в изображение → LLM → вывод
Даже если вы хотите ввести чистый текст, сначала преобразуйте его в изображение, а затем подайте модели.
Почему так делать?
Он привел 4 причины:
1. Более эффективное сжатие информации
Это именно то, что доказал DeepSeek-OCR. Одна страница документа, традиционным способом может потребовать 2000 текстовых токенов, с помощью визуальных токенов всего 64. Коэффициент сжатия 30 раз.
Текстовые токены очень неэффективны, визуальные токены более плотные.
2. Более универсально
Текстовые токены могут выражать только текст. Но информация в реальном мире не только текст:
- Жирный, курсив
- Цветной текст
- Таблицы, графики
- Любые изображения
Все рендерится в изображение для ввода, и модель естественным образом может обрабатывать это.
...
Топ
Рейтинг
Избранное