Андрей Карпаты предложил радикальную идею: все входные данные для LLM должны быть изображениями, включая чистый текст. Что это значит? Традиционная модель большого языка: текст → токенизатор → LLM → вывод Видение Андрея: текст → рендеринг в изображение → LLM → вывод Даже если вы хотите ввести чистый текст, сначала преобразуйте его в изображение, а затем подайте модели. Почему так делать? Он привел 4 причины: 1. Более эффективное сжатие информации Это именно то, что доказал DeepSeek-OCR. Одна страница документа, традиционным способом может потребовать 2000 текстовых токенов, с помощью визуальных токенов всего 64. Коэффициент сжатия 30 раз. Текстовые токены очень неэффективны, визуальные токены более плотные. 2. Более универсально Текстовые токены могут выражать только текст. Но информация в реальном мире не только текст: - Жирный, курсив - Цветной текст - Таблицы, графики - Любые изображения Все рендерится в изображение для ввода, и модель естественным образом может обрабатывать это. ...