Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

AI进化论-花生
Андрей Карпаты предложил радикальную идею: все входные данные для LLM должны быть изображениями, включая чистый текст.
Что это значит?
Традиционная модель большого языка: текст → токенизатор → LLM → вывод
Видение Андрея: текст → рендеринг в изображение → LLM → вывод
Даже если вы хотите ввести чистый текст, сначала преобразуйте его в изображение, а затем подайте модели.
Почему так делать?
Он привел 4 причины:
1. Более эффективное сжатие информации
Это именно то, что доказал DeepSeek-OCR. Одна страница документа, традиционным способом может потребовать 2000 текстовых токенов, с помощью визуальных токенов всего 64. Коэффициент сжатия 30 раз.
Текстовые токены очень неэффективны, визуальные токены более плотные.
2. Более универсально
Текстовые токены могут выражать только текст. Но информация в реальном мире не только текст:
- Жирный, курсив
- Цветной текст
- Таблицы, графики
- Любые изображения
Все рендерится в изображение для ввода, и модель естественным образом может обрабатывать это.
3. Можно использовать двунаправленное внимание
Это техническая деталь. Традиционный текст-в-текст является автогрессивным (слева направо). Входные изображения могут использовать двунаправленное внимание, видеть глобальную информацию, что более мощно.
4. Удаление токенизатора (важно!)
Андрей очень не любит токенизатор.
Его жалобы:
- Токенизатор — это уродливая, независимая, не концевой этап
- Он унаследовал все исторические бремена Unicode и байтового кодирования
- Есть риски безопасности (например, атаки с использованием continuation bytes)
- Два одинаковых на вид символа могут быть совершенно разными в глазах токенизатора
- 😊 Этот эмодзи в токенизаторе просто странный токен, а не настоящее изображение улыбающегося лица
Он надеется, что токенизатор исчезнет.
Его видение таково:
- Ввод: все изображения (даже если изначально это текст)
- Вывод: все еще текст (поскольку вывод пикселей нереален)
OCR — это лишь одна из задач vision→text. Многие задачи text→text могут быть преобразованы в vision→text.
Мое понимание
Эта точка зрения Андрея очень радикальна, но действительно имеет смысл.
С точки зрения теории информации, изображения действительно более эффективны, чем текст. DeepSeek-OCR это доказал: 64 визуальных токена могут выразить информацию 2000 текстовых токенов.
С точки зрения универсальности, ввод изображений естественным образом поддерживает различные форматы (жирный, цвет, графики), не требуя промежуточного слоя токенизатора.
Но проблема в том, что:
1. Стоимость вычислений: обработка визуальных токенов дороже, чем текстовых токенов. Хотя количество токенов уменьшилось, вычислительная нагрузка на каждый визуальный токен больше.
2. Данные для обучения: большая часть существующих данных для обучения — это чистый текст. Преобразовать все в изображения очень дорого.
3. Проблема вывода: он также признает, что вывод пикселей нереален. Поэтому это может быть только смешанный режим ввода изображений → вывод текста.
Но в долгосрочной перспективе это направление может быть правильным.
Особенно учитывая:
- Ввод человека изначально многомодален (текст, изображения, видео)
- У токенизатора действительно много проблем (безопасность, Unicode, историческое бремя)
- Будущее ИИ должно уметь напрямую понимать пиксели, а не превращать все в токены
DeepSeek-OCR может быть только началом. Он доказал, что "оптическое сжатие контекста" возможно.
Андрей видит более далекое будущее: мир без токенизатора, все входные данные — это изображения, все выходные данные — текст.
Станет ли это реальностью? Не знаю.
Но, по крайней мере, это направление стоит исследовать.

Andrej Karpathy21 окт. 2025 г.
Мне довольно нравится новая работа DeepSeek-OCR. Это хорошая модель OCR (возможно, немного хуже, чем dots), и да, сбор данных и т.д., но в любом случае это не имеет значения.
Более интересная часть для меня (особенно как для человека, который по сути является специалистом по компьютерному зрению и временно маскируется под специалиста по естественному языку) заключается в том, являются ли пиксели лучшими входными данными для LLM, чем текст. Являются ли текстовые токены расточительными и просто ужасными на входе.
Возможно, имеет больше смысла, что все входные данные для LLM должны быть только изображениями. Даже если у вас есть чистый текстовый ввод, возможно, вы предпочли бы отобразить его, а затем подать это:
- больше сжатия информации (см. статью) => более короткие контекстные окна, больше эффективности
- значительно более общий поток информации => не только текст, но, например, жирный текст, цветной текст, произвольные изображения.
- ввод теперь можно обрабатывать с двунаправленным вниманием легко и по умолчанию, а не с авторегрессионным вниманием - это гораздо более мощно.
- удалить токенизатор (на входе)!! Я уже высказывался о том, как сильно я не люблю токенизатор. Токенизаторы уродливы, отдельны, не являются этапом end-to-end. Он "импортирует" всю уродливость Unicode, байтовых кодировок, наследует много исторического багажа, рисков безопасности/взлома (например, байты продолжения). Он делает так, что два символа, которые выглядят идентично для глаза, выглядят как два совершенно разных токена внутри сети. Улыбающийся эмодзи выглядит как странный токен, а не как... настоящая улыбающаяся мордочка, пиксели и все такое, и все обучение с переносом, которое это приносит. Токенизатор должен уйти.
OCR - это всего лишь одна из многих полезных задач преобразования изображения в текст. А задачи преобразования текста в текст могут быть преобразованы в задачи преобразования изображения в текст. Не наоборот.
Так что многие сообщения пользователей - это изображения, но декодер (ответ Ассистента) остается текстом. Намного менее очевидно, как реалистично выводить пиксели... или хотите ли вы этого.
Теперь мне также нужно бороться с желанием создать версию nanochat только с вводом изображений...
115,24K
Claude Code — лучший агент для автоматизированного написания.
Эта статья длиной более 3000 слов на 100% была написана с помощью Claude Code, она хорошо показала себя на Xiaohongshu и вызвала много обсуждений, но, похоже, никто не сомневается, что это статья, написанная ИИ.
Позже в комментариях поделюсь своим способом создания агента для написания.

109,58K
В эпоху ИИ никогда не недооценивайте креативность, которой может обладать человек. Многие вещи, которые вы не могли сделать несколько месяцев назад, сейчас могут оказаться совершенно другими, если попробовать снова.
Полгода назад я попробовал разработать 3D-шутер на военную тематику с помощью Cursor и Unity, не имея никакого опыта в использовании Unity и разработке игр.
Тогда самой большой проблемой были 3D-активы. Модели бронетранспортеров, созданные с помощью различных AI 3D инструментов, которые я нашел на рынке, по сути представляли собой неразделимую массу, и сделать независимую анимацию и эффекты повреждений для башни и гусениц было совершенно невозможно, проект просто застопорился. Я думал, что это дело провалилось, пока недавно не увидел @DeemosTech.
У них новая версия Rodin Gen-2 с архитектурой под названием BANG, которая просто потрясающая. Она может понимать, что модель состоит из различных частей, и может логически разделить любую 3D модель, например, бронетранспортер, вертолет, солдат и т.д. из этого видео.
В такой ситуации я могу получить независимые башни, колеса и т.д., которые можно сразу использовать для анимации и настройки параметров, что решает все проблемы, с которыми я столкнулся в прошлый раз.
Я вдруг осознал, что всего полгода прошло, а инструменты моего процесса разработки AI почти полностью обновились:
1. Инструмент программирования AI сменился с Cursor на Claude Code.
2. 2D материалы сменились с Midjourney на Nano Banana.
3. А эволюция 3D активов оказалась самой революционной, они превратились из игрушек в инструменты.
Так что не ставьте себе ограничений, не ставьте ограничений AI, вам просто нужно четко понять, что вы хотите сделать, и каждые полгода пробовать снова, и, возможно, вас ждут неожиданные сюрпризы.
Я считаю, что новая способность hyper3d может повысить эффективность многих небольших игровых команд и дать возможность таким разработчикам, как я, без опыта, создать свою первую 3D игру.
73,75K
Топ
Рейтинг
Избранное

