Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

AI进化论-花生

Андрей Карпаты предложил радикальную идею: все входные данные для LLM должны быть изображениями, включая чистый текст. Что это значит? Традиционная модель большого языка: текст → токенизатор → LLM → вывод Видение Андрея: текст → рендеринг в изображение → LLM → вывод Даже если вы хотите ввести чистый текст, сначала преобразуйте его в изображение, а затем подайте модели. Почему так делать? Он привел 4 причины: 1. Более эффективное сжатие информации Это именно то, что доказал DeepSeek-OCR. Одна страница документа, традиционным способом может потребовать 2000 текстовых токенов, с помощью визуальных токенов всего 64. Коэффициент сжатия 30 раз. Текстовые токены очень неэффективны, визуальные токены более плотные. 2. Более универсально Текстовые токены могут выражать только текст. Но информация в реальном мире не только текст: - Жирный, курсив - Цветной текст - Таблицы, графики - Любые изображения Все рендерится в изображение для ввода, и модель естественным образом может обрабатывать это. 3. Можно использовать двунаправленное внимание Это техническая деталь. Традиционный текст-в-текст является автогрессивным (слева направо). Входные изображения могут использовать двунаправленное внимание, видеть глобальную информацию, что более мощно. 4. Удаление токенизатора (важно!) Андрей очень не любит токенизатор. Его жалобы: - Токенизатор — это уродливая, независимая, не концевой этап - Он унаследовал все исторические бремена Unicode и байтового кодирования - Есть риски безопасности (например, атаки с использованием continuation bytes) - Два одинаковых на вид символа могут быть совершенно разными в глазах токенизатора - 😊 Этот эмодзи в токенизаторе просто странный токен, а не настоящее изображение улыбающегося лица Он надеется, что токенизатор исчезнет. Его видение таково: - Ввод: все изображения (даже если изначально это текст) - Вывод: все еще текст (поскольку вывод пикселей нереален) OCR — это лишь одна из задач vision→text. Многие задачи text→text могут быть преобразованы в vision→text. Мое понимание Эта точка зрения Андрея очень радикальна, но действительно имеет смысл. С точки зрения теории информации, изображения действительно более эффективны, чем текст. DeepSeek-OCR это доказал: 64 визуальных токена могут выразить информацию 2000 текстовых токенов. С точки зрения универсальности, ввод изображений естественным образом поддерживает различные форматы (жирный, цвет, графики), не требуя промежуточного слоя токенизатора. Но проблема в том, что: 1. Стоимость вычислений: обработка визуальных токенов дороже, чем текстовых токенов. Хотя количество токенов уменьшилось, вычислительная нагрузка на каждый визуальный токен больше. 2. Данные для обучения: большая часть существующих данных для обучения — это чистый текст. Преобразовать все в изображения очень дорого. 3. Проблема вывода: он также признает, что вывод пикселей нереален. Поэтому это может быть только смешанный режим ввода изображений → вывод текста. Но в долгосрочной перспективе это направление может быть правильным. Особенно учитывая: - Ввод человека изначально многомодален (текст, изображения, видео) - У токенизатора действительно много проблем (безопасность, Unicode, историческое бремя) - Будущее ИИ должно уметь напрямую понимать пиксели, а не превращать все в токены DeepSeek-OCR может быть только началом. Он доказал, что "оптическое сжатие контекста" возможно. Андрей видит более далекое будущее: мир без токенизатора, все входные данные — это изображения, все выходные данные — текст. Станет ли это реальностью? Не знаю. Но, по крайней мере, это направление стоит исследовать.

Мне довольно нравится новая работа DeepSeek-OCR. Это хорошая модель OCR (возможно, немного хуже, чем dots), и да, сбор данных и т.д., но в любом случае это не имеет значения. Более интересная часть для меня (особенно как для человека, который по сути является специалистом по компьютерному зрению и временно маскируется под специалиста по естественному языку) заключается в том, являются ли пиксели лучшими входными данными для LLM, чем текст. Являются ли текстовые токены расточительными и просто ужасными на входе. Возможно, имеет больше смысла, что все входные данные для LLM должны быть только изображениями. Даже если у вас есть чистый текстовый ввод, возможно, вы предпочли бы отобразить его, а затем подать это: - больше сжатия информации (см. статью) => более короткие контекстные окна, больше эффективности - значительно более общий поток информации => не только текст, но, например, жирный текст, цветной текст, произвольные изображения. - ввод теперь можно обрабатывать с двунаправленным вниманием легко и по умолчанию, а не с авторегрессионным вниманием - это гораздо более мощно. - удалить токенизатор (на входе)!! Я уже высказывался о том, как сильно я не люблю токенизатор. Токенизаторы уродливы, отдельны, не являются этапом end-to-end. Он "импортирует" всю уродливость Unicode, байтовых кодировок, наследует много исторического багажа, рисков безопасности/взлома (например, байты продолжения). Он делает так, что два символа, которые выглядят идентично для глаза, выглядят как два совершенно разных токена внутри сети. Улыбающийся эмодзи выглядит как странный токен, а не как... настоящая улыбающаяся мордочка, пиксели и все такое, и все обучение с переносом, которое это приносит. Токенизатор должен уйти. OCR - это всего лишь одна из многих полезных задач преобразования изображения в текст. А задачи преобразования текста в текст могут быть преобразованы в задачи преобразования изображения в текст. Не наоборот. Так что многие сообщения пользователей - это изображения, но декодер (ответ Ассистента) остается текстом. Намного менее очевидно, как реалистично выводить пиксели... или хотите ли вы этого. Теперь мне также нужно бороться с желанием создать версию nanochat только с вводом изображений...

В эпоху ИИ никогда не недооценивайте креативность, которой может обладать человек. Многие вещи, которые вы не могли сделать несколько месяцев назад, сейчас могут оказаться совершенно другими, если попробовать снова. Полгода назад я попробовал разработать 3D-шутер на военную тематику с помощью Cursor и Unity, не имея никакого опыта в использовании Unity и разработке игр. Тогда самой большой проблемой были 3D-активы. Модели бронетранспортеров, созданные с помощью различных AI 3D инструментов, которые я нашел на рынке, по сути представляли собой неразделимую массу, и сделать независимую анимацию и эффекты повреждений для башни и гусениц было совершенно невозможно, проект просто застопорился. Я думал, что это дело провалилось, пока недавно не увидел @DeemosTech. У них новая версия Rodin Gen-2 с архитектурой под названием BANG, которая просто потрясающая. Она может понимать, что модель состоит из различных частей, и может логически разделить любую 3D модель, например, бронетранспортер, вертолет, солдат и т.д. из этого видео. В такой ситуации я могу получить независимые башни, колеса и т.д., которые можно сразу использовать для анимации и настройки параметров, что решает все проблемы, с которыми я столкнулся в прошлый раз. Я вдруг осознал, что всего полгода прошло, а инструменты моего процесса разработки AI почти полностью обновились: 1. Инструмент программирования AI сменился с Cursor на Claude Code. 2. 2D материалы сменились с Midjourney на Nano Banana. 3. А эволюция 3D активов оказалась самой революционной, они превратились из игрушек в инструменты. Так что не ставьте себе ограничений, не ставьте ограничений AI, вам просто нужно четко понять, что вы хотите сделать, и каждые полгода пробовать снова, и, возможно, вас ждут неожиданные сюрпризы. Я считаю, что новая способность hyper3d может повысить эффективность многих небольших игровых команд и дать возможность таким разработчикам, как я, без опыта, создать свою первую 3D игру.

Топ

Рейтинг

Избранное