Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Мне довольно нравится новая работа DeepSeek-OCR. Это хорошая модель OCR (возможно, немного хуже, чем dots), и да, сбор данных и т.д., но в любом случае это не имеет значения.
Более интересная часть для меня (особенно как для человека, который по сути является специалистом по компьютерному зрению и временно маскируется под специалиста по естественному языку) заключается в том, являются ли пиксели лучшими входными данными для LLM, чем текст. Являются ли текстовые токены расточительными и просто ужасными на входе.
Возможно, имеет больше смысла, что все входные данные для LLM должны быть только изображениями. Даже если у вас есть чистый текстовый ввод, возможно, вы предпочли бы отобразить его, а затем подать это:
- больше сжатия информации (см. статью) => более короткие контекстные окна, больше эффективности
- значительно более общий поток информации => не только текст, но, например, жирный текст, цветной текст, произвольные изображения.
- ввод теперь можно обрабатывать с двунаправленным вниманием легко и по умолчанию, а не с авторегрессионным вниманием - это гораздо более мощно.
- удалить токенизатор (на входе)!! Я уже высказывался о том, как сильно я не люблю токенизатор. Токенизаторы уродливы, отдельны, не являются этапом end-to-end. Он "импортирует" всю уродливость Unicode, байтовых кодировок, наследует много исторического багажа, рисков безопасности/взлома (например, байты продолжения). Он делает так, что два символа, которые выглядят идентично для глаза, выглядят как два совершенно разных токена внутри сети. Улыбающийся эмодзи выглядит как странный токен, а не как... настоящая улыбающаяся мордочка, пиксели и все такое, и все обучение с переносом, которое это приносит. Токенизатор должен уйти.
OCR - это всего лишь одна из многих полезных задач преобразования изображения в текст. А задачи преобразования текста в текст могут быть преобразованы в задачи преобразования изображения в текст. Не наоборот.
Так что многие сообщения пользователей - это изображения, но декодер (ответ Ассистента) остается текстом. Намного менее очевидно, как реалистично выводить пиксели... или хотите ли вы этого.
Теперь мне также нужно бороться с желанием создать версию nanochat только с вводом изображений...
Топ
Рейтинг
Избранное