Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek только что выпустил довольно шокирующую новую статью. Они действительно закопали суть, просто назвав это DeepSeek OCR.
Хотя это очень мощная модель OCR, ее цель и последствия их подхода выходят далеко за рамки того, что вы могли бы ожидать от "еще одной модели OCR".
Традиционно токены визуальных LLM казались почти второстепенными или "дополнением" к парадигме LLM. И 10 тысяч слов на английском занимали бы гораздо больше места в мультимодальном LLM, когда они выражены в понятных пикселях, чем когда они выражены в токенах.
Таким образом, эти 10 тысяч слов могли превратиться в 15 тысяч токенов или 30-60 тысяч "визуальных токенов". Поэтому визуальные токены были гораздо менее эффективными и действительно имели смысл использовать только для данных, которые нельзя было эффективно передать словами.
Но теперь это перевернуто благодаря идеям в этой статье. DeepSeek выяснил, как добиться в 10 раз лучшего сжатия, используя визуальные токены, чем с текстовыми токенами! Таким образом, вы теоретически могли бы хранить эти 10 тысяч слов всего в 1,500 их специальных сжатых визуальных токенов.
Это может быть не так неожиданно, как звучит, если подумать о том, как работает ваш собственный разум. В конце концов, я знаю, что когда я ищу часть книги, которую уже читал, я представляю ее визуально и всегда помню, с какой стороны книги она была и примерно где на странице, что предполагает наличие какого-то визуального представления памяти.
Теперь неясно, как именно это взаимодействует с другими когнитивными функциями LLM; может ли модель рассуждать так же интеллигентно над этими сжатыми визуальными токенами, как она может использовать обычные текстовые токены? Делает ли это модель менее выразительной, заставляя ее работать в более ориентированной на визуализацию модальности?
Но вы можете представить, что в зависимости от точных компромиссов это может быть очень захватывающая новая ось для значительного расширения эффективных размеров контекста. Особенно в сочетании с другой недавней статьей DeepSeek, опубликованной пару недель назад, о разреженном внимании.
Насколько нам известно, Google мог уже выяснить что-то подобное, что могло бы объяснить, почему Gemini имеет такой огромный размер контекста и так хорошо и быстро справляется с задачами OCR. Если это так, они, вероятно, не скажут, потому что это будет рассматриваться как важная коммерческая тайна.
Но хорошая новость в том, что DeepSeek сделал все это открытым исходным кодом и открытыми весами и объяснил, как они это сделали, так что теперь каждый может попробовать и исследовать.
Даже если эти трюки делают внимание более потерянным, потенциал получения передового LLM с окном контекста в 10 или 20 миллионов токенов довольно захватывающий.
Вы могли бы втиснуть все ключевые внутренние документы компании в предисловие запроса и кэшировать это с OpenAI, а затем просто добавить свой конкретный запрос или подсказку сверху и не иметь дело с инструментами поиска, при этом все еще оставаясь быстрым и экономически эффективным.
Или поместить всю кодовую базу в контекст и кэшировать ее, а затем просто продолжать добавлять эквивалент git diffs по мере внесения изменений в код.
Если вы когда-либо читали истории о великом физике Хансе Бете, он был известен тем, что запомнил огромное количество случайных физических фактов (например, всю периодическую таблицу; температуры кипения различных веществ и т. д.), чтобы он мог бесшовно мыслить и вычислять, не прерывая свой поток, чтобы что-то найти в справочной таблице.
Наличие огромного количества специфических для задачи знаний в вашей рабочей памяти чрезвычайно полезно. Это кажется очень умным и добавляющим подходом к потенциальному расширению этого банка памяти в 10 раз или более.
Вот несколько хороших выводов из Claude Opus4.1 по статье, если вам не хочется читать всё это (она также довольно техническая):




То, что касается того, как вы могли бы «сжать» старую контекстную память с потерями, автоматически уменьшая визуальные представления этих токенов (скажем, с 1024x1024 пикселей до 512x512 пикселей), чтобы сэкономить место, делая эти воспоминания «размытыми», напрямую связано с тем, что @karpathy отстаивал в своем интервью с Дваркешем о том, как сделать LLM менее зависимыми от точного запоминания. И, конечно, это также отражает, как лучше работает человеческий разум.
62,2K
Топ
Рейтинг
Избранное