Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Более серьезная тема о хайпе DeepSeek-OCR / серьезном неправильном толковании происходящего.
1.
Что касается сокращения токенов путем представления текста в изображениях, исследователи из Кембриджа ранее показали, что возможно сжатие токенов в 500 раз (ACL'25, Ли, Су и Коллиер).
Без использования идеи преобразования текста в изображения.
2.
Мы не должны приписывать успех DeepSeek OCR силе представления изображений.
В то же время, нет ничего принципиально неправильного в представлении текста с помощью любого токенизатора.
На самом деле, вы можете сделать противоположное тому, что сделала DeepSeek-OCR, т.е. вы можете представлять изображения как последовательность текстовых токенов (каждый из которых представляет свои значения RGB), и все будет работать нормально. (Смотрите статью LIFT.)
3.
Единственный правильный вывод заключается в том, что текущие пространства встраивания, используемые LLM, просто огромны и, возможно, даже очень расточительны.
И, что важно, мы еще не используем их в полной мере.
4.
Существует много недавних доказательств, поддерживающих то же самое сообщение.
Например, показано, что если вы предоставите демонстрации в контексте из нескольких задач, но смешанных в одном контексте, то ваша модель может одновременно решать несколько задач предсказания ICL. (Смотрите статью EVERYTHING EVERYWHERE ALL AT ONCE.)
5.
Кратко;
- DeepSeek-OCR крут
- но вы можете достичь более высокого уровня сокращения токенов, просто дообучив LLM на сжатых текстовых токенах
- есть больше доказательств того, что LLM не полностью используют большое пространство встраивания и огромное количество вычислений, которые происходят во время вывода
- и это единственный реальный вывод, который вы должны сделать.



Топ
Рейтинг
Избранное

