Более серьезная тема о хайпе DeepSeek-OCR / серьезном неправильном толковании происходящего. 1. Что касается сокращения токенов путем представления текста в изображениях, исследователи из Кембриджа ранее показали, что возможно сжатие токенов в 500 раз (ACL'25, Ли, Су и Коллиер). Без использования идеи преобразования текста в изображения. 2. Мы не должны приписывать успех DeepSeek OCR силе представления изображений. В то же время, нет ничего принципиально неправильного в представлении текста с помощью любого токенизатора. На самом деле, вы можете сделать противоположное тому, что сделала DeepSeek-OCR, т.е. вы можете представлять изображения как последовательность текстовых токенов (каждый из которых представляет свои значения RGB), и все будет работать нормально. (Смотрите статью LIFT.) 3. Единственный правильный вывод заключается в том, что текущие пространства встраивания, используемые LLM, просто огромны и, возможно, даже очень расточительны. И, что важно, мы еще не используем их в полной мере. 4. Существует много недавних доказательств, поддерживающих то же самое сообщение. Например, показано, что если вы предоставите демонстрации в контексте из нескольких задач, но смешанных в одном контексте, то ваша модель может одновременно решать несколько задач предсказания ICL. (Смотрите статью EVERYTHING EVERYWHERE ALL AT ONCE.) 5. Кратко; - DeepSeek-OCR крут - но вы можете достичь более высокого уровня сокращения токенов, просто дообучив LLM на сжатых текстовых токенах - есть больше доказательств того, что LLM не полностью используют большое пространство встраивания и огромное количество вычислений, которые происходят во время вывода - и это единственный реальный вывод, который вы должны сделать.