En mer seriös tråd om DeepSeek-OCR hype / allvarliga feltolkningar som pågår. 1. När det gäller tokenreduktion genom att representera text i bilder har forskare från Cambridge tidigare visat att 500x snabb tokenkomprimering är möjlig (ACL'25, Li, Su och Collier). Utan att använda tanken på att konvertera text till bilder. 2. Vi bör inte tillskriva framgången för DeepSeek OCR till kraften i bildrepresentation. Samtidigt är det inget fundamentalt fel med textrepresentation med vilken tokenizer som helst. Faktum är att du kan göra motsatsen till vad DeepSeek-OCR gjorde, dvs du kan representera bilder som en sekvens av texttokens (var och en representerar sina RGB-värden), och saker och ting kommer bara att fungera bra. (Se dokumentet LIFT.) 3. Det enda korrekta att ta med sig är att de nuvarande inbäddningsutrymmena som används av LLM:er är enorma och kanske till och med mycket slösaktiga. Och viktigast av allt, vi utnyttjar dem inte fullt ut ännu. 4. Det finns många nya bevis som stöder samma budskap. Till exempel visas det att om du tillhandahåller kontextdemonstrationer från flera uppgifter men blandade i en enda kontext, kan din modell lösa flera ICL-förutsägelseuppgifter samtidigt. (Se dokumentet ALLT ÖVERALLT, ALLT PÅ EN GÅNG.) 5. TLDR; - DeepSeek-OCR är coolt - men du kan uppnå en högre tokenreduktionshastighet genom att bara finjustera LLM:er på pressade texttokens - det finns fler bevis för att LLM:er inte fullt ut utnyttjar det stora inbäddningsutrymmet och den enorma mängden beräkning som går in vid inferenstiden - Och det är den enda riktiga take-away du bör ta med dig