Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek heeft zojuist een behoorlijk schokkend nieuw paper uitgebracht. Ze hebben de kern van de zaak hier echt verborgen door het simpelweg DeepSeek OCR te noemen.
Hoewel het een zeer sterk OCR-model is, gaat het doel ervan en de implicaties van hun benadering veel verder dan wat je zou verwachten van "weer een ander OCR-model."
Traditioneel leken vision LLM-tokens bijna een bijgedachte of "aanbouw" te zijn voor het LLM-paradigma. En 10k woorden Engels zouden veel meer ruimte innemen in een multimodaal LLM wanneer ze worden uitgedrukt als begrijpelijke pixels dan wanneer ze worden uitgedrukt als tokens.
Dus die 10k woorden kunnen zijn veranderd in 15k tokens, of 30k tot 60k "visuele tokens." Dus vision tokens waren veel minder efficiënt en maakten echt alleen maar zin voor data die niet effectief met woorden konden worden overgebracht.
Maar dat wordt nu omgekeerd vanuit de ideeën in dit paper. DeepSeek heeft ontdekt hoe ze 10x betere compressie kunnen krijgen met vision tokens dan met teksttokens! Dus je zou theoretisch die 10k woorden kunnen opslaan in slechts 1.500 van hun speciale gecomprimeerde visuele tokens.
Dit is misschien niet zo onverwacht als het klinkt als je denkt aan hoe je eigen geest werkt. Immers, ik weet dat wanneer ik op zoek ben naar een deel van een boek dat ik al heb gelezen, ik het visueel voorstel en altijd herinner aan welke kant van het boek het was en ongeveer waar op de pagina het was, wat suggereert dat er een soort visuele geheugenrepresentatie aan het werk is.
Nu is het niet duidelijk hoe precies dit interactie heeft met de andere downstream cognitieve functies van een LLM; kan het model even intelligent redeneren over die gecomprimeerde visuele tokens als het kan met reguliere teksttokens? Maakt het het model minder welsprekend door het in een meer visueel georiënteerde modaliteit te dwingen?
Maar je kunt je voorstellen dat, afhankelijk van de exacte afwegingen, het een zeer opwindende nieuwe as zou kunnen zijn om de effectieve contextgroottes aanzienlijk uit te breiden. Vooral in combinatie met DeepSeek's andere recente paper van een paar weken geleden over spaarzame aandacht.
Voor zover we weten, zou Google al iets als dit kunnen hebben ontdekt, wat zou kunnen verklaren waarom Gemini zo'n enorme contextgrootte heeft en zo goed en snel is in OCR-taken. Als ze dat deden, zouden ze het waarschijnlijk niet zeggen omdat het als een belangrijk handelsgeheim zou worden beschouwd.
Maar het mooie aan DeepSeek is dat ze het hele ding open source en open gewichten hebben gemaakt en hebben uitgelegd hoe ze het hebben gedaan, zodat nu iedereen het kan uitproberen en verkennen.
Zelfs als deze trucs aandacht meer verliesgevend maken, is het potentieel om een grens-LLM te krijgen met een contextvenster van 10 of 20 miljoen tokens behoorlijk opwindend.
Je zou in principe alle belangrijke interne documenten van een bedrijf in een prompt-inleiding kunnen proppen en dit met OpenAI kunnen cachen en dan gewoon je specifieke vraag of prompt bovenop kunnen toevoegen en niet met zoektools hoeven om te gaan en het toch snel en kosteneffectief houden.
Of een hele codebase in de context plaatsen en deze cachen, en dan gewoon de equivalente van de git-diffs blijven toevoegen terwijl je wijzigingen aan de code aanbrengt.
Als je ooit verhalen hebt gelezen over de grote natuurkundige Hans Bethe, was hij bekend om het hebben van enorme hoeveelheden willekeurige fysieke feiten uit het hoofd (zoals de hele periodieke tabel; kookpunten van verschillende stoffen, enz.) zodat hij naadloos kon denken en rekenen zonder ooit zijn flow te onderbreken om iets op te zoeken in een referentietabel.
Het hebben van enorme hoeveelheden taak-specifieke kennis in je werkgeheugen is extreem nuttig. Dit lijkt een zeer slimme en aanvullende benadering te zijn om dat geheugenbank met 10x of meer uit te breiden.
Hier zijn enkele goede punten uit Claude Opus4.1 over het paper als je geen zin hebt om het hele stuk te lezen (het is ook behoorlijk technisch):




Het verhaal over hoe je oudere contextgeheugen op een verliesgevende manier zou kunnen "comprimeren" door automatisch de visuele representaties van die tokens te downsamplen (bijvoorbeeld van 1024x1024 pixels naar 512x512 pixels) om ruimte te besparen door die herinneringen "vager" te maken, spreekt rechtstreeks aan wat @karpathy pleitte in zijn Dwarkesh-interview over het minder afhankelijk maken van LLM's van exacte memorisatie. En natuurlijk weerspiegelt dit ook beter hoe de menselijke geest werkt.
62,21K
Boven
Positie
Favorieten