Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek har precis släppt en ganska chockerande ny artikel. De begravde verkligen lede här genom att hänvisa till det helt enkelt som DeepSeek OCR.
Även om det är en mycket stark OCR-modell, går syftet med den och konsekvenserna av deras tillvägagångssätt långt utöver vad man kan förvänta sig av "ännu en OCR-modell".
Traditionellt sett verkade vision LLM-tokens nästan som en eftertanke eller "bolt on" till LLM-paradigmet. Och 10k ord engelska skulle ta mycket mer plats i en multimodal LLM när de uttrycks som begripliga pixlar än när de uttrycks som tokens.
Så de 10 000 orden kan ha förvandlats till 15 000 tokens, eller 30 000 till 60 000 "visuella tokens". Så visionstokens var mycket mindre effektiva och var egentligen bara meningsfulla att använda för data som inte kunde förmedlas effektivt med ord.
Men det är nu omvänt från idéerna i den här uppsatsen. DeepSeek kom på hur man får 10 gånger bättre komprimering med hjälp av visionstokens än med texttokens! Så du skulle teoretiskt sett kunna lagra dessa 10 000 ord i bara 1 500 av deras speciella komprimerade visuella tokens.
Detta kanske inte är så oväntat som det låter om du tänker på hur ditt eget sinne fungerar. När allt kommer omkring vet jag att när jag letar efter en del av en bok som jag redan har läst, föreställer jag mig den visuellt och kommer alltid ihåg vilken sida av boken den var på och ungefär var på sidan den var, vilket tyder på någon form av visuell minnesrepresentation på jobbet.
Nu är det inte klart hur exakt detta interagerar med den andra nedströms kognitiva funktionen hos en LLM; Kan modellen resonera lika intelligent över dessa komprimerade visuella token som den kan med hjälp av vanliga texttoken? Gör det modellen mindre artikulerad genom att tvinga in den i en mer visionsorienterad modalitet?
Men du kan föreställa dig att det, beroende på de exakta kompromisserna, kan vara en mycket spännande ny axel för att kraftigt utöka effektiva kontextstorlekar. Speciellt i kombination med DeepSeeks andra nyligen publicerade artikel från ett par veckor sedan om sparsam uppmärksamhet.
För allt vi vet kan Google redan ha listat ut något liknande, vilket kan förklara varför Gemini har en så stor kontextstorlek och är så bra och snabb på OCR-uppgifter. Om de gjorde det skulle de förmodligen inte säga det eftersom det skulle ses som en viktig affärshemlighet.
Men det fina med DeepSeek är att de har gjort det hela med öppen källkod och öppna vikter och förklarat hur de gjorde det, så nu kan alla prova det och utforska.
Även om dessa knep gör uppmärksamheten mer förlustbringande, är potentialen att få en frontier LLM med ett kontextfönster på 10 eller 20 miljoner token ganska spännande.
Du kan i princip klämma in alla ett företags viktigaste interna dokument i en snabb ingress och cacha detta med OpenAI och sedan bara lägga till din specifika fråga eller uppmaning ovanpå det och inte behöva ta itu med sökverktyg och ändå få det att vara snabbt och kostnadseffektivt.
Eller lägg in en hel kodbas i kontexten och cacha den, och fortsätt sedan bara att lägga till motsvarigheten till git-diffarna när du gör ändringar i koden.
Om du någonsin har läst historier om den store fysikern Hans Bethe, var han känd för att ha stora mängder slumpmässiga fysiska fakta memorerade (som hela det periodiska systemet, kokpunkter för olika ämnen, etc.) så att han sömlöst kunde tänka och beräkna utan att någonsin behöva avbryta sitt flöde för att slå upp något i en referenstabell.
Att ha stora mängder uppgiftsspecifik kunskap i ditt arbetsminne är extremt användbart. Detta verkar vara ett mycket smart och additivt tillvägagångssätt för att potentiellt utöka minnesbanken med 10 gånger eller mer.
Här är några bra takeaways från Claude Opus4.1 på pappret om du inte känner för att läsa hela (det är också ganska tekniskt):




Det där om hur du kan "komprimera" äldre kontextminne på ett förlustbringande sätt genom att automatiskt nedsampla de visuella representationerna av dessa tokens (säg från 1024x1024 pixlar till 512x512 pixlar) för att spara utrymme genom att göra dessa minnen "suddigare" talar direkt till vad @karpathy förespråkade i sin Dwarkesh-intervju om att göra LLM:er mindre beroende av exakt memorering. Och naturligtvis speglar detta hur det mänskliga sinnet fungerar bättre också.
184,89K
Topp
Rankning
Favoriter