Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek har nettopp gitt ut en ganske sjokkerende ny artikkel. De begravde virkelig lederen her ved å referere til den ganske enkelt som DeepSeek OCR.
Selv om det er en veldig sterk OCR-modell, går formålet med den og implikasjonene av tilnærmingen deres langt utover det du forventer av "enda en OCR-modell."
Tradisjonelt virket visjon LLM-tokens nesten som en ettertanke eller "bolt on" til LLM-paradigmet. Og 10k ord engelsk ville ta opp langt mer plass i en multimodal LLM når den uttrykkes som forståelige piksler enn når den uttrykkes som tokens.
Så disse 10k ordene kan ha blitt til 15k tokens, eller 30k til 60k "visuelle tokens." Så visjonstokens var mye mindre effektive og ga egentlig bare mening å bruke for data som ikke kunne formidles effektivt med ord.
Men det blir snudd nå fra ideene i denne artikkelen. DeepSeek fant ut hvordan du kan få 10 ganger bedre komprimering ved hjelp av synstokens enn med teksttokens! Så du kan teoretisk lagre disse 10k ordene i bare 1,500 av deres spesielle komprimerte visuelle tokens.
Dette er kanskje ikke så uventet som det høres ut hvis du tenker på hvordan ditt eget sinn fungerer. Tross alt vet jeg at når jeg leter etter en del av en bok som jeg allerede har lest, forestiller jeg meg den visuelt og husker alltid hvilken side av boken den var på og omtrent hvor på siden den var, noe som antyder en slags visuell minnerepresentasjon på jobb.
Nå er det ikke klart hvordan nøyaktig dette samhandler med den andre nedstrøms kognitive funksjonen til en LLM; Kan modellen resonnere så intelligent over de komprimerte visuelle tokenene som den kan ved å bruke vanlige teksttokener? Gjør det modellen mindre artikulert ved å tvinge den inn i en mer visjonsorientert modalitet?
Men du kan forestille deg at, avhengig av de eksakte avveiningene, kan det være en veldig spennende ny akse for å utvide effektive kontekststørrelser. Spesielt når det kombineres med DeepSeeks andre nylige artikkel fra et par uker siden om sparsom oppmerksomhet.
For alt vi vet, kunne Google allerede ha funnet ut noe slikt, noe som kan forklare hvorfor Gemini har en så stor kontekststørrelse og er så god og rask på OCR-oppgaver. Hvis de gjorde det, ville de sannsynligvis ikke si det fordi det ville bli sett på som en viktig forretningshemmelighet.
Men det fine med DeepSeek er at de har gjort hele greia åpen kildekode og åpne vekter og forklart hvordan de gjorde det, så nå kan alle prøve det ut og utforske.
Selv om disse triksene gjør oppmerksomheten mer tapsfri, er potensialet for å få en grense-LLM med et kontekstvindu på 10 eller 20 millioner tokens ganske spennende.
Du kan i utgangspunktet stappe alle et selskaps viktigste interne dokumenter inn i en rask innledning og bufre dette med OpenAI og deretter bare legge til ditt spesifikke spørsmål eller ledetekst på toppen av det og ikke måtte forholde deg til søkeverktøy og fortsatt få det til å være raskt og kostnadseffektivt.
Eller legg inn en hel kodebase i konteksten og bufre den, og fortsett deretter å legge til tilsvarende git-diffs når du gjør endringer i koden.
Hvis du noen gang har lest historier om den store fysikeren Hans Bethe, var han kjent for å ha enorme mengder tilfeldige fysiske fakta memorert (som hele det periodiske systemet; kokepunktene til forskjellige stoffer, etc.) slik at han sømløst kunne tenke og beregne uten noen gang å måtte avbryte strømmen for å slå opp noe i en referansetabell.
Å ha enorme mengder oppgavespesifikk kunnskap i arbeidsminnet er ekstremt nyttig. Dette virker som en veldig smart og additiv tilnærming til potensielt å utvide minnebanken med 10 ganger eller mer.
Her er noen gode takeaways fra Claude Opus4.1 på papiret hvis du ikke har lyst til å lese hele greia (det er også ganske teknisk):




Greiene om hvordan du kan "komprimere" på en tapsfri måte eldre kontekstminne ved automatisk å nedsample de visuelle representasjonene av disse tokenene (for eksempel fra 1024x1024 piksler til 512x512 piksler) for å spare plass ved å gjøre disse minnene "tåkere" snakker direkte til det @karpathy tok til orde for i sitt Dwarkesh-intervju om å gjøre LLM-er mindre avhengige av eksakt memorering. Og selvfølgelig gjenspeiler dette hvordan menneskesinnet fungerer bedre også.
122,36K
Topp
Rangering
Favoritter