Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek tocmai a lansat o nouă lucrare destul de șocantă. Au îngropat cu adevărat lede-ul aici, referindu-se la el pur și simplu ca DeepSeek OCR.
Deși este un model OCR foarte puternic, scopul acestuia și implicațiile abordării lor depășesc cu mult ceea ce te-ai aștepta de la "încă un model OCR".
În mod tradițional, tokenurile LLM de viziune păreau aproape că o gândire ulterioară sau o "șurubură" la paradigma LLM. Iar 10 mii de cuvinte în engleză ar ocupa mult mai mult spațiu într-un LLM multimodal atunci când sunt exprimate ca pixeli inteligibili decât atunci când sunt exprimate ca jetoane.
Deci, acele 10 mii de cuvinte s-ar fi putut transforma în jetoane de 15 mii sau 30 până la 60 de mii de "jetoane vizuale". Deci, jetoanele de viziune au fost mult mai puțin eficiente și au avut sens să fie folosite doar pentru date care nu puteau fi transmise eficient cu cuvinte.
Dar asta se inversează acum din ideile din această lucrare. DeepSeek și-a dat seama cum să obțină o compresie de 10 ori mai bună folosind jetoane de viziune decât cu jetoane de text! Deci, teoretic, ai putea stoca acele 10 mii de cuvinte în doar 1.500 de jetoane vizuale comprimate speciale.
Acest lucru s-ar putea să nu fie atât de neașteptat pe cât pare dacă te gândești la cum funcționează propria ta minte. La urma urmei, știu că atunci când caut o parte dintr-o carte pe care am citit-o deja, mi-o imaginez vizual și îmi amintesc întotdeauna pe ce parte a cărții se afla și aproximativ unde se afla pe pagină, ceea ce sugerează un fel de reprezentare a memoriei vizuale la lucru.
Acum, nu este clar cum anume interacționează acest lucru cu cealaltă funcționare cognitivă din aval a unui LLM; Poate modelul să raționeze la fel de inteligent peste acele jetoane vizuale comprimate ca și folosind jetoane de text obișnuite? Face modelul mai puțin articulat, forțându-l într-o modalitate mai orientată spre viziune?
Dar vă puteți imagina că, în funcție de compromisurile exacte, ar putea fi o nouă axă foarte interesantă pentru a extinde considerabil dimensiunile efective ale contextului. Mai ales când este combinat cu cealaltă lucrare recentă a DeepSeek de acum câteva săptămâni despre atenția rară.
Din câte știm, Google ar fi putut deja să-și dea seama de așa ceva, ceea ce ar putea explica de ce Gemini are o dimensiune de context atât de mare și este atât de bun și rapid la sarcinile OCR. Dacă ar face-o, probabil că nu ar spune pentru că ar fi văzut ca un secret comercial important.
Dar lucrul frumos despre DeepSeek este că au făcut totul open source și greutăți deschise și au explicat cum au făcut-o, așa că acum toată lumea poate încerca și explora.
Chiar dacă aceste trucuri fac atenția mai pierdută, potențialul de a obține un LLM de frontieră cu o fereastră de context de 10 sau 20 de milioane de jetoane este destul de interesant.
Practic, ați putea înghesui toate documentele interne cheie ale unei companii într-un preambul prompt și să le memorați în cache cu OpenAI și apoi să adăugați interogarea sau solicitarea specifică deasupra și să nu trebuiască să aveți de-a face cu instrumente de căutare și să fie în continuare rapid și rentabil.
Sau puneți o întreagă bază de cod în context și memorați-o în cache, apoi continuați să adăugați echivalentul diferențelor git pe măsură ce faceți modificări la cod.
Dacă ați citit vreodată povești despre marele fizician Hans Bethe, el a fost cunoscut pentru că a memorat cantități mari de fapte fizice aleatorii (cum ar fi întregul tabel periodic, puncte de fierbere ale diferitelor substanțe etc.), astfel încât să poată gândi și calcula fără probleme, fără a fi nevoit să-și întrerupă fluxul pentru a căuta ceva într-un tabel de referință.
A avea cantități mari de cunoștințe specifice sarcinii în memoria de lucru este extrem de util. Aceasta pare a fi o abordare foarte inteligentă și aditivă pentru a extinde potențiala acea bancă de memorie de 10 ori sau mai mult.
Iată câteva concluzii bune din Claude Opus4.1 pe hârtie dacă nu aveți chef să citiți totul (este, de asemenea, destul de tehnic):




Chestia despre cum ai putea "comprima" într-un mod cu pierderi memoria de context mai veche prin reducerea automată a reprezentărilor vizuale ale acelor jetoane (să zicem, de la 1024x1024 pixeli la 512x512 pixeli) pentru a economisi spațiu făcând acele amintiri "mai neclare" vorbește direct cu ceea ce @karpathy susținea în interviul său pentru Dwarkesh despre a face LLM-urile mai puțin dependente de memorarea exactă. Și, desigur, acest lucru oglindește modul în care mintea umană funcționează mai bine.
184,93K
Limită superioară
Clasament
Favorite