Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Un subiect mai serios despre hype-ul DeepSeek-OCR / interpretarea greșită gravă în curs.
1.
În ceea ce privește reducerea tokenului prin reprezentarea textului în imagini, cercetătorii de la Cambridge au arătat anterior că este posibilă compresia promptă a tokenului de 500 de ori (ACL'25, Li, Su și Collier).
Fără a folosi ideea de a converti text în imagini.
2.
Nu ar trebui să atribuim succesul DeepSeek OCR puterii reprezentării imaginilor.
În același timp, nu este nimic fundamental în neregulă cu reprezentarea textului cu orice tokenizator.
De fapt, puteți face opusul a ceea ce a făcut DeepSeek-OCR, adică puteți reprezenta imaginile ca o secvență de jetoane de text (fiecare reprezentând valorile lor RGB), iar lucrurile vor funcționa bine. (Vezi lucrarea LIFT.)
3.
Singura concluzie corectă este că spațiile de încorporare actuale utilizate de LLM-uri sunt enorme și poate chiar foarte risipitoare.
Și, cel mai important, nu le folosim încă pe deplin.
4.
Există multe dovezi recente care susțin același mesaj.
De exemplu, se arată că, dacă furnizați demonstrații în context din mai multe sarcini, dar amestecate într-un singur context, atunci modelul dumneavoastră poate rezolva mai multe sarcini de predicție ICL simultan. (Vezi lucrarea TOTUL PESTE TOT LA O DATĂ.)
5.
TLDR;
- DeepSeek-OCR este grozav
- dar puteți obține o rată mai mare de reducere a tokenurilor prin simpla reglare fină a LLM-urilor pe token-urile de text stoarse
- există mai multe dovezi că LLM-urile nu utilizează pe deplin spațiul mare de încorporare și cantitatea uriașă de calcul care intră în momentul inferenței
- și asta este singura concluzie reală pe care ar trebui să o iei



Limită superioară
Clasament
Favorite

