Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vakavampi lanka meneillään olevasta DeepSeek-OCR-hypestä / vakavasta väärintulkinnasta.
1.
Cambridgen tutkijat ovat aiemmin osoittaneet, että 500-kertainen kehotemerkkien pakkaus on mahdollista (ACL'25, Li, Su ja Collier).
Käyttämättä ajatusta tekstin muuntamisesta kuviksi.
2.
Meidän ei pitäisi katsoa DeepSeek OCR:n menestyksen johtuvan kuvan esittämisen voimasta.
Samaan aikaan ei ole mitään perustavanlaatuista vikaa tekstin esittämisessä millä tahansa tokenizerilla.
Itse asiassa voit tehdä päinvastoin kuin DeepSeek-OCR teki, eli voit esittää kuvia tekstimerkkien sarjana (joista jokainen edustaa RGB-arvojaan), ja asiat toimivat hyvin. (Katso LIFT-paperi.)
3.
Ainoa oikea johtopäätös on, että LLM:ien käyttämät nykyiset upotustilat ovat vain valtavia ja ehkä jopa erittäin tuhlaavia.
Ja mikä tärkeintä, emme hyödynnä niitä vielä täysimääräisesti.
4.
On paljon viimeaikaisia todisteita, jotka tukevat samaa sanomaa.
Esimerkiksi, että jos tarjoat kontekstissa esityksiä useista tehtävistä, mutta sekoitetaan yhteen kontekstiin, mallisi voi ratkaista useita ICL-ennustetehtäviä samanaikaisesti. (Katso EVERYTHING EVERYWHERE ALL AT ONCE-paperi.)
5.
TLDR;
- DeepSeek-OCR on siisti
- mutta voit saavuttaa korkeamman token-vähennysasteen vain hienosäätämällä LLM:iä puristetuissa tekstimerkeissä
- on enemmän todisteita siitä, että LLM:t eivät hyödynnä täysimääräisesti suurta upotustilaa ja valtavaa laskentamäärää, joka menee päättelyaikaan
- Ja se on ainoa todellinen take-away, joka sinun pitäisi ottaa pois



Johtavat
Rankkaus
Suosikit

