Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jeg liker den nye DeepSeek-OCR-artikkelen ganske godt. Det er en god OCR-modell (kanskje litt verre enn prikker), og ja datainnsamling osv., men uansett spiller det ingen rolle.
Den mer interessante delen for meg (spesielt som et datasyn i hjertet som midlertidig maskerer seg som en naturlig språkperson) er om piksler er bedre innganger til LLM-er enn tekst. Om teksttokens er bortkastet og bare forferdelig, ved inngangen.
Kanskje det gir mer mening at alle inndata til LLM-er bare skal være bilder. Selv om du tilfeldigvis har ren tekstinndata, foretrekker du kanskje å gjengi den og deretter mate den inn:
- mer informasjonskomprimering (se artikkelen) => kortere kontekstvinduer, mer effektivitet
- betydelig mer generell informasjonsstrøm => ikke bare tekst, men f.eks. fet tekst, farget tekst, vilkårlige bilder.
- Inndata kan nå behandles med toveis oppmerksomhet enkelt og som standard, ikke autoregressiv oppmerksomhet - mye kraftigere.
- slett tokenizeren (ved inngangen)!! Jeg har allerede raljert om hvor mye jeg misliker tokenizeren. Tokenizere er stygge, separate, ikke ende-til-ende-stadiet. Den "importerer" all styggheten til Unicode, byte-kodinger, den arver mye historisk bagasje, sikkerhets-/jailbreak-risiko (f.eks. fortsettelsesbyte). Det får to tegn som ser identiske ut for øyet til å se ut som to helt forskjellige tokens internt i nettverket. En smilende emoji ser ut som et merkelig token, ikke en... Faktisk smilende ansikt, piksler og alt, og all overføringslæringen som følger med. Tokenizeren må bort.
OCR er bare en av mange nyttige syns- > tekstoppgaver. Og tekst- > tekstoppgaver kan gjøres til visjons- >tekstoppgaver. Ikke omvendt.
Så mange brukermeldingen er bilder, men dekoderen (assistentens svar) forblir tekst. Det er mye mindre åpenbart hvordan man sender ut piksler realistisk ... eller hvis du vil.
Nå må jeg også kjempe mot trangen til å sidesøke en versjon av nanochat med kun bildeinndata...
Topp
Rangering
Favoritter