Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hvorfor er DeepSeek-OCR en så STOR SAK?
Eksisterende LLM-er sliter med lange innganger fordi de bare kan håndtere et fast antall tokens, kjent som kontekstvinduet, og oppmerksomhetskostnadene vokser raskt etter hvert som inngangene blir lengre.
DeepSeek-OCR tar en ny tilnærming.
I stedet for å sende lang kontekst direkte til en LLM, gjør den det om til et bilde, komprimerer bildet til visuelle tokener og sender deretter disse tokenene til LLM.
Færre tokens fører til lavere beregningskostnader fra oppmerksomhet og et større effektivt kontekstvindu. Dette gjør chatbots og dokumentmodeller mer kapable og effektive.
Hvordan bygges DeepSeek-OCR? Systemet har to hoveddeler:
1. Koder: Den behandler et bilde av tekst, trekker ut de visuelle funksjonene og komprimerer dem til et lite antall synstokens.
2. Dekoder: En Blend of Experts-språkmodell som leser disse tokenene og genererer tekst ett token om gangen, på samme måte som en standard dekodertransformator.
Når skal du bruke den?
DeepSeek-OCR viser at tekst effektivt kan komprimeres ved hjelp av visuelle representasjoner.
Det er spesielt nyttig for håndtering av svært lange dokumenter som overskrider standard kontekstgrenser. Du kan bruke den til kontekstkomprimering, standard OCR-oppgaver eller dyp analyse, for eksempel konvertering av tabeller og komplekse oppsett til tekst.
Over til deg: Hva synes du om å bruke visuelle tokener for å håndtere problemer med lang kontekst i LLM-er? Kan dette bli den neste standarden for store modeller?
--
Vi har nettopp lansert Bli en AI-ingeniør | Lær ved å gjøre: Kohort 2. Hvis du gikk glipp av kohort 1, har du nå sjansen til å bli med oss på kohort 2.
Sjekk det ut her:
#AI #AIEngineer #MachineLearning...

Topp
Rangering
Favoritter

