Waarom is DeepSeek-OCR zo'n GROTE DEAL?
Bestaande LLM's hebben moeite met lange invoer omdat ze slechts een vast aantal tokens kunnen verwerken, bekend als het contextvenster, en de aandachtskosten snel toenemen naarmate de invoer langer wordt.
DeepSeek-OCR neemt een nieuwe benadering.
In plaats van lange context direct naar een LLM te sturen, verandert het het in een afbeelding, comprimeert die afbeelding in visuele tokens en geeft die tokens vervolgens door aan de LLM.
Minder tokens leiden tot lagere computatiekosten door aandacht en een groter effectief contextvenster. Dit maakt chatbots en documentmodellen capabeler en efficiënter.
Hoe is DeepSeek-OCR opgebouwd? Het systeem heeft twee hoofdonderdelen:
1. Encoder: Het verwerkt een afbeelding van tekst, extraheert de visuele kenmerken en comprimeert deze in een klein aantal visie-tokens.
2. Decoder: Een Mixture of Experts-taalmodel dat die tokens leest en tekst genereert, één token tegelijk, vergelijkbaar met een standaard decoder-only transformer.
Wanneer gebruik je het?
DeepSeek-OCR toont aan dat tekst efficiënt kan worden gecomprimeerd met behulp van visuele representaties.
Het is vooral nuttig voor het verwerken van zeer lange documenten die de standaard contextlimieten overschrijden. Je kunt het gebruiken voor contextcompressie, standaard OCR-taken of diepe parsing, zoals het omzetten van tabellen en complexe lay-outs in tekst.
Aan jou de vraag: Wat vind je van het gebruik van visuele tokens om problemen met lange context in LLM's aan te pakken? Zou dit de volgende standaard voor grote modellen kunnen worden?
--
We hebben zojuist Become an AI Engineer | Learn by Doing: Cohort 2 gelanceerd. Als je Cohort 1 hebt gemist, is dit je kans om je bij ons aan te sluiten voor Cohort 2.
Bekijk het hier:
#AI #AIEngineer #MachineLearning