Varför är DeepSeek-OCR en så STOR SAK?
Befintliga LLM:er kämpar med långa indata eftersom de bara kan hantera ett fast antal tokens, känt som kontextfönstret, och uppmärksamhetskostnaden växer snabbt när indata blir längre.
DeepSeek-OCR tar ett nytt grepp.
I stället för att skicka lång kontext direkt till en LLM omvandlar den den till en bild, komprimerar bilden till visuella token och skickar sedan dessa token till LLM.
Färre token leder till lägre beräkningskostnader från uppmärksamhet och ett större effektivt kontextfönster. Detta gör chattrobotar och dokumentmodeller mer kapabla och effektiva.
Hur är DeepSeek-OCR uppbyggt? Systemet består av två huvuddelar:
1. Kodare: Den bearbetar en bild av text, extraherar de visuella funktionerna och komprimerar dem till ett litet antal visionstokens.
2. Avkodare: En språkmodell av en blandning av experter som läser dessa token och genererar text en token i taget, liknande en standardtransformator för endast avkodare.
När ska man använda den?
DeepSeek-OCR visar att text kan komprimeras effektivt med hjälp av visuella representationer.
Det är särskilt användbart för hantering av mycket långa dokument som överskrider standardkontextgränserna. Du kan använda den för kontextkomprimering, vanliga OCR-uppgifter eller djup parsning, som att konvertera tabeller och komplexa layouter till text.
Över till dig: Vad tycker du om att använda visuella tokens för att hantera problem med lång kontext i LLM? Kan detta bli nästa standard för stora modeller?
--
Vi har precis lanserat Bli en AI-ingenjör | Lär dig genom att göra: Kohort 2. Om du missade kohort 1 har du nu chansen att gå med oss i kohort 2.
Kolla in det här:
#AI #AIEngineer #MachineLearning
.