De ce este DeepSeek-OCR o afacere atât de mare?
LLM-urile existente se luptă cu intrări lungi, deoarece pot gestiona doar un număr fix de token-uri, cunoscut sub numele de fereastra de context, iar costul atenției crește rapid pe măsură ce intrările devin mai lungi.
DeepSeek-OCR are o nouă abordare.
În loc să trimită context lung direct la un LLM, îl transformă într-o imagine, comprimă acea imagine în tokenuri vizuale și apoi transmite acele tokenuri către LLM.
Mai puține jetoane duc la un cost de calcul mai mic din atenție și la o fereastră de context eficientă mai mare. Acest lucru face ca chatbot-urile și modelele de documente să fie mai capabile și mai eficiente.
Cum este construit DeepSeek-OCR? Sistemul are două părți principale:
1. Codificator: Procesează o imagine de text, extrage caracteristicile vizuale și le comprimă într-un număr mic de jetoane de viziune.
2. Decoder: Un model de limbaj Mix of Experts care citește acele jetoane și generează text un token pe rând, similar cu un transformator standard numai cu decodor.
Când să-l folosești?
DeepSeek-OCR arată că textul poate fi comprimat eficient folosind reprezentări vizuale.
Este util în special pentru manipularea documentelor foarte lungi care depășesc limitele standard de context. Îl puteți folosi pentru compresia contextului, sarcini OCR standard sau analiză profundă, cum ar fi conversia tabelelor și a machetelor complexe în text.
Ce părere aveți despre utilizarea tokenurilor vizuale pentru a gestiona problemele de context lung în LLM-uri? Ar putea deveni acesta următorul standard pentru modelele mari?
--
Tocmai am lansat Devino inginer AI | Învață făcând: Cohorta 2. Dacă ai ratat Grupul 1, acum este șansa ta să ni te alături pentru Cohorta 2.
Verifică-l aici:
#AI #AIEngineer #MachineLearning
.