Perché DeepSeek-OCR è così IMPORTANTE?
I LLM esistenti hanno difficoltà con input lunghi perché possono gestire solo un numero fisso di token, noto come finestra di contesto, e il costo dell'attenzione cresce rapidamente man mano che gli input diventano più lunghi.
DeepSeek-OCR adotta un nuovo approccio.
Invece di inviare il lungo contesto direttamente a un LLM, lo trasforma in un'immagine, comprime quell'immagine in token visivi e poi passa quei token all'LLM.
Meno token portano a un costo computazionale inferiore per l'attenzione e a una finestra di contesto efficace più ampia. Questo rende i chatbot e i modelli di documenti più capaci ed efficienti.
Come è costruito DeepSeek-OCR? Il sistema ha due parti principali:
1. Encoder: Elabora un'immagine di testo, estrae le caratteristiche visive e le comprime in un numero ridotto di token visivi.
2. Decoder: Un modello linguistico Mixture of Experts che legge quei token e genera testo un token alla volta, simile a un trasformatore standard solo decoder.
Quando usarlo?
DeepSeek-OCR dimostra che il testo può essere compresso in modo efficiente utilizzando rappresentazioni visive.
È particolarmente utile per gestire documenti molto lunghi che superano i limiti standard di contesto. Puoi usarlo per la compressione del contesto, compiti OCR standard o parsing profondo, come convertire tabelle e layout complessi in testo.
A te la parola: Cosa ne pensi dell'uso di token visivi per affrontare problemi di lungo contesto negli LLM? Potrebbe diventare il prossimo standard per i modelli di grandi dimensioni?
--
Abbiamo appena lanciato Diventa un AI Engineer | Impara facendo: Coorte 2. Se ti sei perso la Coorte 1, ora hai la possibilità di unirti a noi per la Coorte 2.
Dai un'occhiata qui:
#AI #AIEngineer #MachineLearning