Warum ist DeepSeek-OCR so ein großes Thema?
Bestehende LLMs haben Schwierigkeiten mit langen Eingaben, da sie nur eine feste Anzahl von Tokens verarbeiten können, die als Kontextfenster bekannt ist, und die Kosten für die Aufmerksamkeit schnell steigen, je länger die Eingaben sind.
DeepSeek-OCR verfolgt einen neuen Ansatz.
Anstatt langen Kontext direkt an ein LLM zu senden, verwandelt es ihn in ein Bild, komprimiert dieses Bild in visuelle Tokens und übergibt diese Tokens dann an das LLM.
Weniger Tokens führen zu geringeren Rechenkosten durch Aufmerksamkeit und einem größeren effektiven Kontextfenster. Dies macht Chatbots und Dokumentenmodelle leistungsfähiger und effizienter.
Wie ist DeepSeek-OCR aufgebaut? Das System hat zwei Hauptteile:
1. Encoder: Er verarbeitet ein Bild von Text, extrahiert die visuellen Merkmale und komprimiert sie in eine kleine Anzahl von Vision-Tokens.
2. Decoder: Ein Mixture of Experts-Sprachmodell, das diese Tokens liest und Text Token für Token generiert, ähnlich einem standardmäßigen Decoder-Only-Transformer.
Wann sollte man es verwenden?
DeepSeek-OCR zeigt, dass Text effizient mit visuellen Darstellungen komprimiert werden kann.
Es ist besonders nützlich für die Verarbeitung sehr langer Dokumente, die die standardmäßigen Kontextgrenzen überschreiten. Sie können es für Kontextkompression, standardmäßige OCR-Aufgaben oder tiefes Parsing verwenden, wie z.B. das Konvertieren von Tabellen und komplexen Layouts in Text.
Jetzt sind Sie dran: Was halten Sie davon, visuelle Tokens zu verwenden, um Probleme mit langem Kontext in LLMs zu lösen? Könnte dies der nächste Standard für große Modelle werden?
--
Wir haben gerade Become an AI Engineer | Learn by Doing: Cohort 2 gestartet. Wenn Sie Cohort 1 verpasst haben, ist jetzt Ihre Chance, sich uns für Cohort 2 anzuschließen.
Schauen Sie hier vorbei:
#AI #AIEngineer #MachineLearning