Dlaczego DeepSeek-OCR jest tak WAŻNY?
Istniejące LLM-y mają problemy z długimi wejściami, ponieważ mogą obsługiwać tylko ograniczoną liczbę tokenów, znaną jako okno kontekstu, a koszt uwagi szybko rośnie w miarę wydłużania się wejść.
DeepSeek-OCR przyjmuje nowe podejście.
Zamiast wysyłać długi kontekst bezpośrednio do LLM, przekształca go w obraz, kompresuje ten obraz do wizualnych tokenów, a następnie przekazuje te tokeny do LLM.
Mniejsza liczba tokenów prowadzi do niższych kosztów obliczeniowych związanych z uwagą i większego efektywnego okna kontekstu. To sprawia, że chatboty i modele dokumentów są bardziej zdolne i wydajne.
Jak zbudowany jest DeepSeek-OCR? System ma dwie główne części:
1. Encoder: Przetwarza obraz tekstu, wyodrębnia cechy wizualne i kompresuje je do małej liczby tokenów wizji.
2. Decoder: Model językowy Mixture of Experts, który odczytuje te tokeny i generuje tekst jeden token na raz, podobnie jak standardowy transformator tylko z dekoderem.
Kiedy go używać?
DeepSeek-OCR pokazuje, że tekst można efektywnie kompresować za pomocą reprezentacji wizualnych.
Jest szczególnie przydatny do obsługi bardzo długich dokumentów, które przekraczają standardowe limity kontekstu. Możesz go używać do kompresji kontekstu, standardowych zadań OCR lub głębokiego parsowania, takiego jak konwertowanie tabel i złożonych układów na tekst.
Teraz twoja kolej: Co sądzisz o używaniu wizualnych tokenów do rozwiązywania problemów z długim kontekstem w LLM? Czy to może stać się nowym standardem dla dużych modeli?
--
Właśnie uruchomiliśmy Zostań inżynierem AI | Ucz się przez działanie: Grupa 2. Jeśli przegapiłeś Grupę 1, teraz masz szansę dołączyć do nas w Grupie 2.
Sprawdź to tutaj:
#AI #AIEngineer #MachineLearning