Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek właśnie opublikował dość szokujący nowy dokument. Naprawdę ukryli tu główną myśl, nazywając go po prostu DeepSeek OCR.
Chociaż jest to bardzo silny model OCR, jego cel i implikacje ich podejścia wykraczają daleko poza to, czego można by się spodziewać po "jeszcze jednym modelu OCR".
Tradycyjnie, tokeny wizji LLM wydawały się niemal myślą poboczną lub "przyczepioną" do paradygmatu LLM. A 10 tys. słów w języku angielskim zajmowałoby znacznie więcej miejsca w multimodalnym LLM, gdyby było wyrażone jako zrozumiałe piksele, niż gdyby było wyrażone jako tokeny.
Więc te 10 tys. słów mogło zamienić się w 15 tys. tokenów, lub 30 tys. do 60 tys. "tokenów wizualnych". Tak więc tokeny wizji były znacznie mniej efektywne i naprawdę miały sens tylko w przypadku danych, które nie mogły być skutecznie przekazane słowami.
Ale to teraz się odwraca w oparciu o pomysły zawarte w tym dokumencie. DeepSeek odkrył, jak uzyskać 10 razy lepszą kompresję przy użyciu tokenów wizualnych niż przy użyciu tokenów tekstowych! Teoretycznie można by więc przechować te 10 tys. słów w zaledwie 1,500 ich specjalnych skompresowanych tokenów wizualnych.
To może nie być tak nieoczekiwane, jak się wydaje, jeśli pomyślisz o tym, jak działa twój własny umysł. W końcu wiem, że kiedy szukam fragmentu książki, którą już przeczytałem, wyobrażam to sobie wizualnie i zawsze pamiętam, po której stronie książki to było i mniej więcej gdzie na stronie, co sugeruje, że działa jakaś forma wizualnej reprezentacji pamięci.
Teraz nie jest jasne, jak dokładnie to współdziała z innymi funkcjami poznawczymi LLM; czy model może rozumować tak inteligentnie na podstawie tych skompresowanych tokenów wizualnych, jak może to robić przy użyciu zwykłych tokenów tekstowych? Czy to sprawia, że model jest mniej elokwentny, zmuszając go do bardziej wizualnej modalności?
Ale można sobie wyobrazić, że w zależności od dokładnych kompromisów, może to być bardzo ekscytująca nowa oś do znacznego zwiększenia efektywnych rozmiarów kontekstu. Szczególnie w połączeniu z innym niedawnym dokumentem DeepSeek sprzed kilku tygodni na temat rzadkiej uwagi.
Z tego, co wiemy, Google mógł już coś takiego wymyślić, co mogłoby wyjaśniać, dlaczego Gemini ma tak ogromny rozmiar kontekstu i jest tak dobry i szybki w zadaniach OCR. Jeśli tak, prawdopodobnie by tego nie powiedzieli, ponieważ byłoby to postrzegane jako ważna tajemnica handlowa.
Ale miłą rzeczą w DeepSeek jest to, że uczynili to wszystko otwartym źródłem i otwartymi wagami oraz wyjaśnili, jak to zrobili, więc teraz każdy może to wypróbować i zbadać.
Nawet jeśli te sztuczki sprawiają, że uwaga jest bardziej stratna, potencjał uzyskania granicznego LLM z oknem kontekstowym 10 lub 20 milionów tokenów jest dość ekscytujący.
Można by zasadniczo wcisnąć wszystkie kluczowe dokumenty wewnętrzne firmy do wstępu do podpowiedzi i zbuforować to z OpenAI, a następnie po prostu dodać swoje konkretne zapytanie lub podpowiedź na to i nie musieć się martwić o narzędzia wyszukiwania, a nadal byłoby to szybkie i opłacalne.
Lub umieścić cały kod w kontekście i zbuforować go, a następnie po prostu kontynuować dodawanie odpowiednika różnic git, gdy wprowadzasz zmiany w kodzie.
Jeśli kiedykolwiek czytałeś historie o wielkim fizyku Hansie Bethe, był znany z tego, że miał zapamiętane ogromne ilości przypadkowych faktów fizycznych (jak cała tablica okresowa; temperatury wrzenia różnych substancji itp.), aby mógł płynnie myśleć i obliczać, nie przerywając nigdy swojego toku myślenia, aby coś sprawdzić w tabeli odniesień.
Posiadanie ogromnych ilości wiedzy specyficznej dla zadania w pamięci roboczej jest niezwykle przydatne. To wydaje się bardzo sprytnym i dodatnim podejściem do potencjalnego rozszerzenia tej pamięci o 10 razy lub więcej.
Oto kilka dobrych wniosków z Claude Opus4.1 na temat tego dokumentu, jeśli nie masz ochoty czytać całej treści (jest to również dość techniczne):




To, co mówisz o tym, jak można „kompresować” starsze pamięci kontekstowe w sposób stratny, automatycznie zmniejszając rozdzielczość wizualnych reprezentacji tych tokenów (powiedzmy, z 1024x1024 pikseli do 512x512 pikseli), aby zaoszczędzić miejsce, sprawiając, że te wspomnienia są „bardziej zamazane”, bezpośrednio odnosi się do tego, co @karpathy postulował w swoim wywiadzie z Dwarkesh o tym, aby LLM-y były mniej zależne od dokładnej memorii. I oczywiście, to lepiej odzwierciedla, jak działa ludzki umysł.
163,09K
Najlepsze
Ranking
Ulubione