Společnost DeepSeek právě zveřejnila docela šokující nový článek. Opravdu zde pohřbili lede tím, že o něm mluvili jednoduše jako o DeepSeek OCR. I když se jedná o velmi silný model OCR, jeho účel a důsledky jejich přístupu daleko přesahují to, co byste očekávali od "dalšího modelu OCR". Tradičně se tokeny vision LLM zdály téměř jako dodatečný nápad nebo "přišroubování" k paradigmatu LLM. A 10 tisíc slov angličtiny by zabíralo mnohem více místa v multimodálním LLM, pokud by bylo vyjádřeno jako srozumitelné pixely, než kdyby bylo vyjádřeno jako tokeny. Takže těchto 10 tisíc slov se mohlo změnit na 15 tisíc tokenů nebo 30 až 60 tisíc "vizuálních tokenů". Tokeny vidění byly tedy mnohem méně efektivní a skutečně dávaly smysl používat pouze pro data, která nemohla být efektivně sdělena slovy. Ale to je nyní obráceno z myšlenek v tomto článku. DeepSeek přišel na to, jak dosáhnout 10x lepší komprese pomocí vizuálních tokenů než pomocí textových tokenů! Takže teoreticky byste mohli uložit těchto 10 tisíc slov do pouhých 1 500 jejich speciálních komprimovaných vizuálních tokenů. To nemusí být tak neočekávané, jak to zní, když se zamyslíte nad tím, jak funguje vaše vlastní mysl. Koneckonců vím, že když hledám část knihy, kterou jsem již četl, představuji si ji vizuálně a vždy si pamatuji, na které straně knihy byla a kde přibližně na stránce byla, což naznačuje určitý druh reprezentace vizuální paměti při práci. Nyní není jasné, jak přesně to interaguje s ostatními následnými kognitivními funkcemi LLM; Dokáže model uvažovat nad těmito komprimovanými vizuálními tokeny stejně inteligentně jako pomocí běžných textových tokenů? Činí model méně artikulovaným tím, že ho nutí k modalitě více orientované na vizi? Ale můžete si představit, že v závislosti na přesných kompromisech by to mohla být velmi vzrušující nová osa, která výrazně rozšíří efektivní velikosti kontextu. Zvláště v kombinaci s dalším nedávným článkem DeepSeek z doby před několika týdny o řídké pozornosti. Podle toho, co víme, Google už na něco takového mohl přijít, což by mohlo vysvětlovat, proč má Gemini tak obrovskou velikost kontextu a je tak dobrý a rychlý v úlohách OCR. Pokud by to udělali, pravděpodobně by to neřekli, protože by to bylo považováno za důležité obchodní tajemství. Ale pěkná věc na DeepSeek je, že celou věc udělali jako open source a open weight a vysvětlili, jak to udělali, takže si to teď může každý vyzkoušet a prozkoumat. I když tyto triky zhoršují pozornost, potenciál získání hraničního LLM s kontextovým oknem 10 nebo 20 milionů tokenů je docela vzrušující. V podstatě byste mohli nacpat všechny klíčové interní dokumenty společnosti do preambule výzvy a uložit ji do mezipaměti pomocí OpenAI a pak k tomu přidat svůj konkrétní dotaz nebo výzvu a nemuset se zabývat vyhledávacími nástroji a stále to být rychlé a nákladově efektivní. Nebo vložte do kontextu celý základ kódu a uložte jej do mezipaměti a pak při provádění změn v kódu pokračujte v připojování ekvivalentu rozdílů git. Pokud jste někdy četli příběhy o velkém fyzikovi Hansi Betheovi, byl známý tím, že si zapamatoval obrovské množství náhodných fyzikálních faktů (jako celou periodickou tabulku, body varu různých látek atd.), takže mohl plynule myslet a počítat, aniž by musel přerušit svůj tok a vyhledat něco v referenční tabulce. Mít v pracovní paměti obrovské množství znalostí o konkrétních úkolech je nesmírně užitečné. To se zdá jako velmi chytrý a aditivní přístup k potenciálnímu rozšíření této paměťové banky 10x nebo více.
Zde je několik dobrých poznatků z Claude Opus4.1 na papíře, pokud se vám nechce číst celou věc (je to také docela technické):
Věci o tom, jak byste mohli ztrátovým způsobem "komprimovat" starší kontextovou paměť automatickým převzorkováním vizuálních reprezentací těchto tokenů (řekněme z 1024x1024 pixelů na 512x512 pixelů), abyste ušetřili místo tím, že tyto vzpomínky učiníte "zamlženějšími", přímo hovoří o tom, co @karpathy obhajoval ve svém rozhovoru pro Dwarkesh o tom, aby LLM byly méně závislé na přesném zapamatování. A samozřejmě to také odráží, jak lépe funguje lidská mysl.
122,36K