DeepSeek julkaisi juuri melko järkyttävän uuden paperin. He todella hautasivat leden tänne viittaamalla siihen yksinkertaisesti nimellä DeepSeek OCR. Vaikka se on erittäin vahva OCR-malli, sen tarkoitus ja heidän lähestymistapansa vaikutukset menevät paljon pidemmälle kuin mitä voit odottaa "jälleen yhdeltä OCR-mallilta". Perinteisesti vision LLM -tokenit tuntuivat melkein jälkikäteen ajatellulta tai "pulttaukselta" LLM-paradigmaan. Ja 10 000 sanaa englantia veisi paljon enemmän tilaa multimodaalisessa LLM:ssä, kun se ilmaistaan ymmärrettävinä pikseleinä kuin tokeneina. Joten nuo 10 tuhatta sanaa ovat saattaneet muuttua 15 000 tokeniksi tai 30–60 000 "visuaaliseksi tokeniksi". Visiomerkit olivat siis paljon vähemmän tehokkaita, ja niitä oli järkevää käyttää vain tietoihin, joita ei voitu välittää tehokkaasti sanoin. Mutta se kääntyy nyt päinvastaiseksi tämän artikkelin ajatuksista. DeepSeek keksi, kuinka saada 10 kertaa parempi pakkaus käyttämällä näkömerkkejä kuin tekstimerkkejä! Joten teoriassa voisit tallentaa nämä 10 tuhatta sanaa vain 1 500 erityiseen pakattuun visuaaliseen merkkiin. Tämä ei ehkä ole niin odottamatonta kuin miltä se kuulostaa, jos ajattelet, miten oma mielesi toimii. Loppujen lopuksi tiedän, että kun etsin jo lukemaani kirjan osaa, kuvittelen sen visuaalisesti ja muistan aina, kummalla puolella kirjaa se oli ja suunnilleen missä sivulla se oli, mikä viittaa jonkinlaiseen visuaaliseen muistiesitykseen. Nyt ei ole selvää, miten tämä tarkalleen ottaen on vuorovaikutuksessa LLM:n toisen alavirran kognitiivisen toiminnan kanssa; Voiko malli päätellä yhtä älykkäästi näiden pakattujen visuaalisten merkkien yli kuin tavallisten tekstimerkkien avulla? Tekeekö se mallista vähemmän artikuloidun pakottamalla sen visiokeskeisempään muotoon? Mutta voit kuvitella, että tarkoista kompromisseista riippuen se voi olla erittäin jännittävä uusi akseli laajentaa tehokkaasti kontekstikokoja huomattavasti. Varsinkin kun se yhdistetään DeepSeekin toiseen viimeaikaiseen artikkeliin pari viikkoa sitten harvasta huomiosta. Tiedämme, että Google olisi jo voinut keksiä jotain tällaista, mikä voisi selittää, miksi Geminillä on niin valtava kontekstikoko ja se on niin hyvä ja nopea OCR-tehtävissä. Jos he tekisivät niin, he eivät luultavasti sanoisi, koska sitä pidettäisiin tärkeänä liikesalaisuutena. Mutta DeepSeekin hieno puoli on, että he ovat tehneet koko asiasta avoimen lähdekoodin ja avoimen painot ja selittäneet, miten he tekivät sen, joten nyt kaikki voivat kokeilla sitä ja tutkia. Vaikka nämä temput tekisivät huomiosta häviävämpää, mahdollisuus saada raja-LLM 10 tai 20 miljoonan tokenin kontekstiikkunalla on melko jännittävä. Voit periaatteessa pakata kaikki yrityksen tärkeimmät sisäiset asiakirjat nopeaan johdanto-osaan ja tallentaa sen välimuistiin OpenAI:n avulla ja lisätä sitten tietyn kyselyn tai kehotteen sen päälle, eikä sinun tarvitse käsitellä hakutyökaluja ja silti se on nopea ja kustannustehokas. Tai laita kokonainen koodikanta kontekstiin ja tallenna se välimuistiin, ja sitten vain jatka git-vertailujen liittämistä, kun teet muutoksia koodiin. Jos olet koskaan lukenut tarinoita suuresta fyysikosta Hans Bethestä, hänet tunnettiin siitä, että hänellä oli valtava määrä satunnaisia fysikaalisia faktoja ulkoa opeteltuna (kuten koko jaksollinen järjestelmä, eri aineiden kiehumispisteet jne.), jotta hän pystyi ajattelemaan ja laskemaan saumattomasti ilman, että hänen tarvitsi koskaan keskeyttää virtaustaan etsiäkseen jotain viitetaulukosta. Valtava määrä tehtäväkohtaista tietoa työmuistissasi on erittäin hyödyllistä. Tämä vaikuttaa erittäin fiksulta ja additiiviselta lähestymistavalta laajentaa muistipankkia mahdollisesti 10-kertaiseksi tai enemmän.
Tässä on joitain hyviä poimintoja Claude Opus4.1:stä paperilla, jos et halua lukea koko juttua (se on myös melko tekninen):
Juttu siitä, kuinka voit "pakata" häviöllisellä tavalla vanhemman kontekstin muistin vähentämällä automaattisesti noiden merkkien visuaalisia esityksiä (esimerkiksi 1024x1024 pikselistä 512x512 pikseliin) tilan säästämiseksi tekemällä muistoista "sumuisempia", puhuu suoraan siitä, mitä @karpathy kannatti Dwarkesh-haastattelussaan LLM:ien tekemisestä vähemmän riippuvaiseksi tarkasta muistamisesta. Ja tietysti tämä heijastaa myös sitä, miten ihmismieli toimii paremmin.
122,37K