DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

AI进化论-花生

Andrej Karpathy ehdotti radikaalia ajatusta: kaikkien LLM-syötteiden tulisi olla kuvia, myös pelkkää tekstiä. Mitä tarkoitat? Perinteiset suuret kielimallit: Tekstin → tokenisointi → LLM → tulos Andrejin visio: Teksti → renderöidään kuviksi → LLM → -tulosteen avulla Vaikka haluaisit syöttää pelkkää tekstiä, muodosta se kuvana ja syötä se malliin. Miksi tehdä näin? Hän antoi 4 syytä: 1. Tietojen pakkaus on tehokkaampaa Juuri tämän DeepSeek-OCR todistaa. Yksisivuisessa asiakirjassa perinteinen menetelmä voi vaatia 2 000 tekstimerkkiä ja visiotunnus vain 64. Puristussuhde 30 kertaa. Tekstimerkit ovat tuhlaavia, kuvamerkit ovat tiheämpiä. 2. Monipuolisempi Tekstimerkit voivat ilmaista vain sanoja. Mutta tosielämän tieto on muutakin kuin pelkkiä sanoja: - Lihavoitu, kursivointi - Värillinen teksti - Taulukot, kaaviot - Mielivaltaiset kuvat Kaikki renderöidään kuvasyötteinä, ja malli pystyy käsittelemään niitä luonnollisesti. 3. Voit käyttää kaksisuuntaista huomiota Tässä ovat tekniset tiedot. Perinteinen tekstistä tekstiksi -toiminto on itsestään regressiivinen (vasemmalta oikealle). Kuvasyöttöä voidaan käyttää kaksisuuntaisella huomiolla, katso globaalit tiedot, tehokkaampi. 4. Poista tokenizer (korostus!) ） Andrej vihaa tokenisoijoita. Hänen valituksensa: - Tokenizer on ruma, itsenäinen, ei-päästä päähän -vaihe - Se perii kaiken Unicode-historiallisen taakan, tavukoodauksen - On olemassa tietoturvariski (esim. jatkuvuustavuhyökkäys) - Kaksi samannäköistä hahmoa voivat olla täysin erilaisia tokenizerin silmissä - 😊 Tämä emoji on vain outo merkki Tokenizerissa, ei oikea hymiökuva Hän haluaa tokenisaattorin katoavan. Mikä on hänen visionsa - Syöte: Kaikki kuvat (vaikka ne olisivat alun perin tekstiä) - Tuloste: Still-teksti (koska lähtöpikselit ovat epärealistisia) OCR on vain yksi visio→tekstitehtävistä. Monet teksti→tekstitehtävät voidaan muuttaa visio→tekstiksi. Käsitykseni mukaan Andrejin näkökulma on radikaali, mutta siinä on järkeä. Informaatioteorian näkökulmasta kuvat ovat todellakin tehokkaampia kuin teksti. DeepSeek-OCR todistaa tämän: 64 näkömerkkiä voi ilmaista 2 000 tekstimerkin viestin. Yleisyyden näkökulmasta katsottuna kuvasyöttö tukee luonnollisesti erilaisia muotoja (lihavointi, väri, kaavio) eikä vaadi välikerrosta tokenisointia. Mutta ongelma on: 1. Laskentakustannukset: Vision Tokenien käsittely on kalliimpaa kuin tekstimerkkien. Vaikka tokenien määrä on pienempi, jokaisella visiotokenilla on suurempi määrä laskentaa. 2. Koulutustiedot: Suurin osa olemassa olevista koulutustiedoista on pelkkää tekstiä. Niiden kaikkien renderöinti kuviksi on kallista. 3. Tulostusongelmat: Hän myönsi myös, että lähtöpikselit ovat epärealistisia. Joten se voi olla vain sekoitus kuvasyötettä → tekstiä. Mutta pitkällä aikavälillä tämä suunta voi olla oikea. Erityisesti ottaen huomioon, että - Ihmisen panos on luonnostaan multimodaalista (teksti, kuvat, videot) - Tokenizerilla on paljon ongelmia (turvallisuus, Unicode, historialliset matkatavarat) - Tulevaisuuden tekoälyn pitäisi pystyä ymmärtämään pikseleitä suoraan sen sijaan, että se muuttaisi kaiken tokeneiksi DeepSeek-OCR voi olla vasta alkua. Se todistaa, että "kontekstuaalinen optinen pakkaus" on mahdollista. Andrej näkee pidemmän tulevaisuuden: maailman ilman tokenisaattoria, jossa kaikki syötteet ovat kuvia ja kaikki lähdöt ovat tekstiä. Toteutuuko tämä? Minä en tiedä. Mutta ainakin tämä suunta on tutkimisen arvoinen.

Johtavat

Rankkaus

Suosikit