Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

AI进化论-花生
Andrej Karpathy ehdotti radikaalia ajatusta: kaikkien LLM-syötteiden tulisi olla kuvia, myös pelkkää tekstiä.
Mitä tarkoitat?
Perinteiset suuret kielimallit: Tekstin → tokenisointi → LLM → tulos
Andrejin visio: Teksti → renderöidään kuviksi → LLM → -tulosteen avulla
Vaikka haluaisit syöttää pelkkää tekstiä, muodosta se kuvana ja syötä se malliin.
Miksi tehdä näin?
Hän antoi 4 syytä:
1. Tietojen pakkaus on tehokkaampaa
Juuri tämän DeepSeek-OCR todistaa. Yksisivuisessa asiakirjassa perinteinen menetelmä voi vaatia 2 000 tekstimerkkiä ja visiotunnus vain 64. Puristussuhde 30 kertaa.
Tekstimerkit ovat tuhlaavia, kuvamerkit ovat tiheämpiä.
2. Monipuolisempi
Tekstimerkit voivat ilmaista vain sanoja. Mutta tosielämän tieto on muutakin kuin pelkkiä sanoja:
- Lihavoitu, kursivointi
- Värillinen teksti
- Taulukot, kaaviot
- Mielivaltaiset kuvat
Kaikki renderöidään kuvasyötteinä, ja malli pystyy käsittelemään niitä luonnollisesti.
3. Voit käyttää kaksisuuntaista huomiota
Tässä ovat tekniset tiedot. Perinteinen tekstistä tekstiksi -toiminto on itsestään regressiivinen (vasemmalta oikealle). Kuvasyöttöä voidaan käyttää kaksisuuntaisella huomiolla, katso globaalit tiedot, tehokkaampi.
4. Poista tokenizer (korostus!) )
Andrej vihaa tokenisoijoita.
Hänen valituksensa:
- Tokenizer on ruma, itsenäinen, ei-päästä päähän -vaihe
- Se perii kaiken Unicode-historiallisen taakan, tavukoodauksen
- On olemassa tietoturvariski (esim. jatkuvuustavuhyökkäys)
- Kaksi samannäköistä hahmoa voivat olla täysin erilaisia tokenizerin silmissä
- 😊 Tämä emoji on vain outo merkki Tokenizerissa, ei oikea hymiökuva
Hän haluaa tokenisaattorin katoavan.
Mikä on hänen visionsa
- Syöte: Kaikki kuvat (vaikka ne olisivat alun perin tekstiä)
- Tuloste: Still-teksti (koska lähtöpikselit ovat epärealistisia)
OCR on vain yksi visio→tekstitehtävistä. Monet teksti→tekstitehtävät voidaan muuttaa visio→tekstiksi.
Käsitykseni mukaan
Andrejin näkökulma on radikaali, mutta siinä on järkeä.
Informaatioteorian näkökulmasta kuvat ovat todellakin tehokkaampia kuin teksti. DeepSeek-OCR todistaa tämän: 64 näkömerkkiä voi ilmaista 2 000 tekstimerkin viestin.
Yleisyyden näkökulmasta katsottuna kuvasyöttö tukee luonnollisesti erilaisia muotoja (lihavointi, väri, kaavio) eikä vaadi välikerrosta tokenisointia.
Mutta ongelma on:
1. Laskentakustannukset: Vision Tokenien käsittely on kalliimpaa kuin tekstimerkkien. Vaikka tokenien määrä on pienempi, jokaisella visiotokenilla on suurempi määrä laskentaa.
2. Koulutustiedot: Suurin osa olemassa olevista koulutustiedoista on pelkkää tekstiä. Niiden kaikkien renderöinti kuviksi on kallista.
3. Tulostusongelmat: Hän myönsi myös, että lähtöpikselit ovat epärealistisia. Joten se voi olla vain sekoitus kuvasyötettä → tekstiä.
Mutta pitkällä aikavälillä tämä suunta voi olla oikea.
Erityisesti ottaen huomioon, että
- Ihmisen panos on luonnostaan multimodaalista (teksti, kuvat, videot)
- Tokenizerilla on paljon ongelmia (turvallisuus, Unicode, historialliset matkatavarat)
- Tulevaisuuden tekoälyn pitäisi pystyä ymmärtämään pikseleitä suoraan sen sijaan, että se muuttaisi kaiken tokeneiksi
DeepSeek-OCR voi olla vasta alkua. Se todistaa, että "kontekstuaalinen optinen pakkaus" on mahdollista.
Andrej näkee pidemmän tulevaisuuden: maailman ilman tokenisaattoria, jossa kaikki syötteet ovat kuvia ja kaikki lähdöt ovat tekstiä.
Toteutuuko tämä? Minä en tiedä.
Mutta ainakin tämä suunta on tutkimisen arvoinen.

Andrej Karpathy21.10.2025
I quite like the new DeepSeek-OCR paper. It's a good OCR model (maybe a bit worse than dots), and yes data collection etc., but anyway it doesn't matter.
The more interesting part for me (esp as a computer vision at heart who is temporarily masquerading as a natural language person) is whether pixels are better inputs to LLMs than text. Whether text tokens are wasteful and just terrible, at the input.
Maybe it makes more sense that all inputs to LLMs should only ever be images. Even if you happen to have pure text input, maybe you'd prefer to render it and then feed that in:
- more information compression (see paper) => shorter context windows, more efficiency
- significantly more general information stream => not just text, but e.g. bold text, colored text, arbitrary images.
- input can now be processed with bidirectional attention easily and as default, not autoregressive attention - a lot more powerful.
- delete the tokenizer (at the input)!! I already ranted about how much I dislike the tokenizer. Tokenizers are ugly, separate, not end-to-end stage. It "imports" all the ugliness of Unicode, byte encodings, it inherits a lot of historical baggage, security/jailbreak risk (e.g. continuation bytes). It makes two characters that look identical to the eye look as two completely different tokens internally in the network. A smiling emoji looks like a weird token, not an... actual smiling face, pixels and all, and all the transfer learning that brings along. The tokenizer must go.
OCR is just one of many useful vision -> text tasks. And text -> text tasks can be made to be vision ->text tasks. Not vice versa.
So many the User message is images, but the decoder (the Assistant response) remains text. It's a lot less obvious how to output pixels realistically... or if you'd want to.
Now I have to also fight the urge to side quest an image-input-only version of nanochat...
115,35K
Claude Code on paras automatisoitu kirjoitusagentti.
Tämän yli 3 000 sanan artikkelin teki 100-prosenttisesti Claude Code minulle, ja Xiaohongshun tiedot ovat hyviä, ja se on myös aiheuttanut paljon keskustelua, mutta kukaan ei näytä epäilevän, että tämä on tekoälyn kirjoittama artikkeli.
Myöhään jaa kirjoitusagenttini rakennusmenetelmä kommenttialueella

109,64K
Tekoälyn aikakaudella älä koskaan aliarvioi ihmisen luovuutta. Monet asiat, joita et voinut tehdä muutama kuukausi sitten, ja yrittäminen uudelleen nyt voi olla täysin erilaista.
Puoli vuotta sitten yritin kehittää sotilasaiheista 3D-räiskintäpeliä Cursor+Unityllä käyttämättä Unityä ollenkaan.
Suurin pullonkaula tuolloin oli 3D-omaisuus. Markkinoilta löytyvien erilaisten AI 3D -työkalujen tuottamat panssaroidut ajoneuvomallit ovat pohjimmiltaan soppamöykky, jota ei voi erottaa, ja tornia ja telaketjuja ja vauriovaikutuksia on mahdotonta animoida itsenäisesti, ja projekti on suoraan jumissa. Luulin, että se oli keltainen, kunnes näin @DeemosTech äskettäin
Heidän uudessa Rodin Gen-2:ssaan on arkkitehtuuri nimeltä BANG, joka on yksinkertaisesti hämmästyttävä, se ymmärtää, että malli koostuu eri osista, ja voi purkaa minkä tahansa 3D-mallin järkevän logiikan mukaan, kuten panssaroituja ajoneuvoja, helikoptereita, sotilaita jne.
Tässä tapauksessa voin hankkia itsenäisiä torneja, pyöriä jne., joita voidaan käyttää suoraan animaation sidontaan ja parametrien asettamiseen, mikä periaatteessa ratkaisee viime kerralla kohtaamani ongelman.
Yhtäkkiä tajusin, että jo puolen vuoden kuluttua lähes kaikki työkalut koko tekoälyn kehitysprosessissa on vaihdettu:
1. AI-ohjelmointityökalu on muutettu Cursorista Claude-koodiksi.
2. 2D-materiaali vaihdettiin Midjourneysta Nano Bananaan.
3. 3D-resurssien kehitys on kaikkein kumouksellisinta, suoraan leluista työkaluihin.
Älä siis aseta rajoja itsellesi, älä aseta rajoja tekoälylle, sinun tarvitsee vain miettiä selkeästi, mitä haluat tehdä, kokeilla sitä kuuden kuukauden välein, ja sinulla on todennäköisesti odottamattomia yllätyksiä.
Uskon, että hyper3D:n uudella kyvyllä on mahdollisuus parantaa monien pienten pelitiimien tehokkuutta, ja se antaa myös monille kaltaisilleni kehittäjille mahdollisuuden luoda ensimmäinen 3D-pelinsä.
73,81K
Johtavat
Rankkaus
Suosikit

