Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Andrej Karpathy foreslo en radikal idé: alle LLM-innganger skulle være bilder, inkludert ren tekst.
Hva mener du?
Tradisjonelle store språkmodeller: Tekst → tokenisering → LLM → utdata
Andrejs visjon: Tekst → gjengitt til bilder → LLM → utdata
Selv om du vil legge inn ren tekst, gjengi den som et bilde og mate den til modellen.
Hvorfor gjøre dette?
Han ga 4 grunner:
1. Informasjonskomprimering er mer effektiv
Dette er akkurat hva DeepSeek-OCR beviser. For et dokument på én side kan den tradisjonelle metoden kreve 2 000 teksttokener, og synstokenet trenger bare 64. Kompresjonsforhold 30 ganger.
Teksttokens er bortkastet, bildetokens er tettere.
2. Mer allsidig
Teksttokens kan bare uttrykke ord. Men informasjon fra den virkelige verden er mer enn bare ord:
- Fet skrift, kursiv
- Farget tekst
- Tabeller, diagrammer
- Vilkårlige bilder
Alt gjengitt som bildeinnganger, og modellen kan håndtere disse naturlig.
...
Topp
Rangering
Favoritter