Andrej Karpathy foreslo en radikal idé: alle LLM-innganger skulle være bilder, inkludert ren tekst. Hva mener du? Tradisjonelle store språkmodeller: Tekst → tokenisering → LLM → utdata Andrejs visjon: Tekst → gjengitt til bilder → LLM → utdata Selv om du vil legge inn ren tekst, gjengi den som et bilde og mate den til modellen. Hvorfor gjøre dette? Han ga 4 grunner: 1. Informasjonskomprimering er mer effektiv Dette er akkurat hva DeepSeek-OCR beviser. For et dokument på én side kan den tradisjonelle metoden kreve 2 000 teksttokener, og synstokenet trenger bare 64. Kompresjonsforhold 30 ganger. Teksttokens er bortkastet, bildetokens er tettere. 2. Mer allsidig Teksttokens kan bare uttrykke ord. Men informasjon fra den virkelige verden er mer enn bare ord: - Fet skrift, kursiv - Farget tekst - Tabeller, diagrammer - Vilkårlige bilder Alt gjengitt som bildeinnganger, og modellen kan håndtere disse naturlig. ...