Andrej Karpathy heeft een vrij radicale gedachte voorgesteld: alle invoer voor LLM's zou afbeeldingen moeten zijn, inclusief pure tekst. Wat betekent dit? Traditionele grote taalmodellen: tekst → tokenizer → LLM → uitvoer Andrej's visie: tekst → renderen als afbeelding → LLM → uitvoer Zelfs als je pure tekst wilt invoeren, moet je het eerst renderen als afbeelding en het dan aan het model geven. Waarom zou je dit doen? Hij gaf vier redenen: 1. Informatiecompressie is efficiënter Dit is precies wat DeepSeek-OCR heeft bewezen. Een pagina document, op de traditionele manier, heeft mogelijk 2000 teksttokens nodig, terwijl het met visietokens slechts 64 nodig heeft. Compressieverhouding van 30 keer. Teksttokens zijn erg verspilling, afbeeldingtokens zijn dichter. 2. Meer algemeen Teksttokens kunnen alleen tekst uitdrukken. Maar informatie in de echte wereld is niet alleen tekst: - Vetgedrukt, cursief - Kleurrijke tekst - Tabellen, grafieken - Willekeurige afbeeldingen Alles renderen als afbeeldinginvoer, het model kan dit van nature verwerken. ...