Andrej Karpathy a propus o idee radicală: toate intrările LLM ar trebui să fie imagini, inclusiv text simplu. Ce vrei să spui? Modele tradiționale de limbaj mare: Text → tokenizer → ieșire LLM → Viziunea lui Andrej: Textul → redat în imagini → ieșirea LLM → Chiar dacă doriți să introduceți text simplu, redați-l ca imagine și alimentați-l cu modelul. De ce să faci asta? El a dat 4 motive: 1. Compresia informațiilor este mai eficientă Asta este exact ceea ce dovedește DeepSeek-OCR. Pentru un document de o pagină, metoda tradițională poate necesita 2.000 de jetoane text, iar jetonul de viziune are nevoie doar de 64. Raport de compresie de 30 de ori. Jetoanele de text sunt risipitoare, jetoanele de imagine sunt mai dense. 2. Mai versatil Jetoanele de text pot exprima doar cuvinte. Dar informațiile din lumea reală sunt mai mult decât cuvinte: - Aldine, cursiv - Text colorat - Tabele, diagrame - Imagini arbitrare Toate redate ca intrări de imagine, iar modelul le poate gestiona în mod natural. ...