Andrej Karpathy ha proposto un'idea molto radicale: tutti gli input degli LLM dovrebbero essere immagini, incluso il testo puro. Cosa significa? I tradizionali modelli di linguaggio di grandi dimensioni: testo → tokenizer → LLM → output La visione di Andrej: testo → renderizzato come immagine → LLM → output Anche se l'input è solo testo puro, deve prima essere renderizzato come immagine, poi fornito al modello. Perché farlo? Ha fornito 4 motivi: 1. Compressione delle informazioni più efficiente Questo è esattamente ciò che DeepSeek-OCR ha dimostrato. Una pagina di documento, con il metodo tradizionale potrebbe richiedere 2000 token di testo, mentre con i token visivi ne bastano solo 64. Un tasso di compressione di 30 volte. I token di testo sono molto spreconi, i token di immagine sono più densi. 2. Più universale I token di testo possono esprimere solo parole. Ma le informazioni del mondo reale non sono solo parole: - Grassetto, corsivo - Testo colorato - Tabelle, grafici - Qualsiasi immagine Tutto renderizzato come input immagine, il modello può naturalmente gestire tutto questo. ...