Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Andrej Karpathy ha proposto un'idea molto radicale: tutti gli input degli LLM dovrebbero essere immagini, incluso il testo puro.
Cosa significa?
I tradizionali modelli di linguaggio di grandi dimensioni: testo → tokenizer → LLM → output
La visione di Andrej: testo → renderizzato come immagine → LLM → output
Anche se l'input è solo testo puro, deve prima essere renderizzato come immagine, poi fornito al modello.
Perché farlo?
Ha fornito 4 motivi:
1. Compressione delle informazioni più efficiente
Questo è esattamente ciò che DeepSeek-OCR ha dimostrato. Una pagina di documento, con il metodo tradizionale potrebbe richiedere 2000 token di testo, mentre con i token visivi ne bastano solo 64. Un tasso di compressione di 30 volte.
I token di testo sono molto spreconi, i token di immagine sono più densi.
2. Più universale
I token di testo possono esprimere solo parole. Ma le informazioni del mondo reale non sono solo parole:
- Grassetto, corsivo
- Testo colorato
- Tabelle, grafici
- Qualsiasi immagine
Tutto renderizzato come input immagine, il modello può naturalmente gestire tutto questo.
...
Principali
Ranking
Preferiti