Andrej Karpathy propuso una idea bastante radical: todas las entradas de los LLM deberían ser imágenes, incluyendo texto puro. ¿Qué significa esto? Modelos de lenguaje tradicionales: texto → tokenizer → LLM → salida La visión de Andrej: texto → renderizar como imagen → LLM → salida Incluso si lo que vas a ingresar es texto puro, primero se debe renderizar como imagen y luego alimentarlo al modelo. ¿Por qué hacer esto? Él dio 4 razones: 1. Compresión de información más eficiente Esto es precisamente lo que demostró DeepSeek-OCR. Una página de documento, de manera tradicional, podría necesitar 2000 tokens de texto, mientras que con tokens de visión solo se necesitan 64. Tasa de compresión de 30 veces. Los tokens de texto son muy derrochadores, los tokens de imagen son más densos. 2. Más general Los tokens de texto solo pueden expresar palabras. Pero la información del mundo real no es solo texto: - Negrita, cursiva - Texto en color - Tablas, gráficos - Cualquier imagen Todo renderizado como imagen de entrada, el modelo puede manejar esto de forma natural. ...