Andrej Karpathy propuso una idea radical: todas las entradas de LLM deberían ser imágenes, incluido el texto sin formato. ¿Qué quieres decir? Modelos de lenguaje grandes tradicionales: tokenizador de → de texto → salida de → LLM La visión de Andrej: el texto → renderizado en imágenes → salida de → LLM Incluso si desea introducir texto sin formato, repréndalo como una imagen y envíelo al modelo. ¿Por qué hacer esto? Dio 4 razones: 1. La compresión de información es más eficiente Esto es exactamente lo que demuestra DeepSeek-OCR. Para un documento de una página, el método tradicional puede requerir 2.000 tokens de texto y el token de visión solo necesita 64. Relación de compresión 30 veces. Los tokens de texto son un desperdicio, los tokens de imagen son más densos. 2. Más versátil Los tokens de texto solo pueden expresar palabras. Pero la información del mundo real es más que solo palabras: - Negrita, cursiva - Texto coloreado - Tablas, gráficos - Imágenes arbitrarias Todo renderizado como entradas de imagen, y el modelo puede manejarlas de forma natural. ...