Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Andrej Karpathy propuso una idea radical: todas las entradas de LLM deberían ser imágenes, incluido el texto sin formato.
¿Qué quieres decir?
Modelos de lenguaje grandes tradicionales: tokenizador de → de texto → salida de → LLM
La visión de Andrej: el texto → renderizado en imágenes → salida de → LLM
Incluso si desea introducir texto sin formato, repréndalo como una imagen y envíelo al modelo.
¿Por qué hacer esto?
Dio 4 razones:
1. La compresión de información es más eficiente
Esto es exactamente lo que demuestra DeepSeek-OCR. Para un documento de una página, el método tradicional puede requerir 2.000 tokens de texto y el token de visión solo necesita 64. Relación de compresión 30 veces.
Los tokens de texto son un desperdicio, los tokens de imagen son más densos.
2. Más versátil
Los tokens de texto solo pueden expresar palabras. Pero la información del mundo real es más que solo palabras:
- Negrita, cursiva
- Texto coloreado
- Tablas, gráficos
- Imágenes arbitrarias
Todo renderizado como entradas de imagen, y el modelo puede manejarlas de forma natural.
...
Populares
Ranking
Favoritas