DeepSeek acaba de publicar un nuevo documento bastante sorprendente. Realmente enterraron el lede aquí al referirse a él simplemente como DeepSeek OCR. Si bien es un modelo OCR muy sólido, el propósito de este y las implicaciones de su enfoque van mucho más allá de lo que esperarías de "otro modelo OCR más". Tradicionalmente, los tokens de LLM de visión casi parecían un pensamiento posterior o un "añadido" al paradigma de LLM. Y 10k palabras en inglés ocuparían mucho más espacio en un LLM multimodal cuando se expresan como píxeles inteligibles que cuando se expresan como tokens. Así que esas 10k palabras podrían haberse convertido en 15k tokens, o 30k a 60k "tokens visuales". Por lo tanto, los tokens de visión eran mucho menos eficientes y realmente solo tenían sentido para datos que no podían ser transmitidos de manera efectiva con palabras. Pero eso se invierte ahora a partir de las ideas en este documento. ¡DeepSeek descubrió cómo obtener una compresión 10 veces mejor usando tokens visuales que con tokens de texto! Así que podrías teóricamente almacenar esas 10k palabras en solo 1,500 de sus especiales tokens visuales comprimidos. Esto podría no ser tan inesperado como suena si piensas en cómo funciona tu propia mente. Después de todo, sé que cuando busco una parte de un libro que ya he leído, lo imagino visualmente y siempre recuerdo en qué lado del libro estaba y aproximadamente dónde en la página estaba, lo que sugiere algún tipo de representación de memoria visual en acción. Ahora, no está claro cómo interactúa exactamente esto con el otro funcionamiento cognitivo posterior de un LLM; ¿puede el modelo razonar tan inteligentemente sobre esos tokens visuales comprimidos como lo hace usando tokens de texto regulares? ¿Hace que el modelo sea menos articulado al forzarlo a una modalidad más orientada a la visión? Pero puedes imaginar que, dependiendo de los compromisos exactos, podría ser un nuevo eje muy emocionante para expandir enormemente los tamaños de contexto efectivos. Especialmente cuando se combina con el otro documento reciente de DeepSeek de hace un par de semanas sobre atención escasa. Por lo que sabemos, Google podría haber descubierto ya algo como esto, lo que podría explicar por qué Gemini tiene un tamaño de contexto tan grande y es tan bueno y rápido en tareas de OCR. Si lo hicieron, probablemente no lo dirían porque se vería como un importante secreto comercial. Pero lo bueno de DeepSeek es que han hecho todo el proceso de código abierto y han explicado cómo lo hicieron, así que ahora todos pueden probarlo y explorar. Incluso si estos trucos hacen que la atención sea más perdedora, el potencial de obtener un LLM de frontera con una ventana de contexto de 10 o 20 millones de tokens es bastante emocionante. Básicamente podrías meter todos los documentos internos clave de una empresa en un preámbulo de aviso y almacenar esto con OpenAI y luego simplemente agregar tu consulta o aviso específico encima de eso y no tener que lidiar con herramientas de búsqueda y aún así que sea rápido y rentable. O poner toda una base de código en el contexto y almacenarla, y luego simplemente seguir añadiendo el equivalente de los diffs de git a medida que haces cambios en el código. Si alguna vez has leído historias sobre el gran físico Hans Bethe, se le conocía por tener memorizados vastos cantidades de hechos físicos aleatorios (como toda la tabla periódica; puntos de ebullición de varias sustancias, etc.) para que pudiera pensar y calcular sin tener que interrumpir su flujo para buscar algo en una tabla de referencia. Tener vastas cantidades de conocimiento específico de tareas en tu memoria de trabajo es extremadamente útil. Este parece ser un enfoque muy ingenioso y aditivo para potencialmente expandir ese banco de memoria por 10 veces o más.
Aquí hay algunas buenas conclusiones de Claude Opus4.1 sobre el documento si no te apetece leerlo completo (también es bastante técnico):
Lo que se dice sobre cómo podrías "comprimir" de manera con pérdida la memoria de contexto más antigua al reducir automáticamente la resolución de las representaciones visuales de esos tokens (digamos, de 1024x1024 píxeles a 512x512 píxeles) para ahorrar espacio al hacer que esos recuerdos sean "más borrosos" habla directamente de lo que @karpathy defendía en su entrevista con Dwarkesh sobre hacer que los LLMs sean menos dependientes de la memorización exacta. Y, por supuesto, esto también refleja mejor cómo funciona la mente humana.
62,21K