Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

DeepSeek acaba de publicar un nuevo artículo bastante impactante. Realmente enterraron el lede aquí refiriéndose a él simplemente como DeepSeek OCR. Si bien es un modelo de OCR muy sólido, el propósito del mismo y las implicaciones de su enfoque van mucho más allá de lo que cabría esperar de "otro modelo de OCR". Tradicionalmente, los tokens de visión LLM casi parecían una ocurrencia tardía o un "complemento" para el paradigma LLM. Y 10k palabras de inglés ocuparían mucho más espacio en un LLM multimodal cuando se expresan como píxeles inteligibles que cuando se expresan como tokens. Entonces, esas 10k palabras pueden haberse convertido en 15k tokens, o de 30k a 60k "tokens visuales". Por lo tanto, los tokens de visión eran mucho menos eficientes y realmente solo tenían sentido usarlos para datos que no se podían transmitir de manera efectiva con palabras. Pero eso se invierte ahora de las ideas de este artículo. ¡DeepSeek descubrió cómo obtener una compresión 10 veces mejor usando tokens de visión que con tokens de texto! Entonces, teóricamente, podría almacenar esas 10k palabras en solo 1,500 de sus tokens visuales comprimidos especiales. Esto puede no ser tan inesperado como parece si piensas en cómo funciona tu propia mente. Después de todo, sé que cuando busco una parte de un libro que ya he leído, lo imagino visualmente y siempre recuerdo en qué lado del libro estaba y aproximadamente en qué parte de la página estaba, lo que sugiere algún tipo de representación visual de la memoria en el trabajo. Ahora, no está claro cómo interactúa exactamente esto con el otro funcionamiento cognitivo posterior de un LLM; ¿Puede el modelo razonar de manera tan inteligente sobre esos tokens visuales comprimidos como puede usar tokens de texto normales? ¿Hace que el modelo sea menos articulado al forzarlo a una modalidad más orientada a la visión? Pero puede imaginar que, dependiendo de las compensaciones exactas, podría ser un nuevo eje muy emocionante para expandir en gran medida los tamaños de contexto efectivos. Especialmente cuando se combina con el otro artículo reciente de DeepSeek de hace un par de semanas sobre la escasa atención. Por lo que sabemos, Google ya podría haber descubierto algo como esto, lo que podría explicar por qué Gemini tiene un tamaño de contexto tan grande y es tan bueno y rápido en las tareas de OCR. Si lo hicieran, probablemente no lo dirían porque sería visto como un secreto comercial importante. Pero lo bueno de DeepSeek es que han hecho todo el código abierto y los pesos abiertos y han explicado cómo lo hicieron, por lo que ahora todos pueden probarlo y explorar. Incluso si estos trucos hacen que la atención sea más perjudicial, el potencial de obtener un LLM fronterizo con una ventana de contexto de 10 o 20 millones de tokens es bastante emocionante. Básicamente, podría meter todos los documentos internos clave de una empresa en un preámbulo rápido y almacenarlo en caché con OpenAI y luego simplemente agregar su consulta o mensaje específico encima de eso y no tener que lidiar con herramientas de búsqueda y aún así hacer que sea rápido y rentable. O coloque una base de código completa en el contexto y colóquela en caché, y luego siga agregando el equivalente de las diferencias de git a medida que realiza cambios en el código. Si alguna vez has leído historias sobre el gran físico Hans Bethe, era conocido por tener grandes cantidades de hechos físicos aleatorios memorizados (como toda la tabla periódica, puntos de ebullición de varias sustancias, etc.) para poder pensar y calcular sin problemas sin tener que interrumpir su flujo para buscar algo en una tabla de referencia. Tener una gran cantidad de conocimientos específicos de tareas en su memoria de trabajo es extremadamente útil. Esto parece un enfoque muy inteligente y aditivo para expandir potencialmente ese banco de memoria 10 veces o más.

Aquí hay algunas buenas conclusiones de Claude Opus4.1 en el papel si no tiene ganas de leerlo todo (también es bastante técnico):

Las cosas sobre cómo podría "comprimir" de manera con pérdidas la memoria de contexto más antigua reduciendo automáticamente la resolución de las representaciones visuales de esos tokens (digamos, de 1024x1024 píxeles a 512x512 píxeles) para ahorrar espacio haciendo que esos recuerdos sean "más borrosos" habla directamente de lo que @karpathy defendía en su entrevista con Dwarkesh sobre hacer que los LLM dependieran menos de la memorización exacta. Y, por supuesto, esto también refleja cómo funciona mejor la mente humana.

122.37K

Populares

Ranking

Favoritas