Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek resolvió el cuello de botella de atención O(L²).
Su nuevo modelo V3.2 introduce DeepSeek Sparse Attention (DSA), y es el único cambio arquitectónico que han realizado. Eso te dice lo importante que es esto.
¿Qué soluciona?
La atención estándar escala de forma cuadrática. Duplica la longitud del contexto, cuadruplica el cálculo. Por eso la inferencia de contexto largo se vuelve costosa rápidamente.
DSA reduce la complejidad de O(L²) a O(Lk), donde k es fijo.
Cómo funciona:
Un indexador Lightning ligero puntua qué tokens realmente importan para cada consulta. Pequeño número de cabezas, funciona en FP8, es computacionalmente barato. Luego, un mecanismo de selección recupera solo las k entradas clave-valor superiores.
La idea clave: solo se seleccionan 2.048 tokens por consulta, independientemente de la longitud del contexto. El costoso cálculo de atención ocurre en este pequeño subconjunto, no en la secuencia completa de 128K.
Menos atención, mejores resultados. DeepSeek V3.2 acaba de demostrarlo.
Los resultados:
En el contexto de 128K, los costes de pre-rellenado bajan de ~$0,65 a ~$0,35 por millón de tokens. La decodificación baja de ~$2,4 a ~$0,8.
¿Y el rendimiento? Se mantiene igual. En algunos benchmarks de contexto largo, la V3.2 en realidad obtiene una puntuación más alta.
La poca atención no es nueva. Hacer que funcione sin perder calidad es difícil.
DeepSeek lo resolvió con un proceso de entrenamiento en dos etapas, primero alineando el indexador usando la divergencia KL y luego entrenando el modelo completo para adaptarse a patrones dispersos.
Así es como se escala el contexto sin escalar los costes.
...

Populares
Ranking
Favoritas

