Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek a résolu le goulot d'étranglement de l'attention O(L²).
Leur nouveau modèle V3.2 introduit l'Attention Éparse DeepSeek (DSA), et c'est le seul changement architectural qu'ils ont effectué. Cela montre à quel point c'est important.
Ce que cela résout :
L'attention standard évolue de manière quadratique. Doublez votre longueur de contexte, quadruplez le calcul. C'est pourquoi l'inférence à long contexte devient rapidement coûteuse.
DSA réduit la complexité de O(L²) à O(Lk), où k est fixe.
Comment ça fonctionne :
Un indexeur Lightning léger évalue quels tokens sont réellement importants pour chaque requête. Un petit nombre de têtes, fonctionne en FP8, peu coûteux en calcul. Ensuite, un mécanisme de sélection récupère uniquement les entrées clé-valeur top-k.
L'idée clé : seulement 2 048 tokens sont sélectionnés par requête, quelle que soit la longueur du contexte. Le calcul d'attention coûteux se fait sur ce petit sous-ensemble, pas sur la séquence complète de 128K.
Moins d'attention, meilleurs résultats. DeepSeek V3.2 vient de le prouver.
Les résultats :
À 128K de contexte, les coûts de pré-remplissage passent de ~$0.65 à ~$0.35 par million de tokens. Le décodage passe de ~$2.4 à ~$0.8.
Et la performance ? Reste la même. Sur certains benchmarks à long contexte, V3.2 obtient en fait un score plus élevé.
L'attention éparse n'est pas nouvelle. Faire en sorte qu'elle fonctionne sans perdre en qualité est difficile.
DeepSeek l'a résolu avec un processus d'entraînement en deux étapes, d'abord en alignant l'indexeur en utilisant la divergence KL, puis en entraînant le modèle complet pour s'adapter aux motifs épars.
C'est ainsi que vous évoluez le contexte sans faire évoluer les coûts.
...

Meilleurs
Classement
Favoris

