DeepSeek heeft de O(L²) aandacht bottleneck gekraakt. Hun nieuwe V3.2 model introduceert DeepSeek Sparse Attention (DSA), en het is de enige architecturale wijziging die ze hebben aangebracht. Dat zegt je hoe belangrijk dit is. Wat lost het op: Standaard aandacht schaalt kwadratisch. Verdubbel je contextlengte, verviervoudig de rekenkracht. Dit is waarom lange-context inferentie snel duur wordt. DSA brengt de complexiteit omlaag van O(L²) naar O(Lk), waarbij k vast is. Hoe het werkt: Een lichte Lightning Indexer beoordeelt welke tokens daadwerkelijk belangrijk zijn voor elke query. Klein aantal heads, draait in FP8, computationeel goedkoop. Vervolgens haalt een selectiemechanisme alleen de top-k sleutel-waarde-invoeren op. De belangrijkste inzicht: slechts 2.048 tokens worden per query geselecteerd, ongeacht de contextlengte. De dure aandacht berekening gebeurt op deze kleine subset, niet de volledige 128K reeks. Minder aandacht, betere resultaten. DeepSeek V3.2 heeft het net bewezen. De resultaten: Bij 128K context dalen de kosten voor pre-filling van ~$0.65 naar ~$0.35 per miljoen tokens. Decoderen daalt van ~$2.4 naar ~$0.8. En de prestaties? Blijft hetzelfde. Bij sommige lange-context benchmarks scoort V3.2 zelfs hoger. Sparse attention is niet nieuw. Het werkend krijgen zonder kwaliteitsverlies is moeilijk. DeepSeek heeft het gekraakt met een twee-fasen trainingsproces, eerst de indexer aligneren met behulp van KL-divergentie, en daarna het volledige model trainen om zich aan te passen aan sparse patronen. Dit is hoe je context schaalt zonder de kosten te schalen. ...