Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek przełamał ograniczenie uwagi O(L²).
Ich nowy model V3.2 wprowadza DeepSeek Sparse Attention (DSA), a to jedyna zmiana architektoniczna, jaką wprowadzili. To pokazuje, jak ważne to jest.
Co to rozwiązuje:
Standardowa uwaga rośnie kwadratowo. Podwój długość kontekstu, czterokrotnie zwiększ obliczenia. Dlatego wnioskowanie z długim kontekstem szybko staje się kosztowne.
DSA obniża złożoność z O(L²) do O(Lk), gdzie k jest stałe.
Jak to działa:
Lekki Lightning Indexer ocenia, które tokeny są naprawdę istotne dla każdego zapytania. Mała liczba głów, działa w FP8, tanie obliczeniowo. Następnie mechanizm selekcji pobiera tylko najlepsze k wpisy klucz-wartość.
Kluczowa myśl: tylko 2,048 tokenów jest wybieranych na zapytanie, niezależnie od długości kontekstu. Kosztowne obliczenia uwagi odbywają się na tej małej podgrupie, a nie na pełnej sekwencji 128K.
Mniej uwagi, lepsze wyniki. DeepSeek V3.2 właśnie to udowodnił.
Wyniki:
Przy 128K kontekście, koszty wstępnego wypełniania spadają z ~$0.65 do ~$0.35 na milion tokenów. Dekodowanie spada z ~$2.4 do ~$0.8.
A wydajność? Pozostaje taka sama. W niektórych testach z długim kontekstem, V3.2 osiąga nawet wyższe wyniki.
Sparsowa uwaga nie jest nowością. Sprawienie, by działała bez utraty jakości, jest trudne.
DeepSeek to przełamał dzięki dwustopniowemu procesowi szkolenia, najpierw dostosowując indexer za pomocą KL-rozbieżności, a następnie trenując pełny model, aby dostosować się do rzadkich wzorców.
Tak skalujesz kontekst bez zwiększania kosztów.
...

Najlepsze
Ranking
Ulubione

