Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Uwaga z przesuwanym oknem (SWA) napędza nowoczesne modele hybrydowe dla efektywności. Czy jest coś lepszego?
Przedstawiamy Phalanx, szybszy i lepszej jakości zamiennik dla uwagi z przesuwanym oknem (SWA).
Phalanx to nowa rodzina warstw okienkowych, świadomych sprzętu i numerów, zaprojektowanych z myślą o lokalności danych oraz postrzępionych, wyrównanych blokowo oknach, które bezpośrednio mapują się na GPU.
W trakcie treningu, Phalanx zapewnia 10–40% wyższą przepustowość end-to-end przy długościach kontekstu 4K–32K w porównaniu do zoptymalizowanych hybryd SWA i Transformerów, redukując kosztowną komunikację między warpami.
Dziś publikujemy zarówno raport techniczny, bloga, jak i jądra Phalanx w spear, naszej bibliotece jąder badawczych.
Rekrutujemy.

Najlepsze
Ranking
Ulubione