Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Questa è l'attenzione flash in avanti: `TestPcontig.test_flash_attention` Non c'è nemmeno un "fuse" attorno, il modello è ovvio dal flusso dei dati.
Il retro è privo di due trucchi: l'output di q.grad e k.grad insieme e la scelta di ricalcolare la matrice dei punteggi invece di salvarla.

Una volta che l'attenzione flash all'indietro è automatica, immagina gli altri schemi che scoprirà.
Per velocità, stiamo lavorando a un pass simile a thunderkittens che suddivide tutto in tessere 16x16. Niente più ragionamenti sui "locali," che è l'offerta di Triton.
Le persone sanno come leggere questi diagrammi? Rispetto ai post con codice, questi post non ottengono molta attenzione, ma trovo il diagramma molto più facile da comprendere.
10,36K
Principali
Ranking
Preferiti