Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Questo documento di NVIDIA mi ha appena fatto impazzire.
Tutti continuano a parlare di come scalare i trasformatori con cluster più grandi e ottimizzatori più intelligenti… nel frattempo NVIDIA e Oxford hanno appena dimostrato che puoi addestrare modelli con miliardi di parametri utilizzando strategie evolutive, un metodo che la maggior parte delle persone ha scartato come antico.
Il trucco è un nuovo sistema chiamato EGGROLL, che capovolge l'intero modello di costo delle strategie evolutive.
Normalmente, le strategie evolutive falliscono su larga scala perché devi generare matrici di perturbazione a rango completo per ogni membro della popolazione. Per modelli con miliardi di parametri, ciò significa un movimento di memoria insano e un calcolo ridicolo.
Questi ragazzi l'hanno risolto generando perturbazioni a basso rango utilizzando due matrici sottili A e B e lasciando che ABᵀ agisca come aggiornamento.
La media della popolazione si comporta quindi come un aggiornamento a rango completo senza pagare il prezzo a rango completo.
Il risultato?
Eseguono strategie evolutive con dimensioni della popolazione nell'ordine delle centinaia di migliaia, un numero che i lavori precedenti non potevano toccare perché tutto si scioglieva sotto la pressione della memoria. Ora, il throughput è praticamente veloce come l'inferenza in batch.
Questo è inaudito per qualsiasi metodo senza gradiente.
Anche i calcoli sono corretti.
L'approssimazione a basso rango converge al vero gradiente delle strategie evolutive a un tasso di 1/r, quindi spingere il rango ricrea il comportamento completo delle strategie evolutive senza l'esplosione computazionale.
Ma gli esperimenti sono dove diventa folle.
→ Pre-addestrano LMs ricorrenti da zero utilizzando solo tipi di dati interi. Nessun gradiente. Nessun backprop. Completamente stabili anche a iperscala.
→ Eguagliano i metodi di livello GRPO nei benchmark di ragionamento LLM.
Ciò significa che le strategie evolutive possono competere con gli approcci moderni di RL-per-ragionamento su compiti reali.
→ Le strategie evolutive diventano improvvisamente praticabili per sistemi massicci, discreti, ibridi e non differenziabili, i luoghi esatti in cui il backprop è doloroso o impossibile.
...

Principali
Ranking
Preferiti

