Questo documento di NVIDIA mi ha appena fatto impazzire. Tutti continuano a parlare di come scalare i trasformatori con cluster più grandi e ottimizzatori più intelligenti… nel frattempo NVIDIA e Oxford hanno appena dimostrato che puoi addestrare modelli con miliardi di parametri utilizzando strategie evolutive, un metodo che la maggior parte delle persone ha scartato come antico. Il trucco è un nuovo sistema chiamato EGGROLL, che capovolge l'intero modello di costo delle strategie evolutive. Normalmente, le strategie evolutive falliscono su larga scala perché devi generare matrici di perturbazione a rango completo per ogni membro della popolazione. Per modelli con miliardi di parametri, ciò significa un movimento di memoria insano e un calcolo ridicolo. Questi ragazzi l'hanno risolto generando perturbazioni a basso rango utilizzando due matrici sottili A e B e lasciando che ABᵀ agisca come aggiornamento. La media della popolazione si comporta quindi come un aggiornamento a rango completo senza pagare il prezzo a rango completo. Il risultato? Eseguono strategie evolutive con dimensioni della popolazione nell'ordine delle centinaia di migliaia, un numero che i lavori precedenti non potevano toccare perché tutto si scioglieva sotto la pressione della memoria. Ora, il throughput è praticamente veloce come l'inferenza in batch. Questo è inaudito per qualsiasi metodo senza gradiente. Anche i calcoli sono corretti. L'approssimazione a basso rango converge al vero gradiente delle strategie evolutive a un tasso di 1/r, quindi spingere il rango ricrea il comportamento completo delle strategie evolutive senza l'esplosione computazionale. Ma gli esperimenti sono dove diventa folle. → Pre-addestrano LMs ricorrenti da zero utilizzando solo tipi di dati interi. Nessun gradiente. Nessun backprop. Completamente stabili anche a iperscala. → Eguagliano i metodi di livello GRPO nei benchmark di ragionamento LLM. Ciò significa che le strategie evolutive possono competere con gli approcci moderni di RL-per-ragionamento su compiti reali. → Le strategie evolutive diventano improvvisamente praticabili per sistemi massicci, discreti, ibridi e non differenziabili, i luoghi esatti in cui il backprop è doloroso o impossibile. ...