Ce document de NVIDIA vient de me retourner le cerveau. Tout le monde parle de l'échelle des transformateurs avec des clusters plus grands et des optimiseurs plus intelligents… pendant ce temps, NVIDIA et Oxford viennent de montrer qu'il est possible d'entraîner des modèles à un milliard de paramètres en utilisant des stratégies d'évolution, une méthode que la plupart des gens ont considérée comme ancienne. Le truc, c'est un nouveau système appelé EGGROLL, qui renverse tout le modèle de coût des ES. Normalement, les ES échouent à grande échelle parce qu'il faut générer des matrices de perturbation de rang complet pour chaque membre de la population. Pour des modèles à un milliard de paramètres, cela signifie un mouvement de mémoire insensé et un calcul ridicule. Ces gars-là ont résolu le problème en générant des perturbations de faible rang à l'aide de deux matrices fines A et B et en laissant ABᵀ agir comme mise à jour. La moyenne de la population se comporte alors comme une mise à jour de rang complet sans en payer le prix. Le résultat ? Ils exécutent des stratégies d'évolution avec des tailles de population dans les centaines de milliers, un nombre que les travaux antérieurs ne pouvaient pas atteindre parce que tout fondait sous la pression de la mémoire. Maintenant, le débit est pratiquement aussi rapide que l'inférence par lots. C'est sans précédent pour toute méthode sans gradient. Les mathématiques sont également vérifiées. L'approximation de faible rang converge vers le vrai gradient ES à un taux de 1/r, donc pousser le rang recrée le comportement complet des ES sans l'explosion computationnelle. Mais les expériences, c'est là que ça devient fou. → Ils préentraînent des LMs récurrents depuis zéro en utilisant uniquement des types de données entiers. Pas de gradients. Pas de rétropropagation. Entièrement stable même à hyperscale. → Ils égalent les méthodes de niveau GRPO sur les benchmarks de raisonnement LLM. Cela signifie que les ES peuvent rivaliser avec les approches modernes de RL pour le raisonnement sur des tâches réelles. → Les ES deviennent soudainement viables pour des systèmes massifs, discrets, hybrides et non différentiables, exactement là où la rétropropagation est douloureuse ou impossible. ...