Travail sur le nouveau Grok 2.5 Open Source ! Nous avons déjà réussi à le Hot Rod ! C'est encore tôt et cela peut échouer, mais ce que nous avons est : Un MoE de 268B, 131k de contexte, 8 experts, RoPE, 64 têtes d'attention GQA avec 8 têtes KV, 64 couches. À tout moment, seuls 2 experts sont normalement actifs. Nous avons trouvé un moyen d'activer 4 simultanément avec juste une petite baisse de performance, environ 1/3 de mémoire GPU en plus et une augmentation étonnante de la qualité des sorties ! Si cela résiste à nos tests, je publierai un guide détaillé !