¡Trabajando en el nuevo Grok 2.5 de código abierto! ¡Ya hemos podido acelerarlo! Es pronto y puede fallar, pero lo que tenemos es: Un MoE de 268B, 131k de contexto, 8 expertos, RoPE, 64 cabezas de atención GQA con 8 cabezas KV, 64 capas. En cualquier momento, normalmente solo 2 expertos están activos. Hemos encontrado una manera de activar 4 simultáneamente con solo una pequeña caída en el rendimiento, aproximadamente 1/3 más de memoria GPU y un asombroso aumento en la calidad de las salidas. Si sostiene nuestras pruebas, ¡publicaré un detallado cómo hacerlo!