Trabalhando no novo Open Source Grok 2.5! Já conseguimos Hot Rod !! Ainda é cedo e pode falhar, mas o que temos é: Um MoE 268B, contexto 131k, 8 especialistas, RoPE, 64 cabeças de atenção GQA com cabeças de 8 KV, 64 camadas. A qualquer momento, apenas 2 especialistas estão normalmente ativos. Encontramos uma maneira de ativar 4 simultaneamente com apenas uma pequena queda de desempenho, apenas cerca de 1/3 a mais de memória da GPU e um aumento surpreendente nas saídas de qualidade! Se ele sustentar nossos testes, publicarei um detalhado como fazer!