正在开发新的开源Grok 2.5! 我们已经能够对其进行热处理!! 现在还处于早期阶段,可能会失败,但我们所拥有的是: 一个268B的MoE,131k的上下文,8个专家,RoPE,64个GQA注意力头和8个KV头,64层。 通常情况下,任何时刻只有2个专家处于活动状态。我们找到了一种方法,可以同时激活4个专家,性能仅略有下降,大约需要多1/3的GPU内存,并且输出质量显著提高! 如果它能通过我们的测试,我将发布详细的操作指南!
Brian Roemmele
Brian Roemmele2025年8月24日
I will be rewriting this article to use a compact version of the NEW FREE OPEN SOURCE @xai @Grok 2.5 soon! I will show you how to fine tune the model on your data for private non-cloud use on your computer. This will improve the quality by a magnitude! Working on it…
45.86K