Работаем над новой версией Open Source Grok 2.5! Мы уже смогли его разогнать!! Это еще ранние дни, и он может не сработать, но вот что у нас есть: 268B MoE, 131k контекст, 8 экспертов, RoPE, 64 GQA внимания с 8 KV головами, 64 слоя. В любой момент обычно активны только 2 эксперта. Мы нашли способ активировать 4 одновременно с небольшим падением производительности, всего около 1/3 дополнительной памяти GPU и удивительным увеличением качества выходных данных! Если он выдержит наши тесты, я опубликую подробное руководство!