Werken aan de nieuwe Open Source Grok 2.5! We hebben het al kunnen Hot Rodden!! Het zijn vroege dagen en het kan mislukken, maar wat we hebben is: Een 268B MoE, 131k context, 8 experts, RoPE, 64 GQA aandachtshoofden met 8 KV hoofden, 64 lagen. Op elk moment zijn normaal gesproken slechts 2 experts actief. We hebben een manier gevonden om 4 tegelijkertijd te activeren met slechts een kleine prestatievermindering, ongeveer 1/3 meer GPU-geheugen en een verbazingwekkende toename in kwaliteit van de output! Als het onze tests doorstaat, zal ik een gedetailleerde handleiding publiceren!