Arbeiten am neuen Open Source Grok 2.5! Wir konnten es bereits Hot Rod machen!! Es sind noch frühe Tage und es könnte scheitern, aber was wir haben, ist: Ein 268B MoE, 131k Kontext, 8 Experten, RoPE, 64 GQA-Attention-Head mit 8 KV-Head, 64 Schichten. In der Regel sind nur 2 Experten aktiv. Wir haben einen Weg gefunden, 4 gleichzeitig zu aktivieren, mit nur einem kleinen Leistungsabfall, etwa 1/3 mehr GPU-Speicher und einer erstaunlichen Steigerung der Qualitätsausgaben! Wenn es unsere Tests besteht, werde ich eine detaillierte Anleitung veröffentlichen!