Lucrez la noul Open Source Grok 2.5! Am reușit deja să-l facem Hot Rod!! Este devreme și s-ar putea să eșueze, dar ceea ce avem este: A 268B MoE, context 131k, 8 experți, RoPE, 64 capete de atenție GQA cu capete de 8 KV, 64 straturi. În orice moment, doar 2 experți sunt în mod normal activi. Am găsit o modalitate de a activa 4 simultan cu doar o mică scădere a performanței, doar aproximativ 1/3 mai multă memorie GPU și o creștere uimitoare a rezultatelor de calitate! Dacă susține testele noastre, voi publica un mod detaliat de cum!