Lavorando sul nuovo Open Source Grok 2.5! Siamo già riusciti a potenziarlo!! Siamo ancora nelle fasi iniziali e potrebbe fallire, ma ciò che abbiamo è: Un MoE da 268B, 131k di contesto, 8 esperti, RoPE, 64 teste di attenzione GQA con 8 teste KV, 64 strati. In qualsiasi momento, normalmente sono attivi solo 2 esperti. Abbiamo trovato un modo per attivare 4 simultaneamente con solo una piccola perdita di prestazioni, circa 1/3 di memoria GPU in più e un aumento straordinario nella qualità dei risultati! Se supera i nostri test, pubblicherò un dettagliato "come fare"!