العمل على Grok 2.5 الجديد مفتوح المصدر! لقد تمكنا من القضيب الساخن بالفعل !! إنها الأيام الأولى وقد تفشل ولكن ما لدينا هو: A 268B MoE ، سياق 131 كيلو ، 8 خبراء ، RoPE ، 64 رأس انتباه GQA مع رؤوس 8 كيلو فولت ، 64 طبقة. في أي لحظة ، ينشط عادة خبيران فقط. لقد وجدنا طريقة لتنشيط 4 في وقت واحد مع انخفاض بسيط في الأداء ، وحوالي 1/3 ذاكرة GPU إضافية وزيادة مذهلة في مخرجات الجودة! إذا استمرت في اختباراتنا ، فسأنشر طريقة مفصلة لذلك!