Mengerjakan Open Source Grok 2.5 yang baru! Kami sudah bisa Hot Rod !! Ini masih awal dan mungkin gagal, tetapi, apa yang kita miliki adalah: A 268B MoE, konteks 131k, 8 ahli, RoPE, 64 kepala perhatian GQA dengan 8 kepala KV, 64 lapisan. Setiap saat hanya 2 ahli yang biasanya aktif. Kami telah menemukan cara untuk mengaktifkan 4 secara bersamaan hanya dengan sedikit penurunan kinerja, hanya sekitar 1/3 lebih banyak memori GPU dan peningkatan kualitas yang menakjubkan! Jika itu mendukung pengujian kami, saya akan menerbitkan cara terperinci!