使用新的 MLX server_benchmark 進行持續批次處理,以在 M3 Ultra 上本地推送 MiniMax M2.1。 4位元: 1 個請求:48 t/s 32 個請求:220 t/s 🔥 8位元: 1 個請求:36 t/s 32 個請求:150t/s 🔥