使用新的 MLX server_benchmark 进行连续批处理,以在 M3 Ultra 上本地推送 MiniMax M2.1。 4位: 1 个请求:48 t/s 32 个请求:220 t/s 🔥 8位: 1 个请求:36 t/s 32 个请求:150t/s 🔥