Sử dụng máy chủ MLX mới _server_benchmark để thực hiện batching liên tục nhằm đẩy MiniMax M2.1 cục bộ trên M3 Ultra. 4bit: 1 yêu cầu: 48 t/s 32 yêu cầu: 220 t/s 🔥 8bit: 1 yêu cầu: 36 t/s 32 yêu cầu: 150t/s 🔥