Open LoRA 是规模变得实用的地方。 随着推理需求的加速,单个 GPU 可以服务于 1,000+ 个 LoRA 适配器,将每次推理的能源成本降低超过 99%。 这就是如何让模型切换变得便宜和快速。