La LoRA abierta es donde la escala se vuelve práctica. A medida que la demanda de inferencia se acelera, una sola GPU puede servir a 1.000+ adaptadores LoRA, reduciendo los costes de energía por inferencia en más de un 99%. Así es como se hace que el cambio de modelo sea barato y rápido.