Nuova, utile funzionalità di prestazione: Ordinamento delle partizioni Crea un piano di prestazione per dare priorità ai LLM veloci, senza alcun impatto sulla latenza
Puoi impostare `preferred_min_throughput` e `preferred_max_latency`. Come prima, puoi anche impostare un limite di costo.
96