vLLM offre prestazioni di inferenza ancora migliori con la stessa piattaforma GPU. In solo 1 mese, abbiamo collaborato con NVIDIA per aumentare il throughput massimo di @nvidia Blackwell per GPU fino al 33% -- riducendo significativamente il costo per token -- mentre abilitiamo anche velocità di picco ancora più elevate per i casi d'uso più sensibili alla latenza, grazie all'integrazione profonda di PyTorch e alla collaborazione.