Uma ótima ferramenta para estimar quanto VRAM os seus LLMs realmente precisam. Altere a configuração de hardware, quantização, etc., e ela informa sobre: - Velocidade de geração (tokens/segundo) - Alocação de memória precisa - Throughput do sistema, etc. Chega de adivinhações sobre VRAM!