Uma ótima ferramenta para estimar quanta VRAM seus LLMs realmente precisam. Altere a configuração de hardware, quantização, etc., ele informa sobre: - Velocidade de geração (tokens/s) - Alocação precisa de memória - Taxa de transferência do sistema, etc. Chega de adivinhar VRAM!