Na minha opinião, SWE-bench e T-bench são os poucos benchmarks que têm um bom sinal em termos de quanto progresso fazemos com os modelos. Este modelo funciona tão bem quanto o Qwen3 Coder e é apenas 10% pior que o GPT-5, além de ser um LLM de uso geral em vez de especializado em código.