Executamos nossa mais recente avaliação avançada de raciocínio Box AI no Opus 4.5 com esforço médio e alto e vimos um aumento de 20 pontos percentuais em relação ao Opus 4.1. O que é loucura pensar é que o Opus 4.1 saiu há apenas 3 meses. Essa avaliação se aproxima de aproximar o que um trabalhador do conhecimento faz como uma tarefa discreta com seus documentos empresariais. Pode ser um analista financeiro analisando uma empresa ou um consultor fazendo pesquisas para um cliente. A avaliação avalia o modelo de acordo com a forma como ele responde a um desafio de negócios complexo sob uma variedade de critérios. Ainda estamos no início dessa avaliação e vamos expandi-la para uma gama mais ampla de indústrias e casos de uso. O que está claro é que esses modelos de raciocínio mais recentes vão continuar melhorando em trabalhos economicamente úteis a cada atualização. Isso começou inicialmente com codificação, mas veremos melhorias semelhantes em saúde, direito, serviços financeiros, manufatura e muitos outros campos.