Realizámos a nossa mais recente avaliação de raciocínio avançado do Box AI no Opus 4.5 com esforço médio e alto e vimos um aumento de 20 pontos percentuais em relação ao Opus 4.1. O que é insano pensar é que o Opus 4.1 saiu há apenas 3 meses. Esta avaliação aproxima-se mais do que um trabalhador do conhecimento faz como uma tarefa discreta com os seus documentos empresariais. Pode ser um analista financeiro que está a analisar uma empresa ou um consultor a fazer pesquisa para um cliente. A avaliação avalia o modelo sobre como ele responde a um prompt de negócios complexo em uma variedade de critérios. Ainda estamos no início desta avaliação e iremos expandi-la para uma gama mais ampla de indústrias e casos de uso. O que é claro é que estes últimos modelos de raciocínio vão continuar a melhorar cada vez mais em trabalho economicamente útil a cada atualização. Isto começou inicialmente com programação, mas vamos ver atualizações semelhantes na saúde, direito, serviços financeiros, manufatura e muitos outros campos.