Realizamos nuestra última evaluación de razonamiento avanzado de Box AI en Opus 4.5 con esfuerzo medio y alto y vimos un aumento de 20 puntos porcentuales en comparación con Opus 4.1. Lo que es una locura pensar es que Opus 4.1 salió hace solo 3 meses. Esta evaluación se acerca más a aproximar lo que hace un trabajador del conocimiento como una tarea discreta con sus documentos empresariales. Podría ser un analista financiero que está analizando una empresa o un consultor haciendo investigaciones para un cliente. La evaluación evalúa el modelo sobre cómo responde a un complejo aviso empresarial a través de una variedad de criterios. Aún estamos en las primeras etapas de esta evaluación y la ampliaremos a una gama más amplia de industrias y casos de uso. Lo que está claro es que estos últimos modelos de razonamiento seguirán mejorando en el trabajo económicamente útil en cada actualización. Esto comenzó inicialmente con la codificación, pero veremos mejoras similares en atención médica, derecho, servicios financieros, manufactura y muchos otros campos.