Ejecutamos nuestra última evaluación avanzada de razonamiento de IA de Box en Opus 4.5 con un esfuerzo medio y alto y vimos un aumento de 20 puntos porcentuales respecto a Opus 4.1. Lo que es una locura pensar es que Opus 4.1 salió hace solo 3 meses. Esta evaluación se acerca más a aproximar lo que hace un trabajador del conocimiento como tarea discreta con sus documentos empresariales. Puede ser un analista financiero que analiza una empresa o un consultor que investiga para un cliente. La evaluación evalúa el modelo en cuanto a cómo responde a una pregunta empresarial compleja a través de una variedad de criterios. Todavía estamos al principio de esta evaluación y la ampliaremos a una gama más amplia de industrias y casos de uso. Lo que está claro es que estos últimos modelos de razonamiento van a seguir mejorando cada vez más en su trabajo rentable en cada actualización. Esto empezó inicialmente con la codificación, pero vamos a ver mejoras similares en sanidad, derecho, servicios financieros, manufactura y muchos otros campos.