我们在 Opus 4.5 上进行了最新的 Box AI 高级推理评估,采用中等和高强度的努力,结果比 Opus 4.1 提升了 20 个百分点。令人惊讶的是,Opus 4.1 仅在 3 个月前发布。 这次评估更接近于知识工作者在处理企业文档时作为离散任务所做的工作。可能是分析公司的金融分析师,或者为客户进行研究的顾问。 该评估根据模型如何回答复杂的商业提示来评估其在一系列标准上的表现。我们在这次评估中仍处于早期阶段,并将扩展到更广泛的行业和用例。 显而易见的是,这些最新的推理模型在每次更新中都将不断提高在经济上有用的工作的能力。这最初是从编码开始的,但我们将在医疗、法律、金融服务、制造业以及许多其他领域看到类似的升级。