Мы провели нашу последнюю оценку продвинутого рассуждения Box AI на Opus 4.5 с средними и высокими усилиями и увидели увеличение на 20 процентных пунктов по сравнению с Opus 4.1. Удивительно думать, что Opus 4.1 вышел всего 3 месяца назад. Эта оценка приближается к тому, что делает работник знаний как отдельную задачу с их корпоративными документами. Это может быть финансовый аналитик, который анализирует компанию, или консультант, проводящий исследование для клиента. Оценка оценивает модель по тому, как она отвечает на сложный бизнес-запрос по ряду критериев. Мы все еще на ранней стадии с этой оценкой и будем расширять ее на более широкий спектр отраслей и случаев использования. Ясно одно: эти последние модели рассуждений будут продолжать становиться все лучше и лучше в экономически полезной работе с каждым обновлением. Это началось с программирования, но мы увидим аналогичные обновления в здравоохранении, праве, финансовых услугах, производстве и многих других областях.