Abbiamo eseguito la nostra ultima valutazione di ragionamento avanzato di Box AI su Opus 4.5 con sforzo medio e alto e abbiamo visto un aumento di 20 punti percentuali rispetto a Opus 4.1. È pazzesco pensare che Opus 4.1 sia uscito solo 3 mesi fa. Questa valutazione si avvicina di più ad approssimare ciò che un lavoratore della conoscenza fa come compito discreto con i propri documenti aziendali. Potrebbe essere un analista finanziario che analizza un'azienda o un consulente che fa ricerche per un cliente. La valutazione valuta il modello su come risponde a un complesso prompt aziendale su una serie di criteri. Siamo ancora all'inizio con questa valutazione e la espanderemo a un'ampia gamma di settori e casi d'uso. Ciò che è chiaro è che questi ultimi modelli di ragionamento continueranno a migliorare sempre di più nel lavoro economicamente utile ad ogni aggiornamento. Questo è iniziato inizialmente con la programmazione, ma vedremo aggiornamenti simili nella sanità, nel diritto, nei servizi finanziari, nella produzione e in molti altri settori.