We hebben onze nieuwste Box AI geavanceerde redeneerevaluatie uitgevoerd op Opus 4.5 met gemiddelde en hoge inspanning en zagen een stijging van 20 procentpunten ten opzichte van Opus 4.1. Wat bizar is om over na te denken, is dat Opus 4.1 pas 3 maanden geleden is uitgebracht. Deze evaluatie komt dichterbij wat een kenniswerker doet als een discrete taak met hun bedrijfsdocumenten. Het kan een financieel analist zijn die een bedrijf analyseert of een consultant die onderzoek doet voor een klant. De evaluatie beoordeelt het model op hoe het een complexe zakelijke prompt beantwoordt aan de hand van een reeks criteria. We zijn nog vroeg met deze evaluatie en zullen deze uitbreiden naar een breder scala aan industrieën en gebruiksgevallen. Wat duidelijk is, is dat deze nieuwste redeneer modellen steeds beter zullen worden in economisch nuttig werk bij elke update. Dit begon aanvankelijk met coderen, maar we zullen vergelijkbare upgrades zien in de gezondheidszorg, recht, financiële diensten, productie en vele andere gebieden.