Jedną z rzeczy, o których często myślę, jest to, jak niezwykle przyspieszona komercyjna adopcja AI przyniosła wiele standardów z akademii (takich jak oceny/benchmarki), które nie są przydatne dla przeciętnej osoby czy firmy. Mierzenie rzeczywistego wykorzystania modeli i agentów będzie coraz bardziej potrzebne. Dla agentów kodujących bardziej użytecznymi danymi będą takie rzeczy jak pomyślnie scalone PR-y, koszt na zadanie itp.