En sak som jag tänker mycket på är hur extremt accelererad kommersiell användning av AI har fört med sig många standarder från den akademiska världen (som utvärderingar/benchmarks) som inte är användbara för den genomsnittliga personen eller företaget Det kommer att bli allt viktigare att mäta den verkliga användningen av modeller och agenter. För kodningsagenter kommer mer användbar data att vara saker som framgångsrikt sammanslagna PR:er, kostnad per uppgift osv.