Satu hal yang sering saya pikirkan adalah bagaimana adopsi komersial AI yang sangat dipercepat telah membawa banyak standar dari akademisi (seperti eval/benchmark) yang tidak berguna bagi rata-rata orang atau bisnis Mengukur penggunaan model dan agen di dunia nyata akan menjadi semakin dibutuhkan. Untuk agen pengkodean, data yang lebih berguna adalah hal-hal seperti PR yang berhasil digabungkan, biaya per tugas, dll.