私がよく考えていることの 1 つは、AI の商業的導入が極端に加速したことで、平均的な人や企業にとって役に立たない多くの基準 (評価/ベンチマークなど) が学界から引き継がれたことです モデルとエージェントの実際の使用状況を測定することは、ますます必要になります。コーディングエージェントにとって、より有用なデータは、正常にマージされたPR、タスクあたりのコストなどです。