最近の開発者生産性 RCT から、自律型 AI エージェントが実際のソフトウェア タスクでどのように機能するかをテストしました。 アルゴリズムのスコアリングと現実世界のユーザビリティの間にギャップがあることがわかり、AIベンチマークが現実から切り離されているように感じる理由を説明するのに役立つ可能性があります。