SWE-penkki Verified on kultainen standardi koodausagenttien arvioinnissa: 500 todellista ongelmaa + OpenAI:n testiä. Kuulostaako luodinkestävältä? Liki. Näytämme läpäisevän sen yksikkötestit != vastaavan perustotuuden. ACL-paperissamme korjasimme bugisia evaleja: 24 % agenteista nousi tai laski tulostaulukossa! 1/7
Esimerkki: django PR-13933. Agentti korjasi virheilmoituksen, mutta keskeytti hiljaa normaalin suorituksen. Kaikki testit ovat vihreitä, kun taas korjaustiedosto kaatuisi tuotannossa. 3/7
SWE-penkin riittämättömien testitapausten korjaamiseksi kehitimme UTBoostin, LLM-pohjaisen testitapausgeneraattorin täysimittaisille Python-projekteille. Konepellin alla UTboost lokalisoi ensin asiaankuuluvan koodin hienorakeisella tavalla (tiedostotaso > toimintotaso > rivitaso) ja luo sitten automaattisesti pytest-tyyliset testit. 4/7
Luotujen testitapausten perusteella varmistimme niiden oikeellisuuden ja arvioimme uudelleen agentit SWE-bench Liten ja Verifiedin nykyisissä tulostaulukoissa: - SWE-penkki Lite: +28,4 % enemmän vääriä korjauksia - SWE-penkki vahvistettu: +15,7 % - Sijoitukset muuttuneet: 40,9 % (Lite) ja 24,4 % (vahvistettu) 5/7
Opetus: Testaus on vaikeaa ja vielä vaikeampaa, kun tekoäly kirjoittaa koodin. Vertailuarvojen on kehityttävä vahvempien, jatkuvasti kasvavien sviittien myötä. Toivomme, että UTBoost on yksi askel kohti luotettavampia evaleja. 6/7
Tämä on yhteistyötä @BoshCavendish, @maxYuxuanZhu ja @PinjiaHE kanssa 7/7
25,06K