Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
SWE-penkki Verified on kultainen standardi koodausagenttien arvioinnissa: 500 todellista ongelmaa + OpenAI:n testiä. Kuulostaako luodinkestävältä? Liki.
Näytämme läpäisevän sen yksikkötestit != vastaavan perustotuuden. ACL-paperissamme korjasimme bugisia evaleja: 24 % agenteista nousi tai laski tulostaulukossa!
1/7

Esimerkki: django PR-13933. Agentti korjasi virheilmoituksen, mutta keskeytti hiljaa normaalin suorituksen. Kaikki testit ovat vihreitä, kun taas korjaustiedosto kaatuisi tuotannossa.
3/7

SWE-penkin riittämättömien testitapausten korjaamiseksi kehitimme UTBoostin, LLM-pohjaisen testitapausgeneraattorin täysimittaisille Python-projekteille. Konepellin alla UTboost lokalisoi ensin asiaankuuluvan koodin hienorakeisella tavalla (tiedostotaso > toimintotaso > rivitaso) ja luo sitten automaattisesti pytest-tyyliset testit.
4/7
Luotujen testitapausten perusteella varmistimme niiden oikeellisuuden ja arvioimme uudelleen agentit SWE-bench Liten ja Verifiedin nykyisissä tulostaulukoissa:
- SWE-penkki Lite: +28,4 % enemmän vääriä korjauksia
- SWE-penkki vahvistettu: +15,7 %
- Sijoitukset muuttuneet: 40,9 % (Lite) ja 24,4 % (vahvistettu)
5/7
Opetus: Testaus on vaikeaa ja vielä vaikeampaa, kun tekoäly kirjoittaa koodin. Vertailuarvojen on kehityttävä vahvempien, jatkuvasti kasvavien sviittien myötä. Toivomme, että UTBoost on yksi askel kohti luotettavampia evaleja.
6/7
Tämä on yhteistyötä @BoshCavendish, @maxYuxuanZhu ja @PinjiaHE kanssa
7/7
25,06K
Johtavat
Rankkaus
Suosikit