Sou mau em publicar coisas a tempo! (a minha desculpa é que estou a ensinar na Addis Coder novamente este ano) A sessão de pôsteres para este artigo está a acontecer AGORA! Sessão 5: V-Gather Encontre 28/07/2025 18:00-19:30 Diga olá ao @ChuxuanHu :)
Daniel Kang
Daniel Kang29/07/2025
Can AI agents assess the reproducibility of research findings? Our #ACL2025 paper shows that they fall short with REPRO-Bench, a new benchmark that evaluates agents on real-world social science reproducibility tasks of 112 papers, full PDFs, code, and data. Our highest performing agent scores <40%! 1/6
2,75K