Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¡Soy malo publicando cosas a tiempo! (mi excusa es que estoy enseñando en Addis Coder de nuevo este año)
¡La sesión de carteles para este artículo está sucediendo AHORA MISMO!
Sesión 5: V-Gather Encuentra 28/07/2025 18:00-19:30
Saluda a @ChuxuanHu :)

29 jul 2025
Can AI agents assess the reproducibility of research findings?
Our #ACL2025 paper shows that they fall short with REPRO-Bench, a new benchmark that evaluates agents on real-world social science reproducibility tasks of 112 papers, full PDFs, code, and data. Our highest performing agent scores <40%!
1/6

2,73K
Parte superior
Clasificación
Favoritos