Tôi không giỏi trong việc đăng tải mọi thứ đúng thời gian! (biện minh của tôi là tôi đang dạy tại Addis Coder một lần nữa năm nay) Buổi trình bày poster cho bài báo này đang diễn ra NGAY BÂY GIỜ! Phiên 5: V-Gather Tìm 7/28/2025 18:00-19:30 Chào @ChuxuanHu :)
Daniel Kang
Daniel Kang29 thg 7, 2025
Các tác nhân AI có thể đánh giá khả năng tái tạo của các kết quả nghiên cứu không? Bài báo #ACL2025 của chúng tôi cho thấy rằng họ không đạt được REPRO-Bench, một tiêu chuẩn mới đánh giá các tác nhân về các nhiệm vụ tái tạo khoa học xã hội trong thế giới thực của 112 bài báo, PDF đầy đủ, mã và dữ liệu. Điểm đại lý hiệu suất cao nhất của chúng tôi <40%! 1/6
2,73K