我不擅長準時發佈東西!(我的藉口是我今年又在 Addis Coder 教書) 這篇論文的海報會議正在進行中! Session5: V-Gather 找到 2025年7月28日 18:00-19:30 跟 @ChuxuanHu 打個招呼 :)
Daniel Kang
Daniel Kang2025年7月29日
AI 代理能否評估研究結果的可重複性? 我們的 #ACL2025 論文顯示,使用 REPRO-Bench 的 AI 代理在現實社會科學可重複性任務中表現不佳,該基準評估了 112 篇論文的完整 PDF、代碼和數據。我們表現最好的代理得分不到 40%! 1/6
2.72K