熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我不擅長準時發佈東西!(我的藉口是我今年又在 Addis Coder 教書)
這篇論文的海報會議正在進行中!
Session5: V-Gather 找到 2025年7月28日 18:00-19:30
跟 @ChuxuanHu 打個招呼 :)

2025年7月29日
AI 代理能否評估研究結果的可重複性?
我們的 #ACL2025 論文顯示,使用 REPRO-Bench 的 AI 代理在現實社會科學可重複性任務中表現不佳,該基準評估了 112 篇論文的完整 PDF、代碼和數據。我們表現最好的代理得分不到 40%!
1/6

2.72K
熱門
排行
收藏