熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

Daniel Kang
UIUC CS 助理教授。曾任職於斯坦福大學 DAWN 實驗室和伯克利天空實驗室。
我們在伯克利 AgentX 峰會的基準和評估專題中獲得了第一名!恭喜團隊 :)


Daniel Kang2025年7月9日
As AI agents near real-world use, how do we know what they can actually do? Reliable benchmarks are critical but agentic benchmarks are broken!
Example: WebArena marks "45+8 minutes" on a duration calculation task as correct (real answer: "63 minutes"). Other benchmarks misestimate agent competence by 1.6-100%.
Why are the evaluation foundations for agentic systems fragile? See below for thread and links
1/8
983
我不擅長準時發佈東西!(我的藉口是我今年又在 Addis Coder 教書)
這篇論文的海報會議正在進行中!
Session5: V-Gather 找到 2025年7月28日 18:00-19:30
跟 @ChuxuanHu 打個招呼 :)

Daniel Kang2025年7月29日
Can AI agents assess the reproducibility of research findings?
Our #ACL2025 paper shows that they fall short with REPRO-Bench, a new benchmark that evaluates agents on real-world social science reproducibility tasks of 112 papers, full PDFs, code, and data. Our highest performing agent scores <40%!
1/6

2.72K
我將在 SIGMOD 的海報會議 2 上發表演講(週三 16:00 波茨坦 II)。快來打個招呼吧!

Daniel Kang2025年6月24日
近似查詢處理 (AQP) 可以將長時間運行的分析查詢加速幾個數量級。但為什麼 AQP 在生產中仍然很少見呢?
為了解決這個問題,我們開發了 PilotDB,這是一個在線 AQP 中間版本,對 DBMS 進行 0 次更改,提供具有先驗錯誤保證的結果,並實現了高達 126 倍的加速。
1/8
748
@ZhanQiusi1將在週三上午 11 點的海報會議和週六的 TrustNLP 研討會(焦點演講)上展示我們的工作!如果你看到她,就打個招呼

Daniel Kang2025年3月13日
AI agents are increasingly popular (e.g., OpenAI's operator) but can be attacked to harm users!
We show that even with defenses, AI agents can still be compromised via indirect prompt injections via "adaptive attacks" in our NAACL 2025 findings paper
🧵 and links below

211
熱門
排行
收藏
鏈上熱點
X 熱門榜
近期融資
最受認可