熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
Anthropic 的工程團隊又推出了一個精彩的作品。
他們內部用於評估 AI 代理的手冊。
這是我從中學到的最反直覺的教訓:
不要測試你的代理所採取的步驟。測試它實際產出的結果。
這與每個本能相悖。你會認為檢查每一步能確保質量。但代理是有創造力的。它們會找到你未曾預料的解決方案。懲罰意外的路徑只會使你的評估變得脆弱。
重要的是最終結果。直接測試這一點。
手冊分解了三種類型的評分者:
- 基於代碼的:快速且客觀,但對有效變化脆弱。
- 基於模型的:使用 LLM 作為評判,並有評分標準。靈活,但需要校準。
- 人類:黃金標準,但成本高昂。應謹慎使用。
它還涵蓋了針對編碼代理、對話代理、研究代理和計算機使用代理的評估策略。
關鍵要點:
- 從 20-50 個真實失敗的測試案例開始
- 每次試驗應從乾淨的環境開始
- 進行多次試驗,因為模型輸出會有所不同
- 閱讀記錄。這是你捕捉評分錯誤的方式。
如果你認真對待發送可靠的代理,我強烈建議閱讀它。
下一條推文中有鏈接。

熱門
排行
收藏
