Anthropic 的工程團隊又推出了一個精彩的作品。 他們內部用於評估 AI 代理的手冊。 這是我從中學到的最反直覺的教訓: 不要測試你的代理所採取的步驟。測試它實際產出的結果。 這與每個本能相悖。你會認為檢查每一步能確保質量。但代理是有創造力的。它們會找到你未曾預料的解決方案。懲罰意外的路徑只會使你的評估變得脆弱。 重要的是最終結果。直接測試這一點。 手冊分解了三種類型的評分者: - 基於代碼的:快速且客觀,但對有效變化脆弱。 - 基於模型的:使用 LLM 作為評判,並有評分標準。靈活,但需要校準。 - 人類:黃金標準,但成本高昂。應謹慎使用。 它還涵蓋了針對編碼代理、對話代理、研究代理和計算機使用代理的評估策略。 關鍵要點: - 從 20-50 個真實失敗的測試案例開始 - 每次試驗應從乾淨的環境開始 - 進行多次試驗,因為模型輸出會有所不同 - 閱讀記錄。這是你捕捉評分錯誤的方式。 如果你認真對待發送可靠的代理,我強烈建議閱讀它。 下一條推文中有鏈接。