Anthropicのエンジニアリング部門がまた一枚大ヒットを出しました。 AIエージェントを評価するための社内プレイブック。 ここから私が学んだ最も直感に反する教訓は以下の通りです: エージェントが取った手順を試さないでください。実際に何が出ているかをテストしてください。 これは本能に反する。各工程を確認することで品質が保証されていると思うかもしれません。しかし、エージェントは創造的です。彼らは予想外の解決策を見つけ出します。予期せぬ道を厳しく罰すると、評価が脆くなります。 重要なのは最終的な結果です。それを直接テストしてください。 このプレイブックは3種類のグレーダーを分類しています: - コードベース:迅速かつ客観的ですが、有効なバリエーションには脆弱です。 - モデルベース:ルーブリック付きの審査員としてのLLM。柔軟性はありますが、キャリブレーションが必要です。 - 人間:ゴールドスタンダードですが高価です。使用は控えめにしましょう。 また、コーディングエージェント、会話エージェント、リサーチエージェント、コンピュータ利用エージェントの評価戦略もカバーしています。 主なポイント: - 実際の失敗から20〜50件のテストケースから始める - 各試験は清潔な環境から開始すべきです - モデル出力が異なるため複数試行を実行する - 書き起こしを読め。これが採点のバグを見つける方法です。 信頼できる代理店を本気で送りたいなら、ぜひ読んでみることをおすすめします。 リンクは次のツイートで。