ChatGPT のような会話型 LLM アプリを 3 つのステップで評価します (オープンソース)。 1 ターンのタスクとは異なり、会話は複数のメッセージにわたって展開されます。 これは、LLM の動作が、ワンショット出力で正確であるだけでなく、ターン全体で一貫性があり、準拠し、コンテキストを認識している必要があることを意味します。 DeepEvalでは、わずか3つのステップでそれを行うことができます。 1) マルチターンテストケースをConversationalTestCaseとして定義します。 2) ConversationalGEval を使用して平易な英語でメトリックを定義します。 3) 評価を実行します。 完成です! これにより、どの会話が成功し、どの会話が失敗したかの詳細な内訳と、スコアの分布が表示されます。 さらに、個々のターンを検査するための完全な UI も利用できます。 これには2つの良い点があります。 - パイプライン全体のセットアップは非常に簡単で、必要なコードはわずか数行です。 - DeepEval は 100% オープンソースで、~10 つ星を獲得しており、簡単にセルフホストできるため、データは必要な場所に保持されます。 コメントでリポジトリを見つけてください!
洞察力に富んでいると感じた場合は、ネットワークで再共有してください。 → @_avichawla探して 私は毎日、DS、ML、LLM、RA に関するチュートリアルと洞察を共有しています。
Avi Chawla
Avi Chawla8月5日 14:35
ChatGPT のような会話型 LLM アプリを 3 つのステップで評価します (オープンソース)。 1 ターンのタスクとは異なり、会話は複数のメッセージにわたって展開されます。 これは、LLM の動作が、ワンショット出力で正確であるだけでなく、ターン全体で一貫性があり、準拠し、コンテキストを認識している必要があることを意味します。 DeepEvalでは、わずか3つのステップでそれを行うことができます。 1) マルチターンテストケースをConversationalTestCaseとして定義します。 2) ConversationalGEval を使用して平易な英語でメトリックを定義します。 3) 評価を実行します。 完成です! これにより、どの会話が成功し、どの会話が失敗したかの詳細な内訳と、スコアの分布が表示されます。 さらに、個々のターンを検査するための完全な UI も利用できます。 これには2つの良い点があります。 - パイプライン全体のセットアップは非常に簡単で、必要なコードはわずか数行です。 - DeepEval は 100% オープンソースで、~10 つ星を獲得しており、簡単にセルフホストできるため、データは必要な場所に保持されます。 コメントでリポジトリを見つけてください!
23.57K