トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
ChatGPT のような会話型 LLM アプリを 3 つのステップで評価します (オープンソース)。
1 ターンのタスクとは異なり、会話は複数のメッセージにわたって展開されます。
これは、LLM の動作が、ワンショット出力で正確であるだけでなく、ターン全体で一貫性があり、準拠し、コンテキストを認識している必要があることを意味します。
DeepEvalでは、わずか3つのステップでそれを行うことができます。
1) マルチターンテストケースをConversationalTestCaseとして定義します。
2) ConversationalGEval を使用して平易な英語でメトリックを定義します。
3) 評価を実行します。
完成です!
これにより、どの会話が成功し、どの会話が失敗したかの詳細な内訳と、スコアの分布が表示されます。
さらに、個々のターンを検査するための完全な UI も利用できます。
これには2つの良い点があります。
- パイプライン全体のセットアップは非常に簡単で、必要なコードはわずか数行です。
- DeepEval は 100% オープンソースで、~10 つ星を獲得しており、簡単にセルフホストできるため、データは必要な場所に保持されます。
コメントでリポジトリを見つけてください!
洞察力に富んでいると感じた場合は、ネットワークで再共有してください。
→ @_avichawla探して
私は毎日、DS、ML、LLM、RA に関するチュートリアルと洞察を共有しています。

8月5日 14:35
ChatGPT のような会話型 LLM アプリを 3 つのステップで評価します (オープンソース)。
1 ターンのタスクとは異なり、会話は複数のメッセージにわたって展開されます。
これは、LLM の動作が、ワンショット出力で正確であるだけでなく、ターン全体で一貫性があり、準拠し、コンテキストを認識している必要があることを意味します。
DeepEvalでは、わずか3つのステップでそれを行うことができます。
1) マルチターンテストケースをConversationalTestCaseとして定義します。
2) ConversationalGEval を使用して平易な英語でメトリックを定義します。
3) 評価を実行します。
完成です!
これにより、どの会話が成功し、どの会話が失敗したかの詳細な内訳と、スコアの分布が表示されます。
さらに、個々のターンを検査するための完全な UI も利用できます。
これには2つの良い点があります。
- パイプライン全体のセットアップは非常に簡単で、必要なコードはわずか数行です。
- DeepEval は 100% オープンソースで、~10 つ星を獲得しており、簡単にセルフホストできるため、データは必要な場所に保持されます。
コメントでリポジトリを見つけてください!
23.57K
トップ
ランキング
お気に入り