分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

ChatGPT のような会話型 LLM アプリを 3 つのステップで評価します (オープンソース)。 1 ターンのタスクとは異なり、会話は複数のメッセージにわたって展開されます。これは、LLM の動作が、ワンショット出力で正確であるだけでなく、ターン全体で一貫性があり、準拠し、コンテキストを認識している必要があることを意味します。 DeepEvalでは、わずか3つのステップでそれを行うことができます。 1) マルチターンテストケースをConversationalTestCaseとして定義します。 2) ConversationalGEval を使用して平易な英語でメトリックを定義します。 3) 評価を実行します。完成です！これにより、どの会話が成功し、どの会話が失敗したかの詳細な内訳と、スコアの分布が表示されます。さらに、個々のターンを検査するための完全な UI も利用できます。これには2つの良い点があります。 - パイプライン全体のセットアップは非常に簡単で、必要なコードはわずか数行です。 - DeepEval は 100% オープンソースで、~10 つ星を獲得しており、簡単にセルフホストできるため、データは必要な場所に保持されます。コメントでリポジトリを見つけてください!

洞察力に富んでいると感じた場合は、ネットワークで再共有してください。 → @_avichawla探して私は毎日、DS、ML、LLM、RA に関するチュートリアルと洞察を共有しています。

23.57K

トップ

ランキング

お気に入り

Trending onchain

Trending on X

Recent top fundings

Most notable