قم بتقييم تطبيقات LLM للمحادثة مثل ChatGPT في 3 خطوات (مفتوح المصدر). على عكس المهام أحادية المنعطف ، تتكشف المحادثات عبر رسائل متعددة. هذا يعني أن سلوك LLM يجب أن يكون متسقا ومتوافقا ومدركا للسياق عبر المنعطفات ، وليس دقيقا فقط في الإخراج من طلقة واحدة. في DeepEval ، يمكنك القيام بذلك من خلال 3 خطوات فقط: 1) حدد حالة الاختبار متعددة الأدوار على أنها ConversationalTestCase. 2) حدد مقياسا باستخدام ConversationalGEval بلغة إنجليزية بسيطة. 3) قم بإجراء التقييم. منجز! سيوفر هذا تفصيلا تفصيليا للمحادثات التي مرت والتي فشلت ، إلى جانب توزيع النتيجة. علاوة على ذلك ، يمكنك أيضا الحصول على واجهة مستخدم كاملة لفحص المنعطفات الفردية. هناك شيئان جيدان حول هذا: - يعد إعداد خط الأنابيب بأكمله أمرا بسيطا للغاية ولا يتطلب سوى بضعة أسطر من التعليمات البرمجية. - DeepEval مفتوح المصدر بنسبة 100٪ مع ~ 10 آلاف نجمة ، ويمكنك بسهولة استضافته ذاتيا حتى تظل بياناتك في المكان الذي تريده. ابحث عن الريبو في التعليقات!
إذا وجدت أنها ثاقبة ، فأعد مشاركتها مع شبكتك. ابحث عني → @_avichawla كل يوم ، أشارك البرامج التعليمية والرؤى حول DS و ML و LLMs و RAGs.
Avi Chawla
Avi Chawla‏5 أغسطس، 14:35
قم بتقييم تطبيقات LLM للمحادثة مثل ChatGPT في 3 خطوات (مفتوح المصدر). على عكس المهام أحادية المنعطف ، تتكشف المحادثات عبر رسائل متعددة. هذا يعني أن سلوك LLM يجب أن يكون متسقا ومتوافقا ومدركا للسياق عبر المنعطفات ، وليس دقيقا فقط في الإخراج من طلقة واحدة. في DeepEval ، يمكنك القيام بذلك من خلال 3 خطوات فقط: 1) حدد حالة الاختبار متعددة الأدوار على أنها ConversationalTestCase. 2) حدد مقياسا باستخدام ConversationalGEval بلغة إنجليزية بسيطة. 3) قم بإجراء التقييم. منجز! سيوفر هذا تفصيلا تفصيليا للمحادثات التي مرت والتي فشلت ، إلى جانب توزيع النتيجة. علاوة على ذلك ، يمكنك أيضا الحصول على واجهة مستخدم كاملة لفحص المنعطفات الفردية. هناك شيئان جيدان حول هذا: - يعد إعداد خط الأنابيب بأكمله أمرا بسيطا للغاية ولا يتطلب سوى بضعة أسطر من التعليمات البرمجية. - DeepEval مفتوح المصدر بنسبة 100٪ مع ~ 10 آلاف نجمة ، ويمكنك بسهولة استضافته ذاتيا حتى تظل بياناتك في المكان الذي تريده. ابحث عن الريبو في التعليقات!
‏‎23.59‏K