Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Évaluez les applications LLM conversationnelles comme ChatGPT en 3 étapes (open-source).
Contrairement aux tâches à un seul tour, les conversations se déroulent sur plusieurs messages.
Cela signifie que le comportement du LLM doit être cohérent, conforme et conscient du contexte à travers les tours, et pas seulement précis dans une sortie unique.
Dans DeepEval, vous pouvez le faire en seulement 3 étapes :
1) Définissez votre cas de test multi-tour comme un ConversationalTestCase.
2) Définissez une métrique avec ConversationalGEval en anglais simple.
3) Exécutez l'évaluation.
C'est fait !
Cela fournira une répartition détaillée des conversations qui ont réussi et de celles qui ont échoué, ainsi qu'une distribution des scores.
De plus, vous obtenez également une interface utilisateur complète pour inspecter les tours individuels.
Il y a deux bonnes choses à propos de cela :
- L'ensemble du pipeline est extrêmement simple à configurer et nécessite juste quelques lignes de code.
- DeepEval est 100 % open-source avec ~10k étoiles, et vous pouvez facilement l'auto-héberger pour que vos données restent là où vous le souhaitez.
Trouvez le dépôt dans les commentaires !
Si vous l’avez trouvé perspicace, partagez-le à nouveau avec votre réseau.
Trouvez-moi → @_avichawla
Chaque jour, je partage des tutoriels et des idées sur les DS, le ML, les LLM et les RAG.

5 août, 14:35
Évaluez les applications LLM conversationnelles comme ChatGPT en 3 étapes (open-source).
Contrairement aux tâches à un seul tour, les conversations se déroulent sur plusieurs messages.
Cela signifie que le comportement du LLM doit être cohérent, conforme et conscient du contexte à travers les tours, et pas seulement précis dans une sortie unique.
Dans DeepEval, vous pouvez le faire en seulement 3 étapes :
1) Définissez votre cas de test multi-tour comme un ConversationalTestCase.
2) Définissez une métrique avec ConversationalGEval en anglais simple.
3) Exécutez l'évaluation.
C'est fait !
Cela fournira une répartition détaillée des conversations qui ont réussi et de celles qui ont échoué, ainsi qu'une distribution des scores.
De plus, vous obtenez également une interface utilisateur complète pour inspecter les tours individuels.
Il y a deux bonnes choses à propos de cela :
- L'ensemble du pipeline est extrêmement simple à configurer et nécessite juste quelques lignes de code.
- DeepEval est 100 % open-source avec ~10k étoiles, et vous pouvez facilement l'auto-héberger pour que vos données restent là où vous le souhaitez.
Trouvez le dépôt dans les commentaires !
23,59K
Meilleurs
Classement
Favoris