Bewerten Sie konversationelle LLM-Apps wie ChatGPT in 3 Schritten (Open-Source). Im Gegensatz zu Einzelturn-Aufgaben entfalten sich Gespräche über mehrere Nachrichten. Das bedeutet, dass das Verhalten des LLM über die Turns hinweg konsistent, konform und kontextbewusst sein muss, nicht nur in einer einmaligen Ausgabe genau. In DeepEval können Sie das in nur 3 Schritten tun: 1) Definieren Sie Ihren Multi-Turn-Testfall als ConversationalTestCase. 2) Definieren Sie eine Metrik mit ConversationalGEval in einfachem Englisch. 3) Führen Sie die Bewertung durch. Fertig! Dies bietet eine detaillierte Aufschlüsselung, welche Gespräche bestanden haben und welche nicht, zusammen mit einer Punktverteilung. Darüber hinaus erhalten Sie auch eine vollständige Benutzeroberfläche, um einzelne Turns zu inspizieren. Es gibt zwei gute Dinge daran: - Die gesamte Pipeline ist extrem einfach einzurichten und erfordert nur ein paar Zeilen Code. - DeepEval ist 100% Open-Source mit ~10k Sternen, und Sie können es leicht selbst hosten, damit Ihre Daten dort bleiben, wo Sie möchten. Finden Sie das Repository in den Kommentaren!
Wenn Sie es aufschlussreich fanden, teilen Sie es erneut mit Ihrem Netzwerk. Finde mich → @_avichawla Jeden Tag teile ich Tutorials und Einblicke in DS, ML, LLMs und RAGs.
Avi Chawla
Avi Chawla5. Aug., 14:35
Bewerten Sie konversationelle LLM-Apps wie ChatGPT in 3 Schritten (Open-Source). Im Gegensatz zu Einzelturn-Aufgaben entfalten sich Gespräche über mehrere Nachrichten. Das bedeutet, dass das Verhalten des LLM über die Turns hinweg konsistent, konform und kontextbewusst sein muss, nicht nur in einer einmaligen Ausgabe genau. In DeepEval können Sie das in nur 3 Schritten tun: 1) Definieren Sie Ihren Multi-Turn-Testfall als ConversationalTestCase. 2) Definieren Sie eine Metrik mit ConversationalGEval in einfachem Englisch. 3) Führen Sie die Bewertung durch. Fertig! Dies bietet eine detaillierte Aufschlüsselung, welche Gespräche bestanden haben und welche nicht, zusammen mit einer Punktverteilung. Darüber hinaus erhalten Sie auch eine vollständige Benutzeroberfläche, um einzelne Turns zu inspizieren. Es gibt zwei gute Dinge daran: - Die gesamte Pipeline ist extrem einfach einzurichten und erfordert nur ein paar Zeilen Code. - DeepEval ist 100% Open-Source mit ~10k Sternen, und Sie können es leicht selbst hosten, damit Ihre Daten dort bleiben, wo Sie möchten. Finden Sie das Repository in den Kommentaren!
23,57K