Arvioi keskustelevia LLM-sovelluksia, kuten ChatGPT:tä, 3 vaiheessa (avoimen lähdekoodin). Toisin kuin yhden kierroksen tehtävät, keskustelut etenevät useiden viestien kautta. Tämä tarkoittaa, että LLM:n käyttäytymisen on oltava johdonmukaista, vaatimustenmukaista ja kontekstitietoista eri vuoroissa, ei vain tarkkaa kertalaukauksessa. DeepEvalissa voit tehdä sen vain 3 askeleella: 1) Määritä usean kierroksen testitapaus ConversationalTestCaseksi. 2) Määritä mittari ConversationalGEvalilla selkokielellä. 3) Suorita arviointi. Valmis! Tämä tarjoaa yksityiskohtaisen erittelyn siitä, mitkä keskustelut läpäisivät ja mitkä epäonnistuivat, sekä pistejakauman. Lisäksi saat myös täydellisen käyttöliittymän yksittäisten vuorojen tarkastamiseen. Tässä on kaksi hyvää puolta: - Koko putki on erittäin helppo asentaa ja vaatii vain muutaman rivin koodia. - DeepEval on 100 % avoimen lähdekoodin ~10k tähdellä, ja voit helposti isännöidä sitä, jotta tietosi pysyvät haluamassasi paikassa. Löydä repo kommenteista!
Jos se oli mielestäsi oivaltava, jaa se uudelleen verkostosi kanssa. Etsi minut → @_avichawla Jaan joka päivä opetusohjelmia ja näkemyksiä DS:stä, ML:stä, LLM:stä ja RAG:sta.
Avi Chawla
Avi Chawla5.8. klo 14.35
Arvioi keskustelevia LLM-sovelluksia, kuten ChatGPT:tä, 3 vaiheessa (avoimen lähdekoodin). Toisin kuin yhden kierroksen tehtävät, keskustelut etenevät useiden viestien kautta. Tämä tarkoittaa, että LLM:n käyttäytymisen on oltava johdonmukaista, vaatimustenmukaista ja kontekstitietoista eri vuoroissa, ei vain tarkkaa kertalaukauksessa. DeepEvalissa voit tehdä sen vain 3 askeleella: 1) Määritä usean kierroksen testitapaus ConversationalTestCaseksi. 2) Määritä mittari ConversationalGEvalilla selkokielellä. 3) Suorita arviointi. Valmis! Tämä tarjoaa yksityiskohtaisen erittelyn siitä, mitkä keskustelut läpäisivät ja mitkä epäonnistuivat, sekä pistejakauman. Lisäksi saat myös täydellisen käyttöliittymän yksittäisten vuorojen tarkastamiseen. Tässä on kaksi hyvää puolta: - Koko putki on erittäin helppo asentaa ja vaatii vain muutaman rivin koodia. - DeepEval on 100 % avoimen lähdekoodin ~10k tähdellä, ja voit helposti isännöidä sitä, jotta tietosi pysyvät haluamassasi paikassa. Löydä repo kommenteista!
23,61K