Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Arvioi keskustelevia LLM-sovelluksia, kuten ChatGPT:tä, 3 vaiheessa (avoimen lähdekoodin).
Toisin kuin yhden kierroksen tehtävät, keskustelut etenevät useiden viestien kautta.
Tämä tarkoittaa, että LLM:n käyttäytymisen on oltava johdonmukaista, vaatimustenmukaista ja kontekstitietoista eri vuoroissa, ei vain tarkkaa kertalaukauksessa.
DeepEvalissa voit tehdä sen vain 3 askeleella:
1) Määritä usean kierroksen testitapaus ConversationalTestCaseksi.
2) Määritä mittari ConversationalGEvalilla selkokielellä.
3) Suorita arviointi.
Valmis!
Tämä tarjoaa yksityiskohtaisen erittelyn siitä, mitkä keskustelut läpäisivät ja mitkä epäonnistuivat, sekä pistejakauman.
Lisäksi saat myös täydellisen käyttöliittymän yksittäisten vuorojen tarkastamiseen.
Tässä on kaksi hyvää puolta:
- Koko putki on erittäin helppo asentaa ja vaatii vain muutaman rivin koodia.
- DeepEval on 100 % avoimen lähdekoodin ~10k tähdellä, ja voit helposti isännöidä sitä, jotta tietosi pysyvät haluamassasi paikassa.
Löydä repo kommenteista!
Jos se oli mielestäsi oivaltava, jaa se uudelleen verkostosi kanssa.
Etsi minut → @_avichawla
Jaan joka päivä opetusohjelmia ja näkemyksiä DS:stä, ML:stä, LLM:stä ja RAG:sta.

5.8. klo 14.35
Arvioi keskustelevia LLM-sovelluksia, kuten ChatGPT:tä, 3 vaiheessa (avoimen lähdekoodin).
Toisin kuin yhden kierroksen tehtävät, keskustelut etenevät useiden viestien kautta.
Tämä tarkoittaa, että LLM:n käyttäytymisen on oltava johdonmukaista, vaatimustenmukaista ja kontekstitietoista eri vuoroissa, ei vain tarkkaa kertalaukauksessa.
DeepEvalissa voit tehdä sen vain 3 askeleella:
1) Määritä usean kierroksen testitapaus ConversationalTestCaseksi.
2) Määritä mittari ConversationalGEvalilla selkokielellä.
3) Suorita arviointi.
Valmis!
Tämä tarjoaa yksityiskohtaisen erittelyn siitä, mitkä keskustelut läpäisivät ja mitkä epäonnistuivat, sekä pistejakauman.
Lisäksi saat myös täydellisen käyttöliittymän yksittäisten vuorojen tarkastamiseen.
Tässä on kaksi hyvää puolta:
- Koko putki on erittäin helppo asentaa ja vaatii vain muutaman rivin koodia.
- DeepEval on 100 % avoimen lähdekoodin ~10k tähdellä, ja voit helposti isännöidä sitä, jotta tietosi pysyvät haluamassasi paikassa.
Löydä repo kommenteista!
23,61K
Johtavat
Rankkaus
Suosikit