Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Yhdistin juuri PR:n ympäristölle, joka parantaa LLM:ää tuomarina sekä arvioi malleja heidän kyvystään tehdä arvioita!
Tiesitkö, että kaikki todennettavissa olevat RL-ympäristöt ovat lähes vertailuarvoja vastaavia (ja päinvastoin!)? Joten lisäsimme arviointikomennon Atroposin tukikohtaan ja nyt voit suorittaa vertailuarvoja Atropos-ympäristöissä.
Turhauduimme työskentelemään niin monien vanhentuneiden tai käyttökelvottomien vertailukehysten kanssa, joten otimme käyttöön vain arviointitilan Atroposissa, RL-ympäristökehyksessämme.
Joten ensimmäinen porttimme olemassa olevien ympäristöjemme ulkopuolelta oli @natolambert's Reward-Bench!
Huomaa: se tukee tällä hetkellä vain generatiivisia palkitsemismalleja (tavallisia LLM-tuomareita).
Katso PR täältä:

Johtavat
Rankkaus
Suosikit