Yhdistin juuri PR:n ympäristölle, joka parantaa LLM:ää tuomarina sekä arvioi malleja heidän kyvystään tehdä arvioita! Tiesitkö, että kaikki todennettavissa olevat RL-ympäristöt ovat lähes vertailuarvoja vastaavia (ja päinvastoin!)? Joten lisäsimme arviointikomennon Atroposin tukikohtaan ja nyt voit suorittaa vertailuarvoja Atropos-ympäristöissä. Turhauduimme työskentelemään niin monien vanhentuneiden tai käyttökelvottomien vertailukehysten kanssa, joten otimme käyttöön vain arviointitilan Atroposissa, RL-ympäristökehyksessämme. Joten ensimmäinen porttimme olemassa olevien ympäristöjemme ulkopuolelta oli @natolambert's Reward-Bench! Huomaa: se tukee tällä hetkellä vain generatiivisia palkitsemismalleja (tavallisia LLM-tuomareita). Katso PR täältä: