Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Właśnie połączyłem PR dla środowiska, aby ulepszyć LLM jako sędziego, a także ocenić modele pod kątem ich zdolności do wydawania osądów!
Czy wiesz, że wszystkie weryfikowalne środowiska RL są prawie równoważne z testami porównawczymi (i na odwrót!)? Dlatego dodaliśmy polecenie evaluate do bazy Atropos i teraz możesz przeprowadzać testy porównawcze za pośrednictwem środowisk Atropos.
Byliśmy sfrustrowani pracą z tak wieloma frameworkami porównawczymi, które były przestarzałe lub bezużyteczne, więc zaimplementowaliśmy tryb tylko do oceny w Atropos, naszym frameworku środowisk RL.
Tak więc naszym pierwszym portem spoza naszych dotychczasowych środowisk była @natolambert's Reward-Bench!
Uwaga: w tej chwili obsługuje tylko generatywne modele nagród (zwykli sędziowie LLM).
Sprawdź PR tutaj:

20,72K
Najlepsze
Ranking
Ulubione