Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
"Jedną z bardzo mylących rzeczy dotyczących modeli w tej chwili jest to, jak pogodzić fakt, że radzą sobie tak dobrze na ocenach.
Patrzysz na oceny i myślisz: 'To są dość trudne oceny.'
Ale wpływ ekonomiczny wydaje się być dramatycznie w tyle.
Jest [możliwe] wyjaśnienie. Kiedy ludzie zajmowali się wstępnym treningiem, pytanie, na jakich danych trenować, miało odpowiedź, ponieważ ta odpowiedź brzmiała: wszystko. Więc nie musisz się zastanawiać, czy będą to te dane, czy tamte dane.
Kiedy ludzie przeprowadzają trening RL, mówią: 'Dobrze, chcemy mieć ten rodzaj treningu RL dla tej rzeczy i tamten rodzaj treningu RL dla tamtej rzeczy.'
Mówisz: 'Hej, chciałbym, aby nasz model radził sobie naprawdę dobrze, gdy go wydamy. Chcę, aby oceny wyglądały świetnie. Jaki rodzaj treningu RL mógłby pomóc w tym zadaniu?'
Jeśli połączysz to z generalizacją modeli, które są faktycznie niewystarczające, to może to wyjaśnić wiele z tego, co widzimy, ten rozjazd między wydajnością ocen a rzeczywistą wydajnością w świecie rzeczywistym"
Najlepsze
Ranking
Ulubione

