"Jedną z bardzo mylących rzeczy dotyczących modeli w tej chwili jest to, jak pogodzić fakt, że radzą sobie tak dobrze na ocenach. Patrzysz na oceny i myślisz: 'To są dość trudne oceny.' Ale wpływ ekonomiczny wydaje się być dramatycznie w tyle. Jest [możliwe] wyjaśnienie. Kiedy ludzie zajmowali się wstępnym treningiem, pytanie, na jakich danych trenować, miało odpowiedź, ponieważ ta odpowiedź brzmiała: wszystko. Więc nie musisz się zastanawiać, czy będą to te dane, czy tamte dane. Kiedy ludzie przeprowadzają trening RL, mówią: 'Dobrze, chcemy mieć ten rodzaj treningu RL dla tej rzeczy i tamten rodzaj treningu RL dla tamtej rzeczy.' Mówisz: 'Hej, chciałbym, aby nasz model radził sobie naprawdę dobrze, gdy go wydamy. Chcę, aby oceny wyglądały świetnie. Jaki rodzaj treningu RL mógłby pomóc w tym zadaniu?' Jeśli połączysz to z generalizacją modeli, które są faktycznie niewystarczające, to może to wyjaśnić wiele z tego, co widzimy, ten rozjazd między wydajnością ocen a rzeczywistą wydajnością w świecie rzeczywistym"