Najciekawszą częścią dla mnie jest to, gdzie @karpathy opisuje, dlaczego LLM-y nie są w stanie uczyć się jak ludzie. Jak można się spodziewać, wymyśla wspaniale sugestywną frazę, aby opisać RL: „ssanie bitów nadzorczych przez słomkę.” Jedna końcowa nagroda jest transmitowana przez każdy token w udanej trajektorii, zwiększając wagę nawet błędnych lub nieistotnych zwrotów, które prowadzą do właściwej odpowiedzi. > „Ludzie nie używają uczenia przez wzmocnienie, jak już wcześniej mówiłem. Myślę, że robią coś innego. Uczenie przez wzmocnienie jest znacznie gorsze, niż przeciętna osoba myśli. Uczenie przez wzmocnienie jest okropne. Po prostu tak się składa, że wszystko, co mieliśmy wcześniej, jest znacznie gorsze.” Co więc robią ludzie zamiast tego? > „Książka, którą czytam, to zestaw podpowiedzi do generowania danych syntetycznych. To poprzez manipulowanie tymi informacjami faktycznie zdobywasz tę wiedzę. Nie mamy odpowiednika tego w LLM-ach; one naprawdę tego nie robią.” > „Chciałbym zobaczyć podczas wstępnego szkolenia jakiś etap, w którym model przemyśla materiał i próbuje pogodzić go z tym, co już wie. Nie ma odpowiednika żadnego z tego. To wszystko jest badaniem.” Dlaczego nie możemy po prostu dodać tego szkolenia do LLM-ów dzisiaj? > „Są bardzo subtelne, trudne do zrozumienia powody, dla których to nie jest trywialne. Jeśli po prostu dam syntetyczne generowanie modelu myślącego o książce, patrzysz na to i myślisz: 'To wygląda świetnie. Dlaczego nie mogę na tym trenować?' Możesz spróbować, ale model w rzeczywistości stanie się znacznie gorszy, jeśli będziesz kontynuować próby.” > „Powiedzmy, że mamy rozdział książki i proszę LLM, aby o tym pomyślał. Daje ci coś, co wygląda bardzo rozsądnie. Ale jeśli zapytam go 10 razy, zauważysz, że wszystkie są takie same.” > „Nie uzyskujesz bogactwa, różnorodności i entropii z tych modeli, jaką uzyskałbyś od ludzi. Jak sprawić, by generowanie danych syntetycznych działało pomimo kolapsu i jednocześnie utrzymywało entropię? To jest problem badawczy.” Jak ludzie radzą sobie z kolapsem modelu? > „Te analogie są zaskakująco dobre. Ludzie kolapsują w trakcie swojego życia. Dzieci jeszcze nie przeszły nadmiernego dopasowania. Mówią rzeczy, które cię zszokują. Ponieważ jeszcze nie są skompresowane. Ale my [dorośli] jesteśmy skompresowani. Kończymy na tym, że wracamy do tych samych myśli, mówimy coraz więcej tego samego, tempo uczenia się spada, kolaps staje się coraz gorszy, a potem wszystko się pogarsza.” W rzeczywistości istnieje interesujący artykuł, który twierdzi, że marzenia ewoluowały, aby wspierać generalizację i opierać się nadmiernemu dopasowaniu do codziennego uczenia się - poszukaj The Overfitted Brain autorstwa @erikphoel. Zapytałem Karpathy'ego: Czy nie jest interesujące, że ludzie uczą się najlepiej w pewnym okresie swojego życia (dzieciństwo), którego szczegóły całkowicie zapominają, dorośli nadal uczą się naprawdę dobrze, ale mają straszną pamięć o szczegółach rzeczy, które czytają lub oglądają, a LLM-y mogą zapamiętywać dowolne szczegóły dotyczące tekstu, których żaden człowiek nie mógłby, ale obecnie są dość złe w generalizacji? ...