Znany podcaster Dwarkesh Patel niedawno przeprowadził wywiad z AK, oto jego opis: Dla mnie najciekawszą częścią było to, jak Andrej Karpathy (często nazywany przez fanów „Bogiem AI”) wyjaśnił, dlaczego duże modele językowe (LLM) nie mogą uczyć się jak ludzie. Jak się okazało, Bóg AI wymyślił bardzo obrazowe określenie dla uczenia przez wzmocnienie (Reinforcement Learning, w skrócie RL): „wciąganie danych nadzorowanych przez słomkę”. Co to znaczy? Oznacza to, że w przypadku udanej próby (na przykład AI wygrało w szachy), ta końcowa nagroda za „wygraną” jest rozdzielana na każdy krok, który wykonało, oraz każde słowo, które wygenerowało. Nawet jeśli niektóre kroki były błędne lub nieistotne, tak długo jak końcowy wynik jest poprawny, te kroki również będą „nagradzane” przez algorytm. > „Mówiłem to wcześniej, ludzie nie używają uczenia przez wzmocnienie. Uważam, że sposób, w jaki ludzie się uczą, jest całkowicie inny. Uczenie przez wzmocnienie jest znacznie gorsze, niż myśli przeciętny człowiek. Uczenie przez wzmocnienie jest kiepskie. Po prostu inne algorytmy, które mieliśmy wcześniej, były jeszcze gorsze.” Jak więc ludzie się uczą? > „Czytam książkę, ta książka jest dla mnie zestawem „podpowiedzi” (prompts), które pozwalają mi „synthesizować dane” (synthetic data generation) w mojej głowie. Musisz aktywnie przetwarzać te informacje, aby naprawdę zdobyć wiedzę. Ale duże modele językowe (LLM) nie mają odpowiedniego mechanizmu; one naprawdę tego nie robią.” > „Bardzo chciałbym zobaczyć taki etap w pretreningu modelu (pretraining): model mógłby „przemyśleć” materiały, które przeczytał, i spróbować powiązać je z tym, co już wie (czyli zintegrować wiedzę). Teraz nie ma takiego mechanizmu. To wciąż jest na etapie badań.” Dlaczego więc nie możemy teraz dodać tego „myślenia” do dużych modeli językowych? > „Są bardzo subtelne, trudne do zrozumienia powody, które sprawiają, że to nie jest takie proste. Jeśli każe mi modelowi „myśleć” o książce i generować jakieś syntetyczne dane, na pierwszy rzut oka możesz pomyśleć: „To wygląda świetnie! Dlaczego nie można tego użyć do treningu?” Możesz spróbować, ale jeśli będziesz to robić, wydajność modelu w rzeczywistości pogorszy się.” > „Na przykład, bierzemy jakiś rozdział książki, a ja każę dużemu modelowi językowemu „przemyśleć” to. Daje ci odpowiedź, która wygląda bardzo sensownie. Ale jeśli każę mu odpowiedzieć 10 razy, zauważysz, że te 10 odpowiedzi jest prawie identycznych.” > „Nie uzyskasz z tych modeli tej różnorodności, bogactwa i „entropii” (tutaj odnosimy się do chaosu i kreatywności myślenia), które występują w ludzkim myśleniu. Nie możesz uzyskać różnych, szalonych pomysłów jak człowiek. Więc jak w sytuacji, gdy model dąży do „zapadnięcia się” (collapse) (co oznacza, że odpowiedzi stają się jednorodne, brakuje różnorodności), można sprawić, by syntetyczne dane działały i jednocześnie zachowały tę „entropię”? To wciąż jest problem badawczy.” Jak więc ludzie unikają tego „zapadania się myśli”? > „(Porównując ludzi i modele) ten pomysł jest niezwykle trafny. Ludzie w ciągu swojego życia również mogą „zapadać się”. Małe dzieci jeszcze nie „przeuczyły się” (overfitting) (co oznacza sztywność myślenia, dostosowując się tylko do określonych wzorców). Mówią rzeczy, które cię zaskakują. To dlatego, że jeszcze się nie „zapadły”. Ale dorośli już się „zapadli”. Ostatecznie będziemy wielokrotnie rozważać te same myśli, nasze wypowiedzi stają się coraz bardziej jednorodne, nasza szybkość uczenia się maleje, a sytuacja „zapadania się” staje się coraz gorsza, aż wszystko się degeneruje.” W rzeczywistości istnieje bardzo interesujący artykuł (Erik Hoel „Przeuczone mózgi” (The Overfitted Brain)), który sugeruje, że ewolucja funkcji marzeń u ludzi miała na celu pomoc w poprawie „zdolności generalizacji” (generalization) (co oznacza zdolność do wyciągania wniosków z doświadczeń), aby przeciwdziałać „przeuczeniu” wynikającemu z codziennego uczenia się. ...