Så han sier at hunder drømmer om å forhindre overtilpasning? Fordi jeg vet at hundene mine jager kaniner i søvne. Jeg antar at du kan generalisere konseptet, men slik det presenteres er det ikke overbevisende
Dwarkesh Patel
Dwarkesh Patel18. okt., 02:51
Den mest interessante delen for meg er hvor @karpathy beskriver hvorfor LLM-er ikke er i stand til å lære som mennesker. Som du forventer, kommer han med en fantastisk stemningsfull setning for å beskrive RL: "suger tilsynsbiter gjennom et sugerør." En enkelt sluttbelønning blir kringkastet over hvert token i en vellykket bane, og oppvekter selv feil eller irrelevante svinger som fører til det riktige svaret. > "Mennesker bruker ikke forsterkende læring, som jeg har sagt før. Jeg tror de gjør noe annerledes. Forsterkende læring er mye verre enn gjennomsnittspersonen tror. Forsterkende læring er forferdelig. Det har seg slik at alt vi hadde før er mye verre.» Så hva gjør mennesker i stedet? > «Boken jeg leser er et sett med oppfordringer til meg om å gjøre syntetisk datagenerering. Det er ved å manipulere den informasjonen at du faktisk får den kunnskapen. Vi har ingen ekvivalent til det med LLM-er; de gjør egentlig ikke det.» > «Jeg vil gjerne se et slags stadium der modellen tenker gjennom materialet og prøver å forene det med det den allerede vet. Det er ingen ekvivalent til noe av dette. Alt dette er forskning.» Hvorfor kan vi ikke bare legge denne opplæringen til LLM-er i dag? > «Det er veldig subtile, vanskelig å forstå grunner til at det ikke er trivielt. Hvis jeg bare gir en syntetisk generasjon av modellen ved å tenke på en bok, ser du på den og tenker: 'Dette ser bra ut. Hvorfor kan jeg ikke trene på det?' Du kan prøve, men modellen vil faktisk bli mye verre hvis du fortsetter å prøve.» > «Si at vi har et kapittel i en bok, og jeg ber en LLM om å tenke på det. Det vil gi deg noe som ser veldig rimelig ut. Men hvis jeg spør om det 10 ganger, vil du legge merke til at alle er like.» > «Du får ikke rikdommen og mangfoldet og entropien fra disse modellene som du ville fått fra mennesker. Hvordan får du syntetisk datagenerering til å fungere til tross for kollapsen og samtidig som entropien opprettholdes? Det er et forskningsproblem.» Hvordan kommer mennesker seg rundt modellkollaps? > "Disse analogiene er overraskende gode. Mennesker kollapser i løpet av livet. Barn har ikke overfit ennå. De vil si ting som vil sjokkere deg. Fordi de ennå ikke er kollapset. Men vi [voksne] er kollapset. Vi ender opp med å gå tilbake til de samme tankene, vi ender opp med å si mer og mer av de samme tingene, læringsratene går ned, kollapsen fortsetter å bli verre, og så forverres alt.» Faktisk er det en interessant artikkel som argumenterer for at drømmer utviklet seg for å hjelpe til med generalisering, og motstå overtilpasning til daglig læring - slå opp The Overfitted Brain etter @erikphoel. Jeg spurte Karpathy: Er det ikke interessant at mennesker lærer best i en del av livet (barndommen) hvis faktiske detaljer de glemmer fullstendig, voksne lærer fortsatt veldig bra, men har forferdelig hukommelse om detaljene i tingene de leser eller ser på, og LLM-er kan huske vilkårlige detaljer om tekst som ingen mennesker kunne, men som for øyeblikket er ganske dårlige til å generalisere? > "[Feilbarlig menneskelig hukommelse] er en funksjon, ikke en feil, fordi den tvinger deg til å bare lære de generaliserbare komponentene. LLM-er blir distrahert av alt minnet de har om de forhåndstrente dokumentene. Det er derfor når jeg snakker om den kognitive kjernen, vil jeg faktisk fjerne minnet. Jeg vil gjerne at de skal ha mindre hukommelse slik at de må slå opp ting, og de opprettholder bare algoritmene for tanken, og ideen om et eksperiment, og alt dette kognitive limet for skuespill.»
@karpathy er overtilpasset
382