Den kjente podcastbloggeren Dwarkesh Patel hadde nylig et intervju med AK, og her er hvordan han beskrev det: For meg var den mest interessante delen Andrej Karpathy (en AI-ekspert ofte referert til som "Kashen") som forklarte hvorfor store språkmodeller (LLM) ikke kan lære som mennesker. Ganske riktig, Kashen laget et spesielt levende ord for å beskrive forsterkende læring (RL): "Absorber overvåkede data med et sugerør". Hva betyr dette? Det vil si at i et vellykket forsøk (som at AI vinner et sjakkparti), vil den endelige belønningen for å "vinne" bli fordelt likt på hvert skritt det tar og hvert ord det genererer. Selv om noen av trinnene i midten er feil eller irrelevante, så lenge det endelige resultatet er riktig, vil alle disse trinnene bli "lagt til" av algoritmen. > «Jeg har sagt før at mennesker ikke bruker forsterkende læring. Jeg tror mennesker lærer helt annerledes. Forsterkende læring er mye verre enn gjennomsnittspersonen tror. Intensiv læring suger. Det er bare det at de andre algoritmene vi hadde før var mye verre enn det. ” Så, hvordan lærer mennesker? > «Jeg leste en bok som for meg er et sett med 'oppfordringer' for å gjøre meg til 'syntetisk datagenerering' i hodet mitt. Du må jobbe proaktivt med denne informasjonen for å virkelig få kunnskap. Store språkmodeller (LLM-er) har imidlertid ikke en tilsvarende mekanisme; Det gjør de virkelig ikke. ” > «Jeg vil gjerne se en kobling i fortreningsfasen av modellen der modellen kan «tenke på» det den leser og prøve å «matche» det med det den allerede vet. Nå er det ingen slik mekanisme i det hele tatt. Dette er fortsatt på forskningsstadiet. ” Så hvorfor kan vi ikke legge til denne typen "tenketrening" til store språkmodeller nå? > "Det er veldig subtile, uforståelige grunner til dette, noe som gjør det ikke så enkelt. Hvis jeg ber modellen om å "tenke" på en bok og generere noen syntetiske data, tenker du ved første øyekast: "Dette ser bra ut!" Hvorfor kan du ikke bruke den til trening? Du kan prøve, men hvis du fortsetter å gjøre dette, vil modellen faktisk prestere dårligere. ” > «La oss si at vi tar et kapittel i en bok, og jeg ber en stor språkmodell om å 'tenke'. Det vil gi deg et avsnitt som ser veldig fornuftig ut. Men hvis jeg ber den om å svare 10 ganger, vil du se at svarene er nesten identiske i de 10 gangene. ” > «Du får ikke rikdommen, mangfoldet og 'entropien' til menneskelig tenkning fra disse modellene (i dette tilfellet kaoset og kreativiteten i tenkningen). Du kan ikke få alle slags ville ideer som en person. Så hvordan kan syntetiske data fungere og opprettholde denne "entropien" når modellen har en tendens til å "kollapse" (noe som betyr at svaret blir enkelt og mangler mangfold)? Dette er fortsatt et forskningsproblem. ” Så hvordan unngår mennesker denne "kollapsen av tenkning"? > Ideen (om analogi mellom mennesker og modeller) er overraskende god. I sine egne liv vil mennesker faktisk 'kollapse'. Barn har ennå ikke "overtilpasset" (refererer til rigid tenkning og bare tilpasser seg visse mønstre). De vil si noe som sjokkerer deg. Det er fordi de ikke har "kollapset" ennå. Men vi voksne har 'kollapset'. Vi ender opp med å tenke det samme om og om igjen, det vi sier blir mer og mer konvergerende, læringshastigheten vår synker, "kollapsen" blir verre og verre, og til slutt forringes alt. ” Faktisk antyder en interessant artikkel (Erik Hoels "The Overfitted Brain") at utviklingen av den menneskelige drømmefunksjonen er å hjelpe oss med å forbedre vår "generalisering" (evnen til å trekke slutninger) og motstå "overtilpasningen" forårsaket av daglig læring. ...