Så han säger att hundar drömmer om att förhindra överanpassning? För jag vet att mina hundar jagar kaniner i sömnen. Jag antar att man kan generalisera konceptet, men som det presenteras är det inte övertygande
Dwarkesh Patel
Dwarkesh Patel18 okt. 02:51
Den mest intressanta delen för mig är var @karpathy beskriver varför LLM:er inte kan lära sig som människor. Som man kan förvänta sig kommer han på en underbart suggestiv fras för att beskriva RL: "suga handledningsbitar genom ett sugrör." En enda slutbelöning sänds över varje token i en framgångsrik bana, vilket väger upp även felaktiga eller irrelevanta svängar som leder till rätt svar. > "Människor använder inte reinforcement learning, som jag har sagt tidigare. Jag tror att de gör något annorlunda. Förstärkningsinlärning är mycket värre än vad den genomsnittliga personen tror. Förstärkningsinlärning är fruktansvärt. Det råkar bara vara så att allt som vi hade tidigare är mycket värre." Så vad gör människor istället? > "Boken jag läser är en uppsättning uppmaningar till mig att generera syntetisk data. Det är genom att manipulera den informationen som du faktiskt får den kunskapen. Vi har ingen motsvarighet till det med LLM; Det gör de inte riktigt." > – Jag skulle gärna se någon form av stadium under förträningen där modellen tänker igenom materialet och försöker förena det med det den redan kan. Det finns ingen motsvarighet till något av detta. Allt detta är forskning." Varför kan vi inte bara lägga till denna utbildning till LLM:er idag? > "Det finns mycket subtila, svårförståeliga skäl till varför det inte är trivialt. Om jag bara ger en syntetisk generation av modellen att tänka på en bok, så tittar du på den och tänker: "Det här ser bra ut. Varför kan jag inte träna på den?" Du kan försöka, men modellen kommer faktiskt att bli mycket sämre om du fortsätter att försöka." > "Säg att vi har ett kapitel i en bok och jag ber en LLM att tänka på det. Det kommer att ge dig något som ser väldigt rimligt ut. Men om jag frågar det 10 gånger kommer du att märka att alla är likadana." > "Du får inte rikedomen, mångfalden och entropin från dessa modeller som du skulle få från människor. Hur får man syntetisk datagenerering att fungera trots kollapsen och med bibehållen entropi? Det är ett forskningsproblem. Hur kommer människor runt modellkollaps? > – De här liknelserna är förvånansvärt bra. Människor kollapsar under loppet av sina liv. Barn har inte övertränat än. De kommer att säga saker som kommer att chocka dig. För de har inte kollapsat än. Men vi [vuxna] är kollapsade. Det slutar med att vi återkommer till samma tankar, det slutar med att vi säger mer och mer av samma saker, inlärningstakten sjunker, kollapsen fortsätter att bli värre och sedan försämras allting." Faktum är att det finns en intressant artikel som hävdar att drömmar utvecklades för att hjälpa till med generalisering och motstå överanpassning till daglig inlärning - slå upp The Overfit Brain med @erikphoel. Jag frågade Karpathy: Är det inte intressant att människor lär sig bäst i en del av sina liv (barndomen) vars faktiska detaljer de helt glömmer, vuxna lär sig fortfarande riktigt bra men har fruktansvärt minne om detaljerna i de saker de läser eller tittar på, och LLM:er kan memorera godtyckliga detaljer om text som ingen människa skulle kunna men som för närvarande är ganska dåliga på att generalisera? > "[Felible human memory] är en funktion, inte en bugg, eftersom den tvingar dig att bara lära dig de generaliserbara komponenterna. LLM:er distraheras av allt minne de har av de förtränade dokumenten. Det är därför jag faktiskt vill ta bort minnet när jag pratar om den kognitiva kärnan. Jag skulle älska att de hade mindre minne så att de måste kolla upp saker och ting och de behåller bara algoritmerna för tänkande, och idén om ett experiment, och hela det här kognitiva limmet för att agera."
@karpathy är överanpassning
401