Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La parte più interessante per me è dove @karpathy descrive perché i LLM non sono in grado di apprendere come gli esseri umani.
Come ci si aspetterebbe, propone una frase meravigliosamente evocativa per descrivere l'RL: “succhiare i bit di supervisione attraverso una cannuccia.”
Una singola ricompensa finale viene trasmessa a ogni token in una traiettoria di successo, aumentando il peso anche delle scelte sbagliate o irrilevanti che portano alla risposta giusta.
> “Gli esseri umani non usano l'apprendimento per rinforzo, come ho già detto. Penso che facciano qualcosa di diverso. L'apprendimento per rinforzo è molto peggiore di quanto pensi la persona media. L'apprendimento per rinforzo è terribile. Semplicemente tutto ciò che avevamo prima è molto peggiore.”
Quindi, cosa fanno gli esseri umani invece?
> “Il libro che sto leggendo è un insieme di suggerimenti per generare dati sintetici. È manipolando quelle informazioni che si acquisisce realmente quella conoscenza. Non abbiamo un equivalente di questo con i LLM; non lo fanno davvero.”
> “Mi piacerebbe vedere durante il pre-addestramento una sorta di fase in cui il modello riflette sul materiale e cerca di riconciliarlo con ciò che già sa. Non c'è equivalente di tutto questo. È tutta ricerca.”
Perché non possiamo semplicemente aggiungere questo addestramento agli LLM oggi?
> “Ci sono motivi molto sottili e difficili da comprendere per cui non è banale. Se semplicemente fornisco generazione sintetica del modello che pensa a un libro, lo guardi e dici: 'Questo sembra fantastico. Perché non posso addestrarlo?' Potresti provare, ma il modello in realtà diventerà molto peggiore se continui a provare.”
> “Diciamo che abbiamo un capitolo di un libro e chiedo a un LLM di pensarci. Ti darà qualcosa che sembra molto ragionevole. Ma se lo chiedo 10 volte, noterai che sono tutti uguali.”
> “Non stai ottenendo la ricchezza, la diversità e l'entropia da questi modelli come otterresti dagli esseri umani. Come fai a far funzionare la generazione di dati sintetici nonostante il collasso e mantenendo l'entropia? È un problema di ricerca.”
Come fanno gli esseri umani a superare il collasso del modello?
> “Queste analogie sono sorprendentemente buone. Gli esseri umani collassano nel corso delle loro vite. I bambini non hanno ancora sovradimensionato. Diranno cose che ti sorprenderanno. Perché non sono ancora collassati. Ma noi [adulti] siamo collassati. Finisce che rivediamo gli stessi pensieri, finiamo per dire sempre di più le stesse cose, i tassi di apprendimento diminuiscono, il collasso continua a peggiorare e poi tutto deteriora.”
Infatti, c'è un interessante articolo che sostiene che sognare si è evoluto per assistere la generalizzazione e resistere al sovradimensionamento dell'apprendimento quotidiano - cerca The Overfitted Brain di @erikphoel.
Ho chiesto a Karpathy: Non è interessante che gli esseri umani apprendano meglio in una parte della loro vita (infanzia) i cui dettagli effettivi dimenticano completamente, gli adulti apprendono ancora molto bene ma hanno una memoria terribile riguardo ai particolari delle cose che leggono o guardano, e gli LLM possono memorizzare dettagli arbitrari su testi che nessun umano potrebbe ma attualmente sono piuttosto scarsi nella generalizzazione?
...
Principali
Ranking
Preferiti