Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Il noto podcaster Dwarkesh Patel ha recentemente intervistato AK, ecco la sua descrizione:
Per me, la parte più interessante è stata l'analisi di Andrej Karpathy (spesso chiamato "il dio dell'AI" dai fan) su perché i modelli di linguaggio di grandi dimensioni (LLM) non possono apprendere come gli esseri umani.
Come previsto, Karpathy ha coniato un termine particolarmente vivace per descrivere l'apprendimento per rinforzo (Reinforcement Learning, RL): "estrarre dati di supervisione con una cannuccia".
Cosa significa? Significa che, in un tentativo riuscito (ad esempio, quando l'AI vince a scacchi), la ricompensa finale di quel "vincere" viene distribuita a ogni passo compiuto e a ogni parola generata. Anche se ci sono stati alcuni passaggi sbagliati o irrilevanti, finché il risultato finale è corretto, questi passaggi verranno comunque "premiati" dall'algoritmo.
> "Ho già detto che gli esseri umani non usano l'apprendimento per rinforzo. Credo che il modo in cui gli esseri umani apprendono sia completamente diverso. L'apprendimento per rinforzo è molto peggiore di quanto la gente comune pensi. È davvero scarso. Solo che gli altri algoritmi che avevamo in passato erano molto peggiori di questo."
Quindi, come apprendono realmente gli esseri umani?
> "Leggo un libro, e quel libro per me è un insieme di 'prompt' che mi permette di 'sintetizzare dati' nella mia mente. Devi elaborare attivamente queste informazioni per acquisire realmente conoscenza. Ma i modelli di linguaggio di grandi dimensioni (LLM) non hanno un meccanismo corrispondente; non lo fanno davvero."
> "Mi piacerebbe vedere una fase in cui il modello, durante il pre-addestramento, possa 'riflettere' sul materiale che legge e cercare di collegarlo con le conoscenze che già possiede. Attualmente non esiste un meccanismo del genere. Siamo ancora in fase di ricerca."
Perché non possiamo semplicemente aggiungere questo tipo di "pensiero" all'addestramento dei modelli di linguaggio di grandi dimensioni ora?
> "Ci sono ragioni molto sottili e difficili da comprendere che rendono questa cosa non così semplice. Se faccio riflettere un modello su un libro e genero alcuni dati sintetici, a prima vista potresti pensare: 'Sembra fantastico! Perché non usarlo per l'addestramento?' Puoi provare, ma se continui a farlo, le prestazioni del modello in realtà peggioreranno."
> "Ad esempio, prendiamo un capitolo di un libro e facciamo 'riflettere' un modello di linguaggio di grandi dimensioni. Ti darà una risposta che sembra molto ragionevole. Ma se lo faccio rispondere 10 volte, scoprirai che queste 10 risposte sono quasi identiche."
> "Da questi modelli, non ottieni la ricchezza, la diversità e l' 'entropia' (qui si riferisce al caos e alla creatività del pensiero) che si hanno nel pensiero umano. Non puoi ottenere idee stravaganti come un essere umano. Quindi, come possiamo far funzionare i dati sintetici mantenendo questa 'entropia' mentre il modello tende a 'collassare' (cioè le risposte diventano uniche e prive di diversità)? Questo è ancora un problema di ricerca."
Come fanno gli esseri umani a evitare questo "collasso del pensiero"?
> "(Paragonando esseri umani e modelli) Questa idea è sorprendentemente valida. Gli esseri umani, nel corso della loro vita, possono anche 'collassare'. I bambini non hanno ancora 'overfitting' (cioè pensiero rigido, che si adatta solo a schemi specifici). Possono dire cose che ti sorprendono. Questo perché non hanno ancora 'collassato'. Ma noi adulti abbiamo già 'collassato'. Finiremo per riflettere ripetutamente sulle stesse idee, ciò che diciamo diventa sempre più simile, il nostro tasso di apprendimento diminuisce, e il 'collasso' diventa sempre più grave, fino a che tutto si degrada."
In effetti, c'è un articolo molto interessante (di Erik Hoel, "Il cervello overfittato") che suggerisce che l'evoluzione della funzione del sogno negli esseri umani è stata per aiutarci a migliorare la nostra 'capacità di generalizzazione' (cioè la capacità di trarre conclusioni da un esempio), per resistere all' 'overfitting' causato dall'apprendimento quotidiano.
...
Principali
Ranking
Preferiti