dizer que a RL (aprendizagem por reforço) atual é terrível
dizer que precisamos de PRMs e treinamento adversarial (sic: MuZero)
lamentar o colapso da entropia e explicar a necessidade de preservar a entropia no treinamento e amostragem
querer atenção esparsa (e camada de atenção esparsa sobre kvcache)
A entrevista com @karpathy
0:00:00 – A AGI ainda está a uma década de distância
0:30:33 – Déficits cognitivos de LLM
0:40:53 – RL é terrível
0:50:26 – Como os humanos aprendem?
1:07:13 – A AGI irá se misturar em 2% de crescimento do PIB
1:18:24 – ASI
1:33:38 – Evolução da inteligência e cultura
1:43:43 - Por que a condução autónoma demorou tanto
1:57:08 - Futuro da educação
Procure o Podcast Dwarkesh no YouTube, Apple Podcasts, Spotify, etc. Aproveite!