dire que le RL (apprentissage par renforcement) actuel est terrible
dire que nous avons besoin de PRMs et d'entraînement adversarial (sic : MuZero)
lamenter l'effondrement de l'entropie et expliquer la nécessité de préserver l'entropie dans l'entraînement et l'échantillonnage
vouloir une attention sparse (et une couche d'attention sparse sur kvcache)
L'interview de @karpathy
0:00:00 – L'AGI est encore à une décennie
0:30:33 – Déficits cognitifs des LLM
0:40:53 – L'apprentissage par renforcement est terrible
0:50:26 – Comment les humains apprennent-ils ?
1:07:13 – L'AGI se fondra dans une croissance du PIB de 2%
1:18:24 – ASI
1:33:38 – Évolution de l'intelligence et de la culture
1:43:43 - Pourquoi la conduite autonome a-t-elle pris tant de temps
1:57:08 - L'avenir de l'éducation
Recherchez le podcast Dwarkesh sur YouTube, Apple Podcasts, Spotify, etc. Profitez-en !
cela peut ne pas intéresser personne, mais c'est là que j'ai arrêté de travailler ce soir. Je recommencerai dans quelques heures à partir de cette même session tmux.