Diapositives pour ma conférence "Raisonnement LLM" au Stanford CS 25 : Points clés : 1. Le raisonnement dans les LLM signifie simplement générer une séquence de jetons intermédiaires avant de produire la réponse finale. Que cela ressemble ou non au raisonnement humain est sans importance. L'idée cruciale est que les modèles de transformateurs peuvent devenir presque arbitrairement puissants en générant de nombreux jetons intermédiaires, sans avoir besoin d'augmenter la taille du modèle. 2. Les modèles préentraînés, même sans aucun ajustement fin, sont capables de raisonnement. Le défi est que les sorties basées sur le raisonnement n'apparaissent souvent pas en haut de la distribution des sorties, donc le décodage glouton standard échoue à les faire ressortir. 3. Les techniques de prompting (par exemple, le prompting en chaîne de pensée ou "pensons étape par étape") et l'ajustement fin supervisé étaient couramment utilisées pour susciter le raisonnement. Maintenant, l'ajustement fin par RL a émergé comme la méthode la plus puissante. Ce truc a été découvert indépendamment par plusieurs laboratoires. Chez Google, le crédit revient à Jonathan Lai de mon équipe. Basé sur notre théorie (voir point 1), l'échelle du RL devrait se concentrer sur la génération de longues réponses plutôt que sur autre chose. 4. Le raisonnement LLM peut être considérablement amélioré en générant plusieurs réponses puis en les agrégeant, plutôt qu'en s'appuyant sur une seule réponse.
177,32K