Folien für meinen Vortrag "LLM Reasoning" an der Stanford CS 25: Wichtige Punkte: 1. Reasoning in LLMs bedeutet einfach, eine Sequenz von Zwischen-Token zu generieren, bevor die endgültige Antwort produziert wird. Ob dies dem menschlichen Denken ähnelt, ist irrelevant. Die entscheidende Erkenntnis ist, dass Transformermodelle nahezu beliebig leistungsfähig werden können, indem sie viele Zwischen-Token generieren, ohne die Modellgröße skalieren zu müssen. 2. Vorgefertigte Modelle sind selbst ohne Feinabstimmung in der Lage zu reasoning. Die Herausforderung besteht darin, dass reasoning-basierte Ausgaben oft nicht an der Spitze der Ausgabeverteilung erscheinen, sodass die Standard-Greedy-Dekodierung versagt, sie zuoberst zu bringen. 3. Prompting-Techniken (z. B. Chain-of-Thought-Prompting oder "Lass uns Schritt für Schritt nachdenken") und überwachte Feinabstimmung wurden häufig verwendet, um reasoning zu fördern. Jetzt hat sich die RL-Fine-Tuning als die leistungsstärkste Methode herausgestellt. Dieser Trick wurde unabhängig von mehreren Laboren entdeckt. Bei Google gebührt das Lob Jonathan Lai aus meinem Team. Basierend auf unserer Theorie (siehe Punkt 1) sollte sich das Scaling von RL darauf konzentrieren, lange Antworten zu generieren, anstatt etwas anderes. 4. Das LLM-Reasoning kann erheblich verbessert werden, indem mehrere Antworten generiert und dann aggregiert werden, anstatt sich auf eine einzige Antwort zu verlassen.
177,29K