Ich habe einen ähnlichen Generator-Verifier-Ansatz für die Verwendung von Modellen in der theoretischen Physikforschung übernommen. Menschliche Experten an der Spitze der Wissenschaft können Verifier-Modelle so weit verbessern, dass der autonome Betrieb selbst bei realen Forschungsproblemen (nicht nur bei konstruierten Mathematikwettbewerbsproblemen = gut gestellten Problemen, die von Menschen in endlicher Zeit gelöst werden können) extrem stark ist. DeepSeekMathV2 Synergie zwischen Generator und Verifier Der Beweisgenerator und der Verifier bilden eine sich selbst verbessernde Rückkopplungsschleife. Während der Generator zunehmend komplexere Beweise produziert, stellen diese den Verifier auf die Probe und decken Schwächen auf, die zu neuen Trainingsdaten werden. Zunächst leiteten menschliche Experten das Retraining des Verifiers, indem sie die markierten Probleme überprüften – ein Prozess, der durch die Generierung mehrerer Verifizierungsversuche pro Beweis effizient gestaltet wurde. Diese „Meta-Verifizierung“ (Überprüfung der Ergebnisse des Verifiers anstelle der Beweise direkt) erwies sich sowohl für Menschen als auch für LLMs als einfacher und besser erlernbar. Durch die Skalierung der Anzahl der Verifier-Analysen und das Training an diesen KI-unterstützten Anmerkungen erreichte der Verifier schließlich ein Maß an Zuverlässigkeit, bei dem menschliches Eingreifen in den letzten Durchläufen nicht mehr erforderlich war – und schloss damit die Schleife zwischen automatisierter Beweisgenerierung und Verifizierung.
steve hsu
steve hsu28. Nov. 2025
Wow! DeepSeekMath-V2 Generator-Verifier-Architektur erneut! ... Auf dem Weg zu selbstverifizierbarem mathematischen Denken untersuchen wir, wie man einen genauen und treuen LLM-basierten Verifier für den Beweis von Theoremen trainiert. Dann trainieren wir einen Beweis-Generator, der den Verifier als Belohnungsmodell nutzt, und motivieren den Generator, so viele Probleme wie möglich in seinen eigenen Beweisen zu identifizieren und zu lösen, bevor er sie finalisiert. Um die Lücke zwischen Generierung und Verifikation aufrechtzuerhalten, während der Generator stärker wird, schlagen wir vor, die Verifikationsrechenleistung zu skalieren, um automatisch neue schwer zu verifizierende Beweise zu kennzeichnen und Trainingsdaten zu erstellen, um den Verifier weiter zu verbessern. Unser resultierendes Modell, DeepSeekMath-V2, zeigt starke Fähigkeiten im Beweis von Theoremen und erreicht Gold-Niveau-Punkte bei IMO 2025 und CMO 2024 sowie eine nahezu perfekte 118/120 bei Putnam 2024 mit skalierter Testzeit-Rechenleistung. Obwohl noch viel Arbeit vor uns liegt, deuten diese Ergebnisse darauf hin, dass selbstverifizierbares mathematisches Denken eine machbare Forschungsrichtung ist, die helfen könnte, leistungsfähigere mathematische KI-Systeme zu entwickeln.
Dies beschreibt den Übergang von einer grundlegenden Generator-Verifier-Pipeline, die mit handelsüblichen Modellen arbeitet, zu einer, in der der Verifier selbst durch menschliche Expertendaten, die in der Meta-Überprüfung verwendet werden, verbessert wurde.
5,48K