Przyjąłem podobne podejście Generator-Weryfikator do wykorzystania modeli w badaniach teoretycznych w fizyce. Ludzie eksperci na granicy nauki mogą poprawić modele Weryfikatora do tego stopnia, że autonomiczne działanie jest niezwykle silne nawet w przypadku rzeczywistych problemów badawczych (nie tylko wymyślonych problemów matematycznych = dobrze postawionych problemów, które mogą być rozwiązane w skończonym czasie przez ludzi). DeepSeekMathV2 Synergia między Generatorem a Weryfikatorem Generator dowodów i weryfikator tworzą samodoskonalącą się pętlę sprzężenia zwrotnego. W miarę jak generator produkuje coraz bardziej złożone dowody, stawiają one wyzwania weryfikatorowi, ujawniając słabości, które stają się nowymi danymi treningowymi. Początkowo ludzie eksperci kierowali ponownym treningiem weryfikatora, przeglądając jego zgłoszone problemy — proces ten był efektywny dzięki generowaniu wielu prób weryfikacji dla każdego dowodu. Ta „meta-weryfikacja” (sprawdzanie ustaleń weryfikatora zamiast dowodów bezpośrednio) okazała się zarówno łatwiejsza dla ludzi, jak i bardziej przyswajalna dla LLM-ów. Poprzez zwiększenie liczby analiz weryfikatora i trening na tych wspomaganych przez AI adnotacjach, weryfikator ostatecznie osiągnął poziom niezawodności, w którym interwencja ludzka nie była już wymagana w końcowych uruchomieniach — zamykając pętlę między automatycznym generowaniem dowodów a weryfikacją.
steve hsu
steve hsu28 lis 2025
Wow! DeepSeekMath-V2 Architektura Generator-Weryfikator znowu! ... W kierunku samoweryfikowalnego rozumowania matematycznego, badamy, jak wytrenować dokładnego i wiernego weryfikatora opartego na LLM do dowodzenia twierdzeń. Następnie trenujemy generator dowodów, używając weryfikatora jako modelu nagrody, i zachęcamy generatora do identyfikacji i rozwiązania jak największej liczby problemów w swoich dowodach przed ich sfinalizowaniem. Aby utrzymać lukę między generowaniem a weryfikacją, gdy generator staje się silniejszy, proponujemy skalowanie obliczeń weryfikacyjnych, aby automatycznie etykietować nowe trudne do zweryfikowania dowody, tworząc dane treningowe, aby dalej poprawić weryfikatora. Nasz model, DeepSeekMath-V2, wykazuje silne zdolności w dowodzeniu twierdzeń, osiągając złote wyniki na IMO 2025 i CMO 2024 oraz niemal doskonałe 118/120 na Putnam 2024 przy skalowanych obliczeniach w czasie testu. Choć wiele pracy jeszcze przed nami, te wyniki sugerują, że samoweryfikowalne rozumowanie matematyczne jest wykonalnym kierunkiem badań, który może pomóc w rozwoju bardziej zdolnych systemów AI w matematyce.
To opisuje przejście od podstawowego pipeline'u Generator-Weryfikator z wykorzystaniem gotowych modeli, do takiego, w którym Weryfikator sam został ulepszony dzięki danym treningowym od ludzkich ekspertów użytym w meta-weryfikacji.
5,48K