Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wauw! DeepSeekMath-V2
Generator-Verifier architectuur opnieuw!
... Naar zelf-verifieerbaar wiskundig redeneren, onderzoeken we hoe we een nauwkeurige en betrouwbare LLM-gebaseerde verifier kunnen trainen voor stellingbewijzen. We trainen vervolgens een bewijs-generator met de verifier als het beloningsmodel en stimuleren de generator om zoveel mogelijk problemen in hun eigen bewijzen te identificeren en op te lossen voordat ze deze finaliseren. Om de generatie-verificatie kloof te behouden naarmate de generator sterker wordt, stellen we voor om de verificatiecomputing te schalen om automatisch nieuwe moeilijk te verifiëren bewijzen te labelen, waardoor trainingsdata wordt gecreëerd om de verifier verder te verbeteren. Ons resulterende model, DeepSeekMath-V2, toont sterke stellingbewijscapaciteiten, met gouden scores op IMO 2025 en CMO 2024 en een bijna perfecte 118/120 op Putnam 2024 met geschaalde testtijdcomputing. Hoewel er nog veel werk aan de winkel is, suggereren deze resultaten dat zelf-verifieerbaar wiskundig redeneren een haalbare onderzoeksrichting is die kan helpen bij het ontwikkelen van meer capabele wiskundige AI-systemen.

Boven
Positie
Favorieten

