Omaksuin samankaltaisen generaattori-varmennusmenetelmän mallien käyttöön teoreettisessa fysiikan tutkimuksessa. Tieteen eturintamassa olevat ihmisasiantuntijat voivat parantaa Verifier-malleja niin, että autonominen toiminta on erittäin vahvaa jopa todellisissa tutkimusongelmissa (ei pelkästään keinotekoisissa matemaattisissa kilpailuissa = hyvin asetetut ongelmat, jotka ihmiset voivat ratkaista rajallisessa ajassa). DeepSeekMathV2 Synergia generaattorin ja verifierin välillä Todistusgeneraattori ja varmentaja muodostavat itseparantuvan palautesilmukan. Kun generaattori tuottaa yhä monimutkaisempia todistuksia, ne haastavat varmennustekijän, paljastaen heikkouksia, joista tulee uutta koulutusdataa. Aluksi ihmisasiantuntijat ohjasivat varmistajan uudelleenkoulutusta tarkastelemalla sen merkityt ongelmat — prosessi, joka tehtiin tehokkaaksi tuottamalla useita varmennusyrityksiä per todistus. Tämä "meta-varmennus" (varmennuslaitteen havaintojen tarkistaminen suoran todistusten sijaan) osoittautui sekä helpommaksi ihmisille että helpommaksi LLM:ille. Laajentamalla varmennusanalyysien määrää ja koulutuksen avulla näitä tekoälyavusteisia annotaatioita varmistaja saavutti lopulta luotettavuuden tason, jossa ihmisen puuttumista ei enää tarvittu lopullisissa suorituksissa — sulkien kierre automaattisen todistusaineiston ja verifioinnin välillä.
steve hsu
steve hsu28.11.2025
Wow! DeepSeekMath-V2 Generator-Verifier architecture again! ... Towards self-verifiable mathematical reasoning, we investigate how to train an accurate and faithful LLM-based verifier for theorem proving. We then train a proof generator using the verifier as the reward model, and incentivize the generator to identify and resolve as many issues as possible in their own proofs before finalizing them. To maintain the generation-verification gap as the generator becomes stronger, we propose to scale verification compute to automatically label new hard-to-verify proofs, creating training data to further improve the verifier. Our resulting model, DeepSeekMath-V2, demonstrates strong theorem-proving capabilities, achieving gold-level scores on IMO 2025 and CMO 2024 and a near-perfect 118/120 on Putnam 2024 with scaled test-time compute. While much work remains, these results suggest that self-verifiable mathematical reasoning is a feasible research direction that may help develop more capable mathematical AI systems.
Tämä kuvaa siirtymää perusgeneraattori-varmennusputkesta, jossa käytetään valmiita malleja, sellaiseen, jossa varmennusohjelmaa on parannettu ihmisen asiantuntijakoulutusdatalla, jota käytetään meta-varmennuksessa.
5,6K