Wow! DeepSeekMath-V2 Kiến trúc Generator-Verifier lại một lần nữa! ... Hướng tới lý luận toán học tự xác minh, chúng tôi nghiên cứu cách đào tạo một verifier dựa trên LLM chính xác và trung thực cho việc chứng minh định lý. Sau đó, chúng tôi đào tạo một trình tạo chứng minh sử dụng verifier như một mô hình thưởng, và khuyến khích trình tạo xác định và giải quyết càng nhiều vấn đề càng tốt trong các chứng minh của chính họ trước khi hoàn thiện chúng. Để duy trì khoảng cách giữa việc tạo ra và xác minh khi trình tạo trở nên mạnh mẽ hơn, chúng tôi đề xuất mở rộng tính toán xác minh để tự động gán nhãn cho các chứng minh khó xác minh mới, tạo ra dữ liệu đào tạo để cải thiện thêm verifier. Mô hình của chúng tôi, DeepSeekMath-V2, thể hiện khả năng chứng minh định lý mạnh mẽ, đạt điểm vàng trong IMO 2025 và CMO 2024 và gần như hoàn hảo với 118/120 trong Putnam 2024 với tính toán thời gian kiểm tra đã được mở rộng. Mặc dù còn nhiều công việc phải làm, nhưng những kết quả này gợi ý rằng lý luận toán học tự xác minh là một hướng nghiên cứu khả thi có thể giúp phát triển các hệ thống AI toán học mạnh mẽ hơn.