DeepSeek发布Prover-V2模型：671B参数助力数学定理证明

Detalles del contenido

En un mundo en el que la tecnología y el conocimiento están entrelazados, cada lectura es como una aventura asombrosa que te da una sensación de sabiduría e inspira una creatividad sin fin.

DeepSeek lanza el modelo Prover-V2: los parámetros 671B mejoran la comprobación de teoremas matemáticos

Durante el Primero de Mayo, DeepSeek volvió a traer una gran noticia al campo de la IA: la publicación del nuevo modelo DeepSeek-Prover-V2. A pesar de los recientes rumores que circulaban por la red sobre el inminente lanzamiento de DeepSeek-R2, DeepSeek siguió adelante y publicó este potente modelo centrado en la demostración de teoremas matemáticos, y continúa manteniendo su habitual espíritu de código abierto.

Dos potentes modelos sincronizados con el código abierto

En esta ocasión, DeepSeek ha puesto a disposición pública dos versiones del modelo DeepSeek-Prover-V2.

DeepSeek-Prover-V2-671BConstruido sobre DeepSeek-V3-Base, con 671.000 millones de parámetros, es actualmente el rey del rendimiento en la demostración de teoremas.
DeepSeek-Prover-V2-7BBasado en DeepSeek-Prover-V1.5-Base, con 7.000 millones de parámetros, compatible con contextos de hasta 32.000 tokens.

Ambos modelos han sido publicados oficialmente en Hugging Face:

DeepSeek-Prover-V2-7B. https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-7B
DeepSeek-Prover-V2-671B. https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B

¿Qué es DeepSeek-Prover-V2?

DeepSeek-Prover-V2 es un modelo de gran lenguaje de código abierto para el "lenguaje de programación de IA matemática" Lean 4, centrado en la demostración formal de teoremas. En pocas palabras, puede transformar teoremas matemáticos abstractos en pruebas rigurosas verificables por ordenador, lo que supone una herramienta revolucionaria para la investigación matemática.

Su mejor característica es su capacidad para combinar a la perfección el razonamiento matemático no formal (es decir, el utilizado habitualmente por los humanos) con las pruebas formales rigurosas, lo que permite al modelo pensar con la misma flexibilidad que un humano y argumentar con el mismo rigor que un ordenador, logrando una mezcla integrada de razonamiento matemático.

Rendimiento asombroso: se baten muchos récords

DeepSeek-Prover-V2-671B muestra una potencia sin precedentes en varias pruebas de teoremas:

Alcanzado un índice de aprobados sin precedentes de 88,9% en el conjunto de pruebas MiniF2F.
Resuelve con éxito 49 de las 658 preguntas del conjunto de datos PutnamBench
También se desenvuelve bien en problemas difíciles de concursos matemáticos como los AIME 24 y 25

Muchos internautas probaron el modelo y afirmaron que era incluso más capaz de resolver problemas matemáticos complejos que los mejores modelos, como el o4-mini de OpenAI y el Grok-3 de XAI. Algunos estudiantes que se adentraron en la Olimpiada de Matemáticas exclamaron: "¡La Olimpiada nunca había sido tan fácil!".

Innovación tecnológica: combinar el aprendizaje recursivo y el de refuerzo

En el informe técnico, el equipo de DeepSeek revela la metodología central de entrenamiento de Prover-V2, que se basa en una innovadora combinación de aprendizaje recursivo + aprendizaje por refuerzo. El proceso de entrenamiento del modelo se divide en varios pasos clave:

1. Búsqueda recursiva de pruebas mediante la descomposición de subobjetivos

DeepSeek-Prover-V2 utiliza una forma de pensar similar a la de un matemático humano: descomponer teoremas complejos en una serie de lemas más pequeños que demostrar. El proceso específico de implementación incluye:

En primer lugar, DeepSeek-V3 genera esquemas de demostración en lenguaje natural y los formaliza como enunciados de teoremas en lenguaje Lean.
A continuación, las submetas descompuestas se resuelven recursivamente utilizando el modelo de prueba 7B
Por último, las pruebas de estas submetas se combinan para construir una prueba formal completa del problema complejo original

Este enfoque no sólo mejora la eficacia de la prueba, sino que también amplía la gama de teoremas que el modelo puede manejar.

2. Armonizar el razonamiento no formal con las pruebas formales

El equipo de DeepSeek ha combinado inteligentemente el razonamiento de lenguaje natural de alto nivel con procesos de prueba exacta de bajo nivel:

Elige problemas especialmente difíciles de resolver y divídelos en objetivos más pequeños.
Una vez demostrados cada uno de los miniobjetivos, se combinan para formar una prueba rigurosa completa.
Añada esta prueba completa a la "cadena de pensamiento" generada por DeepSeek-V3, creando datos de entrenamiento que combinan el pensamiento humano y la verificación de la máquina.

De este modo, el equipo recopiló cientos de datos de entrenamiento de alta calidad, proporcionando una sólida base de aprendizaje para el modelo.

3. Aprendizaje reforzado para mejorar la capacidad de razonamiento

Tras un ajuste inicial, el equipo introdujo el algoritmo de aprendizaje por refuerzo Group Relative Policy Optimization (GRPO):

Muestreo de múltiples pruebas candidatas para cada pregunta y optimización de la estrategia mediante recompensas relativas.
Utilizar un mecanismo de recompensa binario: Lean puntúa 1 en caso de verificación correcta y 0 en caso de fallo.
La bonificación de coherencia estructural se ha diseñado específicamente para garantizar que las pruebas generadas por el modelo sean coherentes con las ideas de descomposición de la cadena de pensamiento

Este método de entrenamiento mejora enormemente la precisión del modelo en la demostración de teoremas complejos.

ProverBench: un nuevo conjunto de pruebas matemáticas

Además del propio modelo, DeepSeek ha publicado ProverBench, un conjunto de datos de 325 preguntas:

15 preguntas sobre teoría de números y álgebra de los últimos concursos de matemáticas como AIME 24 y 25
310 preguntas seleccionadas a partir de ejemplos de libros de texto y tutoriales, que abarcan una amplia gama de niveles de dificultad y ámbitos.

El objetivo de este conjunto de datos es proporcionar una evaluación exhaustiva de los modelos, tanto en el nivel de competición de secundaria como en el de matemáticas de licenciatura, y ofrecer una plataforma de pruebas más sistemática para la investigación en IA matemática.

Enlace ProverBench:https://huggingface.co/datasets/deepseek-ai/DeepSeek-ProverBench

Resultados experimentales y conclusiones destacadas

En el transcurso del estudio, el equipo descubrió varios fenómenos interesantes:

Modelos CoT y no CoT

DeepSeek-Prover-V2 admite dos modos complementarios de generación de pruebas:

Modelo no-CoT (no-Cadena de Pensamiento) de gran eficaciaGeneración rápida de código lean Lean sin pasos intermedios de inferencia
Modelo de cadena de pensamiento (CoT) de alta precisiónrepresentación sistemática del proceso de razonamiento y construcción gradual de pruebas lógicamente claras

Los experimentos muestran una ventaja significativa en el rendimiento del modelo CoT sobre el modelo no-CoT en el razonamiento matemático formal, lo que confirma la eficacia de la pista de la cadena de pensamiento en el dominio de la demostración de teoremas.

Capacidades inesperadas de los modelos pequeños

Sorprendentemente, DeepSeek-Prover-V2-7B superó las expectativas al utilizar el modelo no CoT en el conjunto de datos PutnamBench. Incluso resolvió 13 preguntas que el modelo 671B no pudo resolver.

El análisis reveló que el modelo 7B adquirió una técnica única -el uso frecuente de Cardinal.toNat y Cardinal.natCast_inj para problemas que implican bases finitas- que es poco frecuente en el modelo 671B. Este hallazgo sugiere que el aprendizaje por refuerzo no sólo mejora el rendimiento general, sino que también permite al modelo desarrollar técnicas especializadas de resolución de problemas.

Guía de inicio rápido

¿Quieres probar DeepSeek-Prover-V2? Aquí tienes un sencillo ejemplo que muestra cómo utilizar la biblioteca Transformers de Hugging Face para la inferencia de modelos:

from transformadores import AutoModelForCausalLM, AutoTokenizer
importar antorcha

torch.manual_seed(30)
model_id = "deepseek-ai/DeepSeek-Prover-V2-7B" # o deepseek-ai/DeepSeek-Prover-V2-671B
tokenizer = AutoTokenizer.from_pretrained(model_id)

formal_statement = """
importar Mathlib
importar Aesop
set_option latidos_máximos 0
open BigOperators Real Nat Topología Rata
/-- ¿Cuál es la diferencia positiva entre $120\%$ de 30 y $130\%$ de 20? Demuestra que es 10.-/
teorema mathd_algebra_10 : abs ((120 : ℝ) / 100 * 30 - 130 / 100 * 20) = 10 := por
    lo siento
""".strip()

prompt = """
Completa el siguiente código de Lean 4.
 ``lean4
{}

perspectivas de futuro

El equipo de DeepSeek afirma que el trabajo futuro se centrará en ampliar este marco a sistemas similares a AlphaProof. El objetivo final es resolver enigmas matemáticos de nivel IMO que representen la vanguardia del campo de la demostración automatizada de teoremas. Con el lanzamiento de DeepSeek-Prover-V2, puede que estemos asistiendo a un importante cambio en la forma de estudiar las matemáticas. Más que un mero avance tecnológico, este modelo representa un nuevo paradigma para que los humanos colaboren con la IA en la resolución de problemas complejos.

Mientras tanto, la expectación por DeepSeek-R2 es cada vez mayor. Como dijo un internauta: "Toc toc a esta pequeña ballena azul, ¡cuándo demonios se va a enviar R2!".

Si desea utilizar GPT Plus, Claude Pro, Grok Super cuenta exclusiva oficial de pago, puede ponerse en contacto con nuestro equipo profesional (wx: abch891) si no sabe cómo recargar su cuenta.

Para más productos, visite	Más información en
ShirtAI - Inteligencia penetrante	El Gran Modelo AIGC: el comienzo de una era de doble revolución en ingeniería y ciencia - Inteligencia Penetrante
Restauración 1:1 de Claude y GPT Sitio web oficial - AI Cloud Native	Live Match App Global HD Sports Viewing Player (Recomendado) - Blueshirt Technology
Servicio de tránsito basado en la API oficial - GPTMeta API	Ayuda, ¿alguien de ustedes puede proporcionar algunos consejos sobre cómo hacer preguntas en GPT? - Conocimientos
Tienda digital global de bienes virtuales - Global SmarTone (Feng Ling Ge)	¿Qué tan poderoso es Claude airtfacts característica que GPT al instante no huele bien? -BeepBeep

categorías.

Boletín

espacio publicitario

¡Presenciemos juntos la supermagia de la IA!

Adopte su asistente de inteligencia artificial y aumente su productividad con un solo clic.