Durante el Primero de Mayo, DeepSeek volvió a traer una gran noticia al campo de la IA: la publicación del nuevo modelo DeepSeek-Prover-V2. A pesar de los recientes rumores que circulaban por la red sobre el inminente lanzamiento de DeepSeek-R2, DeepSeek siguió adelante y publicó este potente modelo centrado en la demostración de teoremas matemáticos, y continúa manteniendo su habitual espíritu de código abierto.
Dos potentes modelos sincronizados con el código abierto
En esta ocasión, DeepSeek ha puesto a disposición pública dos versiones del modelo DeepSeek-Prover-V2.
- DeepSeek-Prover-V2-671BConstruido sobre DeepSeek-V3-Base, con 671.000 millones de parámetros, es actualmente el rey del rendimiento en la demostración de teoremas.
- DeepSeek-Prover-V2-7BBasado en DeepSeek-Prover-V1.5-Base, con 7.000 millones de parámetros, compatible con contextos de hasta 32.000 tokens.

Ambos modelos han sido publicados oficialmente en Hugging Face:
- DeepSeek-Prover-V2-7B. https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-7B
- DeepSeek-Prover-V2-671B. https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B
¿Qué es DeepSeek-Prover-V2?
DeepSeek-Prover-V2 es un modelo de gran lenguaje de código abierto para el "lenguaje de programación de IA matemática" Lean 4, centrado en la demostración formal de teoremas. En pocas palabras, puede transformar teoremas matemáticos abstractos en pruebas rigurosas verificables por ordenador, lo que supone una herramienta revolucionaria para la investigación matemática.
Su mejor característica es su capacidad para combinar a la perfección el razonamiento matemático no formal (es decir, el utilizado habitualmente por los humanos) con las pruebas formales rigurosas, lo que permite al modelo pensar con la misma flexibilidad que un humano y argumentar con el mismo rigor que un ordenador, logrando una mezcla integrada de razonamiento matemático.

Rendimiento asombroso: se baten muchos récords
DeepSeek-Prover-V2-671B muestra una potencia sin precedentes en varias pruebas de teoremas:
- Alcanzado un índice de aprobados sin precedentes de 88,9% en el conjunto de pruebas MiniF2F.
- Resuelve con éxito 49 de las 658 preguntas del conjunto de datos PutnamBench
- También se desenvuelve bien en problemas difíciles de concursos matemáticos como los AIME 24 y 25
Muchos internautas probaron el modelo y afirmaron que era incluso más capaz de resolver problemas matemáticos complejos que los mejores modelos, como el o4-mini de OpenAI y el Grok-3 de XAI. Algunos estudiantes que se adentraron en la Olimpiada de Matemáticas exclamaron: "¡La Olimpiada nunca había sido tan fácil!".

Innovación tecnológica: combinar el aprendizaje recursivo y el de refuerzo
En el informe técnico, el equipo de DeepSeek revela la metodología central de entrenamiento de Prover-V2, que se basa en una innovadora combinación de aprendizaje recursivo + aprendizaje por refuerzo. El proceso de entrenamiento del modelo se divide en varios pasos clave:
1. Búsqueda recursiva de pruebas mediante la descomposición de subobjetivos
DeepSeek-Prover-V2 utiliza una forma de pensar similar a la de un matemático humano: descomponer teoremas complejos en una serie de lemas más pequeños que demostrar. El proceso específico de implementación incluye:
- En primer lugar, DeepSeek-V3 genera esquemas de demostración en lenguaje natural y los formaliza como enunciados de teoremas en lenguaje Lean.
- A continuación, las submetas descompuestas se resuelven recursivamente utilizando el modelo de prueba 7B
- Por último, las pruebas de estas submetas se combinan para construir una prueba formal completa del problema complejo original
Este enfoque no sólo mejora la eficacia de la prueba, sino que también amplía la gama de teoremas que el modelo puede manejar.

2. Armonizar el razonamiento no formal con las pruebas formales
El equipo de DeepSeek ha combinado inteligentemente el razonamiento de lenguaje natural de alto nivel con procesos de prueba exacta de bajo nivel:
- Elige problemas especialmente difíciles de resolver y divídelos en objetivos más pequeños.
- Una vez demostrados cada uno de los miniobjetivos, se combinan para formar una prueba rigurosa completa.
- Añada esta prueba completa a la "cadena de pensamiento" generada por DeepSeek-V3, creando datos de entrenamiento que combinan el pensamiento humano y la verificación de la máquina.
De este modo, el equipo recopiló cientos de datos de entrenamiento de alta calidad, proporcionando una sólida base de aprendizaje para el modelo.

3. Aprendizaje reforzado para mejorar la capacidad de razonamiento
Tras un ajuste inicial, el equipo introdujo el algoritmo de aprendizaje por refuerzo Group Relative Policy Optimization (GRPO):
- Muestreo de múltiples pruebas candidatas para cada pregunta y optimización de la estrategia mediante recompensas relativas.
- Utilizar un mecanismo de recompensa binario: Lean puntúa 1 en caso de verificación correcta y 0 en caso de fallo.
- La bonificación de coherencia estructural se ha diseñado específicamente para garantizar que las pruebas generadas por el modelo sean coherentes con las ideas de descomposición de la cadena de pensamiento
Este método de entrenamiento mejora enormemente la precisión del modelo en la demostración de teoremas complejos.

ProverBench: un nuevo conjunto de pruebas matemáticas
Además del propio modelo, DeepSeek ha publicado ProverBench, un conjunto de datos de 325 preguntas:
- 15 preguntas sobre teoría de números y álgebra de los últimos concursos de matemáticas como AIME 24 y 25
- 310 preguntas seleccionadas a partir de ejemplos de libros de texto y tutoriales, que abarcan una amplia gama de niveles de dificultad y ámbitos.
El objetivo de este conjunto de datos es proporcionar una evaluación exhaustiva de los modelos, tanto en el nivel de competición de secundaria como en el de matemáticas de licenciatura, y ofrecer una plataforma de pruebas más sistemática para la investigación en IA matemática.
Enlace ProverBench:https://huggingface.co/datasets/deepseek-ai/DeepSeek-ProverBench
Resultados experimentales y conclusiones destacadas
En el transcurso del estudio, el equipo descubrió varios fenómenos interesantes:
Modelos CoT y no CoT
DeepSeek-Prover-V2 admite dos modos complementarios de generación de pruebas:
- Modelo no-CoT (no-Cadena de Pensamiento) de gran eficaciaGeneración rápida de código lean Lean sin pasos intermedios de inferencia
- Modelo de cadena de pensamiento (CoT) de alta precisiónrepresentación sistemática del proceso de razonamiento y construcción gradual de pruebas lógicamente claras
Los experimentos muestran una ventaja significativa en el rendimiento del modelo CoT sobre el modelo no-CoT en el razonamiento matemático formal, lo que confirma la eficacia de la pista de la cadena de pensamiento en el dominio de la demostración de teoremas.
Capacidades inesperadas de los modelos pequeños
Sorprendentemente, DeepSeek-Prover-V2-7B superó las expectativas al utilizar el modelo no CoT en el conjunto de datos PutnamBench. Incluso resolvió 13 preguntas que el modelo 671B no pudo resolver.
El análisis reveló que el modelo 7B adquirió una técnica única -el uso frecuente de Cardinal.toNat y Cardinal.natCast_inj para problemas que implican bases finitas- que es poco frecuente en el modelo 671B. Este hallazgo sugiere que el aprendizaje por refuerzo no sólo mejora el rendimiento general, sino que también permite al modelo desarrollar técnicas especializadas de resolución de problemas.
Guía de inicio rápido
¿Quieres probar DeepSeek-Prover-V2? Aquí tienes un sencillo ejemplo que muestra cómo utilizar la biblioteca Transformers de Hugging Face para la inferencia de modelos:
from transformadores import AutoModelForCausalLM, AutoTokenizer
importar antorcha
torch.manual_seed(30)
model_id = "deepseek-ai/DeepSeek-Prover-V2-7B" # o deepseek-ai/DeepSeek-Prover-V2-671B
tokenizer = AutoTokenizer.from_pretrained(model_id)
formal_statement = """
importar Mathlib
importar Aesop
set_option latidos_máximos 0
open BigOperators Real Nat Topología Rata
/-- ¿Cuál es la diferencia positiva entre $120\%$ de 30 y $130\%$ de 20? Demuestra que es 10.-/
teorema mathd_algebra_10 : abs ((120 : ℝ) / 100 * 30 - 130 / 100 * 20) = 10 := por
lo siento
""".strip()
prompt = """
Completa el siguiente código de Lean 4.
``lean4
{}
perspectivas de futuro
El equipo de DeepSeek afirma que el trabajo futuro se centrará en ampliar este marco a sistemas similares a AlphaProof. El objetivo final es resolver enigmas matemáticos de nivel IMO que representen la vanguardia del campo de la demostración automatizada de teoremas. Con el lanzamiento de DeepSeek-Prover-V2, puede que estemos asistiendo a un importante cambio en la forma de estudiar las matemáticas. Más que un mero avance tecnológico, este modelo representa un nuevo paradigma para que los humanos colaboren con la IA en la resolución de problemas complejos.
Mientras tanto, la expectación por DeepSeek-R2 es cada vez mayor. Como dijo un internauta: "Toc toc a esta pequeña ballena azul, ¡cuándo demonios se va a enviar R2!".
Si desea utilizar GPT Plus, Claude Pro, Grok Super cuenta exclusiva oficial de pago, puede ponerse en contacto con nuestro equipo profesional (wx: abch891) si no sabe cómo recargar su cuenta.