コンテンツ詳細

テクノロジーと知識が絡み合う世界では、読書はすべて、知恵を与え、無限の創造性を刺激する素晴らしい冒険のようなものだ。

ディープシーク、Prover-V2モデルをリリース:671Bパラメータが数学的定理証明を強化

メーデーの間、DeepSeekは再びAI分野に重大なニュースをもたらしました - 新しいDeepSeek-Prover-V2モデルのオープンソース化です。DeepSeek-R2のリリースが間近に迫っているという噂が最近ウェブ上で流れたにもかかわらず、DeepSeekは先行して数学的定理証明に焦点を当てたこの強力なモデルをリリースし、通常のオープンソース精神を維持し続けています。

オープンソースと同期した2つの強力なモデル

今回ディープシークは、DeepSeek-Prover-V2モデルの2つのバージョンをオープンソース化した。

  • DeepSeek-Prover-V2-671BDeepSeek-V3-Base上に構築され、6710億のパラメータを持ち、現在、定理証明における性能の王様である。
  • DeepSeek-Prover-V2-7BDeepSeek-Prover-V1.5-Baseをベースに構築され、70億のパラメータと32Kトークンまでのコンテキスト長をサポートします。

両モデルともハギング・フェイスで正式にリリースされた:

DeepSeek-Prover-V2とは何ですか?

DeepSeek-Prover-V2は、「数学的AIプログラミング言語」Lean 4のオープンソース大規模言語モデルであり、形式的定理証明に焦点を当てている。簡単に言えば、抽象的な数学定理を厳密なコンピュータ検証可能な証明に変換することができ、数学研究に革命的なツールをもたらします。

その最大の特徴は、非形式的な数学的推論(つまり、人間が一般的に使用するもの)と厳密な形式的証明をシームレスに組み合わせることができることで、このモデルは人間のように柔軟に思考し、コンピュータのように厳密に議論することができ、数学的推論の統合された融合を実現する。

驚異的なパフォーマンス:数々の記録を樹立

DeepSeek-Prover-V2-671Bは、定理証明のさまざまなベンチマークにおいて、これまでにない強さを示している:

  • MiniF2Fテストセットで88.9%という過去最高の合格率を達成
  • PutnamBenchデータセットの658問中49問を解くことに成功
  • また、AIME24や25のような難しい数学競技の問題でも好成績を収めている。

多くのネットユーザーがこのモデルをテストし、OpenAIのo4-miniやXAIのGrok-3といったトップモデルよりも複雑な数学の問題を解く能力が高いと述べた。数学オリンピックを掘り下げた学生の中には、"オリンピックがこんなに簡単だったことはない!"と叫んだ者もいた。

技術革新:再帰学習と強化学習の組み合わせ

テクニカルレポートの中で、DeepSeekチームは、再帰学習と強化学習の革新的な組み合わせに基づくProver-V2の中核的なトレーニング手法を明らかにしている。モデルの学習プロセスは、いくつかの重要なステップに分かれています:

1.サブゴールの分解による再帰的証明探索

DeepSeek-Prover-V2 は、複雑な定理を一連の小さなレンマに分解して証明するという、人間の数学者と同様の思考方法を使用します。具体的な実装プロセスは以下の通り:

  • DeepSeek-V3は、まず自然言語形式の証明スケッチを生成し、それをリーン言語の定理文として形式化するよう促される。
  • 分解されたサブゴールは、7B証明モデルを用いて再帰的に解かれる。
  • 最後に、これらのサブゴールの証明を組み合わせて、元の複雑な問題の完全な形式的証明を構築する。

このアプローチは証明の効率を向上させるだけでなく、モデルが扱える定理の範囲を広げる。

2.非形式的推論と形式的証明の調和

DeepSeekチームは、高レベルの自然言語推論と低レベルの厳密な証明プロセスを巧みに融合させている:

  • 解決するのが特に難しい問題を選び、それを小さな目標に分解する。
  • ミニゴールがそれぞれ証明されると、それらが組み合わされて完全な厳密証明となる
  • この完全な証明を、DeepSeek-V3が生成した「思考の連鎖」に加えることで、人間の思考と機械の検証を組み合わせた学習データを形成する。

このようにして、チームは何百もの質の高いトレーニングデータを収集し、モデルのための強固な学習基盤を提供した。

3.推理力を高めるための学習強化

最初の微調整の後、チームはグループ相対政策最適化(GRPO)強化学習アルゴリズムを導入した:

  • 各問題に対して複数の証明候補をサンプリングし、相対的な報酬によって戦略を最適化する。
  • 二進法の報酬メカニズムを使用:リーンは、検証に成功した場合は「1」、失敗した場合は「0」を獲得する。
  • 構造的整合性ボーナスは、モデルによって生成された証明が思考連鎖分解の考え方と整合していることを保証するために特別に設計されている。

この学習方法は、複雑な定理証明におけるモデルの精度を大幅に向上させる。

ProverBench: 数学ベンチマークの新しいセット

ディープシークは、モデル自体に加えて、325の質問からなるベンチマーク・データセットであるProverBenchをリリースした:

  • AIME 24や25といった最新の数学コンテストから数論と代数に関する15問を出題。
  • 教科書の例題やチュートリアルから310問を厳選し、幅広い難易度と分野をカバー。

このデータセットは、高校生の競技レベルと学部生の数学レベルの両方でモデルの包括的な評価を提供し、数学AI研究のより体系的なテストプラットフォームを提供することを目的としている。

ProverBench Link:https://huggingface.co/datasets/deepseek-ai/DeepSeek-ProverBench

実験結果と強調事項

研究の過程で、研究チームはいくつかの興味深い現象を発見した:

CoTモデルと非CoTモデル

DeepSeek-Prover-V2 は、2 つの相補的な証明生成モードをサポートしています:

  • 高効率の非CoT(非Chain of Thought)モデル中間推論ステップのないリーンコードの高速生成
  • 高精度思考連鎖(CoT)モデル推論プロセスの体系的表現と論理的に明確な証明の段階的構築

実験では、CoTモデルが非CoTモデルよりも数学的推論において有意に優れていることが示され、定理証明の領域における連鎖的思考の手がかりの有効性が確認された。

小型モデルの意外な能力

驚くべきことに、DeepSeek-Prover-V2-7Bは、PutnamBenchデータセットで非CoTモデルを使用した場合、期待以上の性能を発揮しました。671Bモデルが解けなかった13の問題さえ解いた!

解析の結果、7Bモデルは、671Bモデルでは稀な、有限塩基を含む問題に対するCardinal.toNatとCardinal.natCast_injの頻繁な使用という、ユニークな技法を獲得していることが明らかになった。この発見は、強化学習が全体的な性能を向上させるだけでなく、モデルに特殊な問題解決技術を身につけさせることを示唆している。

クイックスタートガイド

DeepSeek-Prover-V2を試してみたいですか?Hugging FaceのTransformersライブラリをモデル推論に使用する方法を示す簡単な例です:

PHP
from transformers import AutoModelForCausalLM, AutoTokenizer
インポートトーチ

torch.manual_seed(30)
model_id = "deepseek-ai/DeepSeek-Prover-V2-7B" # または deepseek-ai/DeepSeek-Prover-V2-671B
tokenizer = AutoTokenizer.from_pretrained(model_id)

formal_statement = """
インポート Mathlib
インポート Aesop
set_option maxHeartbeats 0
open BigOperators Real Nat Topology Rat
/-- $120%$ of 30と$130%$ of 20の正の差は? 10であることを示せ。
定理 mathd_algebra_10 : abs ((120 : ↪Lu_211D) / 100 * 30 - 130 / 100 * 20) = 10 := by
    すまん
""".strip()

prompt = """
以下のLean 4のコードを完成させなさい。
 リーン4
{}

将来展望

DeepSeekチームは、このフレームワークをAlphaProofのようなシステムに拡張することに今後の研究の焦点を絞るとしている。最終的な目標は、自動定理証明分野の最先端を示すIMOレベルの数学パズルを解くことである。DeepSeek-Prover-V2のリリースにより、我々は数学の研究方法に大きな変化を目撃することになるかもしれない。単なる技術的進歩にとどまらず、このモデルは、人間がAIと協力して複雑な問題を解くための新しいパラダイムを象徴している。

一方、DeepSeek-R2への期待はますます高まっている。あるネットユーザーは、"この小さなシロナガスクジラをノックしてくれ!R2は一体いつ送り出されるんだ!"と言った。

GPT Plus、Claude Pro、Grok Superの公式有料独占アカウントを使用したい場合、アカウントのトップアップの方法がわからない場合は、当社の専門チーム(wx: abch891)にお問い合わせください。

その他の製品については

詳細はこちら

シャツAI - 貫通する知性 AIGCビッグ・モデル:工学と科学の二大革命の時代を切り開く - Penetrating Intelligence
クロードとGPTの1:1復元 公式サイト - AI Cloud Native ライブマッチアプリ グローバルHDスポーツ観戦プレーヤー(推奨) - Blueshirt Technology
公式APIに基づくトランジットサービス - GPTMeta API GPTで質問するときのコツを教えてください。- 知識
グローバルバーチャルグッズデジタルストア - グローバルスマートーン(馮玲葛) GPTが瞬時にいい匂いを感じなくなるクロード・エアトファクト機能の実力は?-ピーピーピー
検索

のカテゴリーに分類される。

ニュースレター

広告スペース

AIのスーパーマジックを一緒に目撃しよう!

AIアシスタントを活用し、ワンクリックで生産性を向上させましょう!