OpenAI 推出最新推理模型 o3 和 o4-mini：性能跃升与范式革新

コンテンツ詳細

テクノロジーと知識が絡み合う世界では、読書はすべて、知恵を与え、無限の創造性を刺激する素晴らしい冒険のようなものだ。

OpenAIが最新の推論モデルo3とo4-miniを発表：性能の飛躍とパラダイムの革新

2025年4月17日、OpenAIは深夜のライブ放送で、これまでのo1やo3-miniといった旧モデルに代わり、新しい推論モデルo3（フルブラッド版）とo4-miniを正式にリリースした。このアップデートは、知識推論、マルチモーダル処理、コード機能の分野で大幅な改善を達成し、同時に価格戦略を最適化することで、開発者とユーザーにより効率的なAI体験をもたらす。

ShirtAIでは、GPT-4、GPT-4o最強、GPT-4.1-miniなどを公式サイトからワンクリックで無料で使い放題：www.lsshirtai.com

I.モデルの概要：パラメータからポジショニングへの包括的なアップグレード

OpenAIのo3とo4-miniは新しいアーキテクチャに基づいており、異なるシナリオに焦点を当てている：

o3: フラッグシップモデルの "完全版 "として、高度な推論とツールシナジーに焦点を当て、フル機能のツールアクセス（例：Python、ネットワークブラウジング、関数呼び出し）をサポートし、複雑な問題解決に適した "思考の連鎖に統合された視覚的推論 "を初めて実現しました。
o4-mini：高速なハイレベル推論とコード/ビジョンタスクにフォーカスした軽量で高性能なモデルで、効率的でありながら優れた価格性能比を実現しています。

第二に、パフォーマンス比較：旧モデルを粉砕する多次元的能力

1.知的推論：ツールによる精度の急上昇

数学競技、科学問題、教科横断的なテストにおいて、o3とo4-miniは、特に道具の使用が許可された場合、圧倒的なパフォーマンスを示す：

データセット／タスク	o1	o3-ミニ	o3（ツールレス）	o3 (Pythonを使用)	O4-ミニ（工具なし）	o4-mini (Python付き)
AIME 2024 数学コンペティション (AC%)	74.3	87.3	91.6	95.2	93.4	98.7
Codeforcesコードコンテスト（ELO）	1891	2073	–	2719	–	2073
GPQA ダイヤモンド・サイエンス問題集 (AC%)	78	77	83.3	–	81.4	–
人類最後の試験 (AC%)	13.4	20.3	20.3	24.9	14.28	17.7

主な調査結果

AIMEの精度はo3がPythonを呼び出すと91.6%から95.2%に向上し、Humanity's Last Examはツールチェーンによって24.9%精度が向上した。
o4-miniは軽量モデルだが、ツールなしで93.41 TP3T(AIME)に達しており、これはo3ツール版に近く、価格性能比は傑出している。o4-mini-highは最新のプロジェクト・オイラー問題の一つを2分55秒で解いたが、これは簡単な問題ではなく、30分で解けるのは15人だけで、数日前に出たばかりの新しい問題である。これは数日前に発表されたばかりの新しい問題で、o4のトレーニングセットには含まれていない。

2.マルチモーダル視覚推論："画像認識 "から "画像思考 "へ

o3とo4-miniは、初めて視覚的推論を思考の連鎖に統合することをサポートし、複雑な画像理解タスクにおいて旧モデルをはるかに凌駕する：

データセット	ミッション・ステートメント	o1	o3	o4-ミニ
MMMU（ビジュアル数学大学）	数式＋グラフィカルな統合問題解決 (AC%)	77.6	82.9	81.6
MathVista（ビジュアル数学）	幾何学的/機能的イメージによる推論 (AC%)	71.8	87.5	84.3
CharXiv-推論	科学図解 (AC%)	55.1	75.4	72

ブレークスルーの意義：o3は人間のように「写真を見て考える」ことができ、「ピクセル処理」から「シーン推論」へのパラダイムアップを実現した。ユーザーが通勤途中に何気なく写真を撮り、o3にその場所の分析を依頼した。ユーザーが通勤途中に何気なく写真を撮り、o3に位置情報の解析を依頼したところ、まずインターセプトの写真を拡大し、写真の中の重要な情報を分析し、次に関連するウェブページを検索して検索範囲を段階的に絞り込み、最後に具体的な位置情報を教えてくれた。

3.コードとエンジニアリング能力：O3は選ばれたデベロッパーである。

ソフトウェアエンジニアリングのタスクでは、o3がツールアクセスとコード理解でリードし、o4-miniは軽量シナリオでバランスが取れている：

コードタスク	規範	O1ハイ	o3-ミニ	O3ハイ	o4ミニハイ
SWEベンチ検証（AC%）	アルゴリズム / システム設計	48.9	69.1	69.1	68.1
Aiderコードエディター (全体)	全体的な多言語リライト（%）	66.7	81.3	81.3	64.4
SWE-ランサー受注収益	フリーランスの仕事 ($)	118,000	177,000	236,000	–

実用的な価値：o3は、実際のコーディング作業で月平均23万6000ドル（約2000万円）を達成し、旧モデルをはるかに凌駕し、企業レベルのコード開発の中核ツールとなった。o4-miniは、ラピッドプロトタイピングや軽量コードデバッグに適している。

4.ツールの使用と実装： o3 インテリジェンス構築のための新しいパラダイム

o3は、複数ラウンドのコマンドフォロー、ブラウザ操作、関数呼び出しなどのツール連携シナリオにおいて、より高いタスクコヒーレンスを示す：

インストゥルメンタル・タスク	規範	O1ハイ	o3-ミニ	o3（ツール版）	o4-mini（ツール版）
スケール・マルチチャレンジ	マルチラウンドコマンドフォロー（AC%）	28.3	44.93	56.51	42.99
ブラウザ操作	インフォメーション・キャプチャー（AC%）	32.4	50.0	70.8	52.0
タウベンチ関数呼び出し	構造化出力（AC%）	49.7	51.5	57.6 （小売）	65.6（小売）

主な利点：仮想ブラウザーを自律的に操作し、APIを呼び出してフライト予約JSONのような構造化された出力を生成するo3の機能は、複雑なプロセスを自動化する商用レベルの機能を提供します。

III.パラメーターと価格設定：完全に最適化された価格性能比

モデリング	推理力	テンポ	価格（インプット／アウトプット／千トークン）	対応入力	コンテキストウィンドウ
o1	インフラ	最遅	$15-$60	テキスト/画像	200,000
o3-ミニ	ハイレベル	控えめ	$1.1-$4.4	コピー	200,000
o4-ミニ	ハイレベル	控えめ	$1.1-$4.4	テキスト/画像	200,000
o3	最高	最遅	$10-$40	テキスト/画像	200,000
ワンプロ	口先	最遅	$150-$600	テキスト/画像	200,000

コア調整：o3はo1より1/3低価格で、価格性能比が大幅に向上。o4-miniはo3-miniと同価格だが、画像入力をサポートし、より優れた推論を行う。

GPT Plus、Claude Pro、Grok Superの公式有料独占アカウントを使用したい場合、アカウントのトップアップの方法がわからない場合は、当社の専門チーム（wx: abch891）にお問い合わせください。

その他の製品については	詳細はこちら
シャツAI - 貫通する知性	AIGCビッグ・モデル：工学と科学の二大革命の時代を切り開く - Penetrating Intelligence
クロードとGPTの1:1復元公式サイト - AI Cloud Native	ライブマッチアプリグローバルHDスポーツ観戦プレーヤー（推奨） - Blueshirt Technology
公式APIに基づくトランジットサービス - GPTMeta API	GPTで質問するときのコツを教えてください。- 知識
グローバルバーチャルグッズデジタルストア - グローバルスマートーン（馮玲葛）	GPTが瞬時にいい匂いを感じなくなるクロード・エアトファクト機能の実力は？-ピーピーピー

のカテゴリーに分類される。

ニュースレター

広告スペース

AIのスーパーマジックを一緒に目撃しよう！

AIアシスタントを活用し、ワンクリックで生産性を向上させましょう！