2025年4月17日、OpenAIは深夜のライブ放送で、これまでのo1やo3-miniといった旧モデルに代わり、新しい推論モデルo3(フルブラッド版)とo4-miniを正式にリリースした。このアップデートは、知識推論、マルチモーダル処理、コード機能の分野で大幅な改善を達成し、同時に価格戦略を最適化することで、開発者とユーザーにより効率的なAI体験をもたらす。
ShirtAIでは、GPT-4、GPT-4o最強、GPT-4.1-miniなどを公式サイトからワンクリックで無料で使い放題:www.lsshirtai.com
I.モデルの概要:パラメータからポジショニングへの包括的なアップグレード
OpenAIのo3とo4-miniは新しいアーキテクチャに基づいており、異なるシナリオに焦点を当てている:
- o3: フラッグシップモデルの "完全版 "として、高度な推論とツールシナジーに焦点を当て、フル機能のツールアクセス(例:Python、ネットワークブラウジング、関数呼び出し)をサポートし、複雑な問題解決に適した "思考の連鎖に統合された視覚的推論 "を初めて実現しました。
- o4-mini:高速なハイレベル推論とコード/ビジョンタスクにフォーカスした軽量で高性能なモデルで、効率的でありながら優れた価格性能比を実現しています。
第二に、パフォーマンス比較:旧モデルを粉砕する多次元的能力
1.知的推論:ツールによる精度の急上昇
数学競技、科学問題、教科横断的なテストにおいて、o3とo4-miniは、特に道具の使用が許可された場合、圧倒的なパフォーマンスを示す:
データセット/タスク | o1 | o3-ミニ | o3(ツールレス) | o3 (Pythonを使用) | O4-ミニ(工具なし) | o4-mini (Python付き) |
---|---|---|---|---|---|---|
AIME 2024 数学コンペティション (AC%) | 74.3 | 87.3 | 91.6 | 95.2 | 93.4 | 98.7 |
Codeforcesコードコンテスト(ELO) | 1891 | 2073 | – | 2719 | – | 2073 |
GPQA ダイヤモンド・サイエンス問題集 (AC%) | 78 | 77 | 83.3 | – | 81.4 | – |
人類最後の試験 (AC%) | 13.4 | 20.3 | 20.3 | 24.9 | 14.28 | 17.7 |
主な調査結果
- AIMEの精度はo3がPythonを呼び出すと91.6%から95.2%に向上し、Humanity's Last Examはツールチェーンによって24.9%精度が向上した。
- o4-miniは軽量モデルだが、ツールなしで93.41 TP3T(AIME)に達しており、これはo3ツール版に近く、価格性能比は傑出している。o4-mini-highは最新のプロジェクト・オイラー問題の一つを2分55秒で解いたが、これは簡単な問題ではなく、30分で解けるのは15人だけで、数日前に出たばかりの新しい問題である。これは数日前に発表されたばかりの新しい問題で、o4のトレーニングセットには含まれていない。
2.マルチモーダル視覚推論:"画像認識 "から "画像思考 "へ
o3とo4-miniは、初めて視覚的推論を思考の連鎖に統合することをサポートし、複雑な画像理解タスクにおいて旧モデルをはるかに凌駕する:
データセット | ミッション・ステートメント | o1 | o3 | o4-ミニ |
---|---|---|---|---|
MMMU(ビジュアル数学大学) | 数式+グラフィカルな統合問題解決 (AC%) | 77.6 | 82.9 | 81.6 |
MathVista(ビジュアル数学) | 幾何学的/機能的イメージによる推論 (AC%) | 71.8 | 87.5 | 84.3 |
CharXiv-推論 | 科学図解 (AC%) | 55.1 | 75.4 | 72 |
ブレークスルーの意義:o3は人間のように「写真を見て考える」ことができ、「ピクセル処理」から「シーン推論」へのパラダイムアップを実現した。 ユーザーが通勤途中に何気なく写真を撮り、o3にその場所の分析を依頼した。ユーザーが通勤途中に何気なく写真を撮り、o3に位置情報の解析を依頼したところ、まずインターセプトの写真を拡大し、写真の中の重要な情報を分析し、次に関連するウェブページを検索して検索範囲を段階的に絞り込み、最後に具体的な位置情報を教えてくれた。
3.コードとエンジニアリング能力:O3は選ばれたデベロッパーである。
ソフトウェアエンジニアリングのタスクでは、o3がツールアクセスとコード理解でリードし、o4-miniは軽量シナリオでバランスが取れている:
コードタスク | 規範 | O1ハイ | o3-ミニ | O3ハイ | o4ミニハイ |
---|---|---|---|---|---|
SWEベンチ検証(AC%) | アルゴリズム / システム設計 | 48.9 | 69.1 | 69.1 | 68.1 |
Aiderコードエディター (全体) | 全体的な多言語リライト(%) | 66.7 | 81.3 | 81.3 | 64.4 |
SWE-ランサー受注収益 | フリーランスの仕事 ($) | 118,000 | 177,000 | 236,000 | – |
実用的な価値:o3は、実際のコーディング作業で月平均23万6000ドル(約2000万円)を達成し、旧モデルをはるかに凌駕し、企業レベルのコード開発の中核ツールとなった。o4-miniは、ラピッドプロトタイピングや軽量コードデバッグに適している。

4.ツールの使用と実装: o3 インテリジェンス構築のための新しいパラダイム
o3は、複数ラウンドのコマンドフォロー、ブラウザ操作、関数呼び出しなどのツール連携シナリオにおいて、より高いタスクコヒーレンスを示す:
インストゥルメンタル・タスク | 規範 | O1ハイ | o3-ミニ | o3(ツール版) | o4-mini(ツール版) |
---|---|---|---|---|---|
スケール・マルチチャレンジ | マルチラウンドコマンドフォロー(AC%) | 28.3 | 44.93 | 56.51 | 42.99 |
ブラウザ操作 | インフォメーション・キャプチャー(AC%) | 32.4 | 50.0 | 70.8 | 52.0 |
タウベンチ関数呼び出し | 構造化出力(AC%) | 49.7 | 51.5 | 57.6 (小売) | 65.6(小売) |
主な利点:仮想ブラウザーを自律的に操作し、APIを呼び出してフライト予約JSONのような構造化された出力を生成するo3の機能は、複雑なプロセスを自動化する商用レベルの機能を提供します。
III.パラメーターと価格設定:完全に最適化された価格性能比
モデリング | 推理力 | テンポ | 価格(インプット/アウトプット/千トークン) | 対応入力 | コンテキストウィンドウ |
---|---|---|---|---|---|
o1 | インフラ | 最遅 | $15-$60 | テキスト/画像 | 200,000 |
o3-ミニ | ハイレベル | 控えめ | $1.1-$4.4 | コピー | 200,000 |
o4-ミニ | ハイレベル | 控えめ | $1.1-$4.4 | テキスト/画像 | 200,000 |
o3 | 最高 | 最遅 | $10-$40 | テキスト/画像 | 200,000 |
ワンプロ | 口先 | 最遅 | $150-$600 | テキスト/画像 | 200,000 |
コア調整:o3はo1より1/3低価格で、価格性能比が大幅に向上。o4-miniはo3-miniと同価格だが、画像入力をサポートし、より優れた推論を行う。
GPT Plus、Claude Pro、Grok Superの公式有料独占アカウントを使用したい場合、アカウントのトップアップの方法がわからない場合は、当社の専門チーム(wx: abch891)にお問い合わせください。