コンテンツ詳細

テクノロジーと知識が絡み合う世界では、読書はすべて、知恵を与え、無限の創造性を刺激する素晴らしい冒険のようなものだ。

OpenAIが最新の推論モデルo3とo4-miniを発表:性能の飛躍とパラダイムの革新

2025年4月17日、OpenAIは深夜のライブ放送で、これまでのo1やo3-miniといった旧モデルに代わり、新しい推論モデルo3(フルブラッド版)とo4-miniを正式にリリースした。このアップデートは、知識推論、マルチモーダル処理、コード機能の分野で大幅な改善を達成し、同時に価格戦略を最適化することで、開発者とユーザーにより効率的なAI体験をもたらす。
ShirtAIでは、GPT-4、GPT-4o最強、GPT-4.1-miniなどを公式サイトからワンクリックで無料で使い放題:www.lsshirtai.com

 

I.モデルの概要:パラメータからポジショニングへの包括的なアップグレード

OpenAIのo3とo4-miniは新しいアーキテクチャに基づいており、異なるシナリオに焦点を当てている:
  • o3: フラッグシップモデルの "完全版 "として、高度な推論とツールシナジーに焦点を当て、フル機能のツールアクセス(例:Python、ネットワークブラウジング、関数呼び出し)をサポートし、複雑な問題解決に適した "思考の連鎖に統合された視覚的推論 "を初めて実現しました。
  • o4-mini:高速なハイレベル推論とコード/ビジョンタスクにフォーカスした軽量で高性能なモデルで、効率的でありながら優れた価格性能比を実現しています。

第二に、パフォーマンス比較:旧モデルを粉砕する多次元的能力

1.知的推論:ツールによる精度の急上昇

数学競技、科学問題、教科横断的なテストにおいて、o3とo4-miniは、特に道具の使用が許可された場合、圧倒的なパフォーマンスを示す:
データセット/タスク o1 o3-ミニ o3(ツールレス) o3 (Pythonを使用) O4-ミニ(工具なし) o4-mini (Python付き)
AIME 2024 数学コンペティション (AC%) 74.3 87.3 91.6 95.2 93.4 98.7
Codeforcesコードコンテスト(ELO) 1891 2073 2719 2073
GPQA ダイヤモンド・サイエンス問題集 (AC%) 78 77 83.3 81.4
人類最後の試験 (AC%) 13.4 20.3 20.3 24.9 14.28 17.7
主な調査結果
  • AIMEの精度はo3がPythonを呼び出すと91.6%から95.2%に向上し、Humanity's Last Examはツールチェーンによって24.9%精度が向上した。
  • o4-miniは軽量モデルだが、ツールなしで93.41 TP3T(AIME)に達しており、これはo3ツール版に近く、価格性能比は傑出している。o4-mini-highは最新のプロジェクト・オイラー問題の一つを2分55秒で解いたが、これは簡単な問題ではなく、30分で解けるのは15人だけで、数日前に出たばかりの新しい問題である。これは数日前に発表されたばかりの新しい問題で、o4のトレーニングセットには含まれていない。

 

2.マルチモーダル視覚推論:"画像認識 "から "画像思考 "へ

o3とo4-miniは、初めて視覚的推論を思考の連鎖に統合することをサポートし、複雑な画像理解タスクにおいて旧モデルをはるかに凌駕する:
データセット ミッション・ステートメント o1 o3 o4-ミニ
MMMU(ビジュアル数学大学) 数式+グラフィカルな統合問題解決 (AC%) 77.6 82.9 81.6
MathVista(ビジュアル数学) 幾何学的/機能的イメージによる推論 (AC%) 71.8 87.5 84.3
CharXiv-推論 科学図解 (AC%) 55.1 75.4 72
ブレークスルーの意義:o3は人間のように「写真を見て考える」ことができ、「ピクセル処理」から「シーン推論」へのパラダイムアップを実現した。 ユーザーが通勤途中に何気なく写真を撮り、o3にその場所の分析を依頼した。ユーザーが通勤途中に何気なく写真を撮り、o3に位置情報の解析を依頼したところ、まずインターセプトの写真を拡大し、写真の中の重要な情報を分析し、次に関連するウェブページを検索して検索範囲を段階的に絞り込み、最後に具体的な位置情報を教えてくれた。

 

3.コードとエンジニアリング能力:O3は選ばれたデベロッパーである。

ソフトウェアエンジニアリングのタスクでは、o3がツールアクセスとコード理解でリードし、o4-miniは軽量シナリオでバランスが取れている:
コードタスク 規範 O1ハイ o3-ミニ O3ハイ o4ミニハイ
SWEベンチ検証(AC%) アルゴリズム / システム設計 48.9 69.1 69.1 68.1
Aiderコードエディター (全体) 全体的な多言語リライト(%) 66.7 81.3 81.3 64.4
SWE-ランサー受注収益 フリーランスの仕事 ($) 118,000 177,000 236,000
実用的な価値:o3は、実際のコーディング作業で月平均23万6000ドル(約2000万円)を達成し、旧モデルをはるかに凌駕し、企業レベルのコード開発の中核ツールとなった。o4-miniは、ラピッドプロトタイピングや軽量コードデバッグに適している。

 

 

 

 

4.ツールの使用と実装: o3 インテリジェンス構築のための新しいパラダイム

o3は、複数ラウンドのコマンドフォロー、ブラウザ操作、関数呼び出しなどのツール連携シナリオにおいて、より高いタスクコヒーレンスを示す:
インストゥルメンタル・タスク 規範 O1ハイ o3-ミニ o3(ツール版) o4-mini(ツール版)
スケール・マルチチャレンジ マルチラウンドコマンドフォロー(AC%) 28.3 44.93 56.51 42.99
ブラウザ操作 インフォメーション・キャプチャー(AC%) 32.4 50.0 70.8 52.0
タウベンチ関数呼び出し 構造化出力(AC%) 49.7 51.5 57.6 (小売) 65.6(小売)
主な利点:仮想ブラウザーを自律的に操作し、APIを呼び出してフライト予約JSONのような構造化された出力を生成するo3の機能は、複雑なプロセスを自動化する商用レベルの機能を提供します。

 

III.パラメーターと価格設定:完全に最適化された価格性能比

モデリング 推理力 テンポ 価格(インプット/アウトプット/千トークン) 対応入力 コンテキストウィンドウ
o1 インフラ 最遅 $15-$60 テキスト/画像 200,000
o3-ミニ ハイレベル 控えめ $1.1-$4.4 コピー 200,000
o4-ミニ ハイレベル 控えめ $1.1-$4.4 テキスト/画像 200,000
o3 最高 最遅 $10-$40 テキスト/画像 200,000
ワンプロ 口先 最遅 $150-$600 テキスト/画像 200,000
コア調整:o3はo1より1/3低価格で、価格性能比が大幅に向上。o4-miniはo3-miniと同価格だが、画像入力をサポートし、より優れた推論を行う。

GPT Plus、Claude Pro、Grok Superの公式有料独占アカウントを使用したい場合、アカウントのトップアップの方法がわからない場合は、当社の専門チーム(wx: abch891)にお問い合わせください。

その他の製品については

詳細はこちら

シャツAI - 貫通する知性 AIGCビッグ・モデル:工学と科学の二大革命の時代を切り開く - Penetrating Intelligence
クロードとGPTの1:1復元 公式サイト - AI Cloud Native ライブマッチアプリ グローバルHDスポーツ観戦プレーヤー(推奨) - Blueshirt Technology
公式APIに基づくトランジットサービス - GPTMeta API GPTで質問するときのコツを教えてください。- 知識
グローバルバーチャルグッズデジタルストア - グローバルスマートーン(馮玲葛) GPTが瞬時にいい匂いを感じなくなるクロード・エアトファクト機能の実力は?-ピーピーピー
検索

のカテゴリーに分類される。

ニュースレター

広告スペース

AIのスーパーマジックを一緒に目撃しよう!

AIアシスタントを活用し、ワンクリックで生産性を向上させましょう!