2025 年 4 月 17 日,OpenAI 在深夜直播中正式发布了全新推理模型 o3(满血版)和 o4-mini,取代了此前的 o1、o3-mini 等旧模型。此次更新在知识推理、多模态处理、代码能力等领域实现显著提升,同时优化了定价策略,为开发者和用户带来更高效的 AI 体验。
ShirtAI可以免费无限使用GPT-4、 GPT-4o最强、GPT-4.1-mini等模型,官网一键直达:www.lsshirtai.com
一、模型概述:从参数到定位的全面升级
OpenAI 此次发布的 o3 和 o4-mini 均基于全新架构,聚焦不同场景需求:
- o3:作为 “满血版” 旗舰模型,主打高级推理与工具协同,支持全功能工具接入(如 Python、联网浏览、函数调用),首次实现 “视觉推理融入思维链”,适用于复杂问题解决。
- o4-mini:轻量化高性能模型,侧重快速高级推理与代码 / 视觉任务,在保持高效的同时,性价比突出。
二、性能对比:多维度能力碾压旧模型
1. 知识推理能力:工具加持下的准确率飙升
在数学竞赛、科学问题、跨学科综合测试中,o3 和 o4-mini 展现出碾压级表现,尤其在允许调用工具时优势显著:
数据集 / 任务 | o1 | o3-mini | o3(无工具) | o3(含 Python) | o4-mini(无工具) | o4-mini(含 Python) |
---|---|---|---|---|---|---|
AIME 2024 数学竞赛(AC%) | 74.3 | 87.3 | 91.6 | 95.2 | 93.4 | 98.7 |
Codeforces 代码竞赛(ELO) | 1891 | 2073 | – | 2719 | – | 2073 |
GPQA Diamond 科学题(AC%) | 78 | 77 | 83.3 | – | 81.4 | – |
Humanity’s Last Exam(AC%) | 13.4 | 20.3 | 20.3 | 24.9 | 14.28 | 17.7 |
关键发现:
- o3 调用 Python 后,AIME 准确率从 91.6% 提升至 95.2%,跨学科专家测试(Humanity’s Last Exam)凭借工具链将准确率提升 24.9%。
- o4-mini 虽为轻量化模型,无工具时已达 93.4%(AIME),接近 o3 工具版,性价比突出;在 一道最新的Project Euler问题, o4-mini-high只用了2分55秒就解出来了,但 这道题并不简单,只有15个人能在30分钟内解决它, 而且这还是一道几天前才出来的新题,不可能出现在o4的训练集中,这表明o4-mini-high依靠「思考」解决了它。
2. 多模态视觉推理:从 “图像识别” 到 “图像思考”
o3 和 o4-mini 首次支持视觉推理融入思维链,在复杂图像理解任务中远超旧模型:
数据集 | 任务描述 | o1 | o3 | o4-mini |
---|---|---|---|---|
MMMU(大学视觉数学) | 公式 + 图形综合解题(AC%) | 77.6 | 82.9 | 81.6 |
MathVista(视觉数学) | 几何 / 函数图像推理(AC%) | 71.8 | 87.5 | 84.3 |
CharXiv-Reasoning | 科研图表理解(AC%) | 55.1 | 75.4 | 72 |
突破意义:o3 能像人类一样 “看图思考”, 实现从 “像素处理” 到 “场景推理” 的范式升级,某用户在上班路上随手拍了张照片,让o3分析所在位置,它先在截取放大图片,分析图中的关键信息,然后搜索相关网页一步步缩小搜索范围,最后给出了具体位置信息。
3. 代码与工程能力:o3 成开发者首选
在软件工程任务中,o3 凭借工具接入和代码理解能力领先,o4-mini 则在轻量场景中表现均衡:
代码任务 | 指标 | o1-high | o3-mini | o3-high | o4-mini-high |
---|---|---|---|---|---|
SWE-Bench 验证(AC%) | 算法 / 系统设计 | 48.9 | 69.1 | 69.1 | 68.1 |
Aider 代码编辑(whole) | 多语言整体重写(%) | 66.7 | 81.3 | 81.3 | 64.4 |
SWE-Lancer 接单收益 | 自由职业任务($) | 118,000 | 177,000 | 236,000 | – |
实践价值: o3 在真实编码任务中月均收益达 23.6 万美元,远超旧模型,成为企业级代码开发的核心工具;o4-mini 则适合快速原型开发和轻量级代码调试。

4. 工具使用与执行力:o3 构建智能体新范式
在多轮指令跟随、浏览器操作、函数调用等工具协同场景中,o3 展现出更强的任务连贯性:
工具任务 | 指标 | o1-high | o3-mini | o3(工具版) | o4-mini(工具版) |
---|---|---|---|---|---|
Scale MultiChallenge | 多轮指令跟随(AC%) | 28.3 | 44.93 | 56.51 | 42.99 |
BrowseComp 浏览器操作 | 信息抓取(AC%) | 32.4 | 50.0 | 70.8 | 52.0 |
Tau-bench 函数调用 | 结构化输出(AC%) | 49.7 | 51.5 | 57.6(Retail) | 65.6(Retail) |
关键优势:o3 能自主操作虚拟浏览器、调用 API 生成航班预订 JSON 等结构化输出,在复杂流程自动化中具备商用级能力。
三、参数与定价:性价比全面优化
模型 | 推理能力 | 速度 | 价格(输入・输出 / 千 Token) | 支持输入 | 上下文窗口 |
---|---|---|---|---|---|
o1 | 基础 | 最慢 | $15-$60 | 文本 / 图像 | 200,000 |
o3-mini | 高级 | 中等 | $1.1-$4.4 | 文本 | 200,000 |
o4-mini | 高级 | 中等 | $1.1-$4.4 | 文本 / 图像 | 200,000 |
o3 | 最高 | 最慢 | $10-$40 | 文本 / 图像 | 200,000 |
o1-pro | 专业 | 最慢 | $150-$600 | 文本 / 图像 | 200,000 |
核心调整:o3 定价较 o1 降低 1/3,性价比大幅提升;o4-mini 与 o3-mini 同价,但支持图像输入和更优推理。
如果想要使用GPT Plus、Claude Pro、Grok Super官方付费独享账户的,自己不会充值可以联系我们专业团队(wx:abch891)