内容详情

在这个世界里,科技与知识交织,每一次阅读都像是一场奇妙的冒险,让你感受到智慧的力量,激发无尽的创造力。

WritifyAi Single Post Template

2025 年 4 月 17 日,OpenAI 在深夜直播中正式发布了全新推理模型 o3(满血版)和 o4-mini,取代了此前的 o1、o3-mini 等旧模型。此次更新在知识推理、多模态处理、代码能力等领域实现显著提升,同时优化了定价策略,为开发者和用户带来更高效的 AI 体验。
ShirtAI可以免费无限使用GPT-4、 GPT-4o最强、GPT-4.1-mini等模型,官网一键直达:www.lsshirtai.com

 

一、模型概述:从参数到定位的全面升级

OpenAI 此次发布的 o3 和 o4-mini 均基于全新架构,聚焦不同场景需求:
  • o3:作为 “满血版” 旗舰模型,主打高级推理与工具协同,支持全功能工具接入(如 Python、联网浏览、函数调用),首次实现 “视觉推理融入思维链”,适用于复杂问题解决。
  • o4-mini:轻量化高性能模型,侧重快速高级推理与代码 / 视觉任务,在保持高效的同时,性价比突出。

二、性能对比:多维度能力碾压旧模型

1. 知识推理能力:工具加持下的准确率飙升

在数学竞赛、科学问题、跨学科综合测试中,o3 和 o4-mini 展现出碾压级表现,尤其在允许调用工具时优势显著:
数据集 / 任务 o1 o3-mini o3(无工具) o3(含 Python) o4-mini(无工具) o4-mini(含 Python)
AIME 2024 数学竞赛(AC%) 74.3 87.3 91.6 95.2 93.4 98.7
Codeforces 代码竞赛(ELO) 1891 2073 2719 2073
GPQA Diamond 科学题(AC%) 78 77 83.3 81.4
Humanity’s Last Exam(AC%) 13.4 20.3 20.3 24.9 14.28 17.7
关键发现:
  • o3 调用 Python 后,AIME 准确率从 91.6% 提升至 95.2%,跨学科专家测试(Humanity’s Last Exam)凭借工具链将准确率提升 24.9%。
  • o4-mini 虽为轻量化模型,无工具时已达 93.4%(AIME),接近 o3 工具版,性价比突出;在 一道最新的Project Euler问题, o4-mini-high只用了2分55秒就解出来了,但 这道题并不简单,只有15个人能在30分钟内解决它, 而且这还是一道几天前才出来的新题,不可能出现在o4的训练集中,这表明o4-mini-high依靠「思考」解决了它。

 

2. 多模态视觉推理:从 “图像识别” 到 “图像思考”

o3 和 o4-mini 首次支持视觉推理融入思维链,在复杂图像理解任务中远超旧模型:
数据集 任务描述 o1 o3 o4-mini
MMMU(大学视觉数学) 公式 + 图形综合解题(AC%) 77.6 82.9 81.6
MathVista(视觉数学) 几何 / 函数图像推理(AC%) 71.8 87.5 84.3
CharXiv-Reasoning 科研图表理解(AC%) 55.1 75.4 72
突破意义:o3 能像人类一样 “看图思考”, 实现从 “像素处理” 到 “场景推理” 的范式升级,某用户在上班路上随手拍了张照片,让o3分析所在位置,它先在截取放大图片,分析图中的关键信息,然后搜索相关网页一步步缩小搜索范围,最后给出了具体位置信息。

 

3. 代码与工程能力:o3 成开发者首选

在软件工程任务中,o3 凭借工具接入和代码理解能力领先,o4-mini 则在轻量场景中表现均衡:
代码任务 指标 o1-high o3-mini o3-high o4-mini-high
SWE-Bench 验证(AC%) 算法 / 系统设计 48.9 69.1 69.1 68.1
Aider 代码编辑(whole) 多语言整体重写(%) 66.7 81.3 81.3 64.4
SWE-Lancer 接单收益 自由职业任务($) 118,000 177,000 236,000
实践价值: o3 在真实编码任务中月均收益达 23.6 万美元,远超旧模型,成为企业级代码开发的核心工具;o4-mini 则适合快速原型开发和轻量级代码调试。

 

 

 

 

4. 工具使用与执行力:o3 构建智能体新范式

在多轮指令跟随、浏览器操作、函数调用等工具协同场景中,o3 展现出更强的任务连贯性:
工具任务 指标 o1-high o3-mini o3(工具版) o4-mini(工具版)
Scale MultiChallenge 多轮指令跟随(AC%) 28.3 44.93 56.51 42.99
BrowseComp 浏览器操作 信息抓取(AC%) 32.4 50.0 70.8 52.0
Tau-bench 函数调用 结构化输出(AC%) 49.7 51.5 57.6(Retail) 65.6(Retail)
关键优势:o3 能自主操作虚拟浏览器、调用 API 生成航班预订 JSON 等结构化输出,在复杂流程自动化中具备商用级能力。

 

三、参数与定价:性价比全面优化

模型 推理能力 速度 价格(输入・输出 / 千 Token) 支持输入 上下文窗口
o1 基础 最慢 $15-$60 文本 / 图像 200,000
o3-mini 高级 中等 $1.1-$4.4 文本 200,000
o4-mini 高级 中等 $1.1-$4.4 文本 / 图像 200,000
o3 最高 最慢 $10-$40 文本 / 图像 200,000
o1-pro 专业 最慢 $150-$600 文本 / 图像 200,000
核心调整:o3 定价较 o1 降低 1/3,性价比大幅提升;o4-mini 与 o3-mini 同价,但支持图像输入和更优推理。

一起见证人工智能的超级魔力!

只需点击一下就可以拥抱你的人工智能助手,提升你的工作效率