OpenAI 推出最新推理模型 o3 和 o4-mini：性能跃升与范式革新

Содержание Подробности

В мире, где технологии и знания переплетаются друг с другом, каждое чтение похоже на удивительное приключение, которое дает вам ощущение мудрости и вдохновляет на бесконечное творчество.

OpenAI представляет новейшие модели вывода o3 и o4-mini: скачок производительности и инновации в парадигме

17 апреля 2025 года OpenAI официально выпустила в прямом эфире новые модели вывода o3 (полнокровная версия) и o4-mini, заменив ими старые модели, такие как o1 и o3-mini. В этом обновлении достигнуты значительные улучшения в таких областях, как вывод знаний, мультимодальная обработка и возможности кода, а также оптимизированы ценовые стратегии, чтобы обеспечить разработчикам и пользователям более эффективный опыт работы с ИИ.

ShirtAI позволяет бесплатно и без ограничений использовать GPT-4, GPT-4o strongest, GPT-4.1-mini и другие модели одним кликом с официального сайта:www.lsshirtai.com

I. Обзор модели: комплексное обновление от параметров до позиционирования

OpenAI o3 и o4-mini основаны на новой архитектуре и ориентированы на разные сценарии:

o3: Являясь "полнокровной версией" флагманской модели, она фокусируется на продвинутых рассуждениях и совместной работе инструментов, поддерживает полнофункциональный доступ к инструментам (например, Python, просмотр сетей, вызов функций) и впервые реализует "визуальные рассуждения, интегрированные в цепь мышления", что подходит для решения сложных задач.
o4-mini: легкая, высокопроизводительная модель, ориентированная на быстрые высокоуровневые рассуждения и задачи по коду/видению, с отличным соотношением цена/производительность при сохранении эффективности.

Во-вторых, сравнение производительности: многомерная способность сокрушить старую модель

1. Интеллектуальные рассуждения: повышение точности с помощью инструментов

В математических соревнованиях, научных задачах и межпредметных тестах o3 и o4-mini показывают сокрушительные результаты, особенно когда инструменты разрешено вызывать:

Наборы данных / задачи	o1	o3-mini	o3 (без инструмента)	o3 (с Python)	o4-mini (без инструментов)	o4-mini (с Python)
Математический конкурс AIME 2024 (AC%)	74.3	87.3	91.6	95.2	93.4	98.7
Конкурс кодов Codeforces (ELO)	1891	2073	–	2719	–	2073
Вопросы по бриллиантоведению GPQA (AC%)	78	77	83.3	–	81.4	–
Последний экзамен человечества (AC%)	13.4	20.3	20.3	24.9	14.28	17.7

Ключевые выводы:

Точность AIME повысилась с 91,6% до 95,2% после o3 вызовов Python, а точность Humanity's Last Exam повысилась на 24,9% благодаря инструментарию.
Хотя o4-mini - легкая модель, она достигла 93,41 TP3T (AIME) без инструментов, что близко к версии o3 с инструментами, а соотношение цена/производительность является выдающимся. o4-mini-high решила одну из последних задач Project Euler за 2 минуты и 55 секунд, но это не простая задача, только 15 человек могут решить ее за 30 минут, и это новая задача, которая появилась всего несколько дней назад и вряд ли появится в тренировочном наборе o4, что говорит о том, что o4-mini-high полагается на "мышление" при ее решении. Это новая задача, которая появилась всего несколько дней назад и не могла появиться в тренировочном наборе o4, что говорит о том, что o4-mini-high полагается на "мышление" при ее решении.

2. Мультимодальное визуальное мышление: от "распознавания образов" к "образному мышлению"

Впервые o3 и o4-mini поддерживают интеграцию визуальных рассуждений в цепочку мышления, значительно превосходя старые модели в сложных задачах понимания изображений:

набор данных	программное заявление	o1	o3	o4-mini
МГМУ (Университет визуальной математики)	Формулы + графическое интегрированное решение задач (AC%)	77.6	82.9	81.6
MathVista (визуальная математика)	Рассуждения с геометрическими / функциональными образами (AC%)	71.8	87.5	84.3
CharXiv-Reasoning	Понимание научных диаграмм (AC%)	55.1	75.4	72

Значение прорыва: o3 может "смотреть на картинку и думать", как человек, реализуя переход от парадигмы "обработки пикселей" к "осмыслению сцены". Пользователь случайно сделал фотографию по дороге на работу и попросил o3 проанализировать местоположение. Пользователь сделал фотографию по дороге на работу и попросил o3 проанализировать местоположение. Сначала он увеличил фотографию при перехвате, проанализировал ключевую информацию на фотографии, затем выполнил поиск на связанных веб-страницах, чтобы шаг за шагом сузить область поиска, и, наконец, выдал конкретную информацию о местоположении.

3. код и инженерные возможности: o3 - лучший разработчик

В задачах программной инженерии o3 лидирует по доступу к инструментам и пониманию кода, в то время как o4-mini сбалансирован в легких сценариях:

кодовая задача	норма	o1-высокий	o3-mini	o3-высокий	o4-мини-высокий
SWE-Bench Validation (AC%)	Алгоритмы / проектирование систем	48.9	69.1	69.1	68.1
Редактор кода Aider (целиком)	Полный многоязычный рерайт (%)	66.7	81.3	81.3	64.4
SWE-Lancer Доход от приема заказов	Внештатные задания ($)	118,000	177,000	236,000	–

Практическая ценность: o3 в среднем составляет 236 000 долларов в месяц при выполнении реальных задач по кодированию, что значительно превосходит возможности старой модели и становится основным инструментом для разработки кода корпоративного уровня; o4-mini подходит для быстрого создания прототипов и легкой отладки кода.

4. Использование и внедрение инструментов: o3 Новая парадигма для формирования интеллекта

o3 демонстрирует большую согласованность задач в сценариях совместной работы с инструментами, таких как выполнение команд в несколько раундов, работа с браузером и вызов функций:

Инструментальные задачи	норма	o1-высокий	o3-mini	o3 (инструментальная версия)	o4-mini (инструментальная версия)
Масштабный мультичеллендж	Многораундовое выполнение команд (AC%)	28.3	44.93	56.51	42.99
Операции с браузером BrowseComp	Захват информации (AC%)	32.4	50.0	70.8	52.0
Вызовы функций Tau-bench	Структурированный выход (AC%)	49.7	51.5	57,6 (Розничная торговля)	65,6 (Розничная торговля)

Ключевые преимущества: Способность o3 автономно управлять виртуальными браузерами и вызывать API для создания структурированных результатов, таких как JSON для бронирования авиабилетов, обеспечивает возможности коммерческого уровня для автоматизации сложных процессов.

III. Параметры и ценообразование: полностью оптимизированное соотношение цены и качества

моделирование	способность к рассуждению	темп	Цена (Ввод/вывод / тысяча жетонов)	Поддерживаемые входы	контекстное окно
o1	инфраструктура	Самый медленный	$15-$60	Текст / Изображение	200,000
o3-mini	высокий уровень	умеренный	$1.1-$4.4	копии	200,000
o4-mini	высокий уровень	умеренный	$1.1-$4.4	Текст / Изображение	200,000
o3	supreme	Самый медленный	$10-$40	Текст / Изображение	200,000
o1-pro	профессии	Самый медленный	$150-$600	Текст / Изображение	200,000

Корректировки ядра: o3 стоит на 1/3 ниже, чем o1, при гораздо лучшем соотношении цена/производительность; o4-mini стоит столько же, сколько и o3-mini, но поддерживает ввод изображений и более качественные выводы.

Если вы хотите использовать официальный платный эксклюзивный аккаунт GPT Plus, Claude Pro, Grok Super, вы можете связаться с нашей профессиональной командой (wx: abch891), если вы не знаете, как пополнить свой счет.

Для получения дополнительной продукции, пожалуйста, ознакомьтесь с	См. подробнее
ShirtAI - проникающий интеллект	Большая модель AIGC: начало эры двойной революции в инженерном деле и науке - Проникающая разведка
1:1 Восстановление Клода и GPT Официальный сайт - AI Cloud Native	Приложение для просмотра прямых трансляций матчей Global HD Sports Viewing Player (рекомендуется) - Blueshirt Technology
Транзитный сервис на основе официального API - GPTMeta API	Помогите, может ли кто-нибудь из вас дать несколько советов о том, как задавать вопросы в GPT? - знание
Глобальный цифровой магазин виртуальных товаров - Global SmarTone (Feng Ling Ge)	Насколько мощной является функция Claude airtfacts, что GPT мгновенно перестает хорошо пахнуть? -BeepBeep

категории.

Информационный бюллетень

рекламное пространство

Станьте свидетелями супермагии искусственного интеллекта вместе!

Примите в свои объятия помощника с искусственным интеллектом и повысьте свою производительность одним щелчком мыши!