17 апреля 2025 года OpenAI официально выпустила в прямом эфире новые модели вывода o3 (полнокровная версия) и o4-mini, заменив ими старые модели, такие как o1 и o3-mini. В этом обновлении достигнуты значительные улучшения в таких областях, как вывод знаний, мультимодальная обработка и возможности кода, а также оптимизированы ценовые стратегии, чтобы обеспечить разработчикам и пользователям более эффективный опыт работы с ИИ.
ShirtAI позволяет бесплатно и без ограничений использовать GPT-4, GPT-4o strongest, GPT-4.1-mini и другие модели одним кликом с официального сайта:www.lsshirtai.com
I. Обзор модели: комплексное обновление от параметров до позиционирования
OpenAI o3 и o4-mini основаны на новой архитектуре и ориентированы на разные сценарии:
- o3: Являясь "полнокровной версией" флагманской модели, она фокусируется на продвинутых рассуждениях и совместной работе инструментов, поддерживает полнофункциональный доступ к инструментам (например, Python, просмотр сетей, вызов функций) и впервые реализует "визуальные рассуждения, интегрированные в цепь мышления", что подходит для решения сложных задач.
- o4-mini: легкая, высокопроизводительная модель, ориентированная на быстрые высокоуровневые рассуждения и задачи по коду/видению, с отличным соотношением цена/производительность при сохранении эффективности.
Во-вторых, сравнение производительности: многомерная способность сокрушить старую модель
1. Интеллектуальные рассуждения: повышение точности с помощью инструментов
В математических соревнованиях, научных задачах и межпредметных тестах o3 и o4-mini показывают сокрушительные результаты, особенно когда инструменты разрешено вызывать:
Наборы данных / задачи | o1 | o3-mini | o3 (без инструмента) | o3 (с Python) | o4-mini (без инструментов) | o4-mini (с Python) |
---|---|---|---|---|---|---|
Математический конкурс AIME 2024 (AC%) | 74.3 | 87.3 | 91.6 | 95.2 | 93.4 | 98.7 |
Конкурс кодов Codeforces (ELO) | 1891 | 2073 | – | 2719 | – | 2073 |
Вопросы по бриллиантоведению GPQA (AC%) | 78 | 77 | 83.3 | – | 81.4 | – |
Последний экзамен человечества (AC%) | 13.4 | 20.3 | 20.3 | 24.9 | 14.28 | 17.7 |
Ключевые выводы:
- Точность AIME повысилась с 91,6% до 95,2% после o3 вызовов Python, а точность Humanity's Last Exam повысилась на 24,9% благодаря инструментарию.
- Хотя o4-mini - легкая модель, она достигла 93,41 TP3T (AIME) без инструментов, что близко к версии o3 с инструментами, а соотношение цена/производительность является выдающимся. o4-mini-high решила одну из последних задач Project Euler за 2 минуты и 55 секунд, но это не простая задача, только 15 человек могут решить ее за 30 минут, и это новая задача, которая появилась всего несколько дней назад и вряд ли появится в тренировочном наборе o4, что говорит о том, что o4-mini-high полагается на "мышление" при ее решении. Это новая задача, которая появилась всего несколько дней назад и не могла появиться в тренировочном наборе o4, что говорит о том, что o4-mini-high полагается на "мышление" при ее решении.
2. Мультимодальное визуальное мышление: от "распознавания образов" к "образному мышлению"
Впервые o3 и o4-mini поддерживают интеграцию визуальных рассуждений в цепочку мышления, значительно превосходя старые модели в сложных задачах понимания изображений:
набор данных | программное заявление | o1 | o3 | o4-mini |
---|---|---|---|---|
МГМУ (Университет визуальной математики) | Формулы + графическое интегрированное решение задач (AC%) | 77.6 | 82.9 | 81.6 |
MathVista (визуальная математика) | Рассуждения с геометрическими / функциональными образами (AC%) | 71.8 | 87.5 | 84.3 |
CharXiv-Reasoning | Понимание научных диаграмм (AC%) | 55.1 | 75.4 | 72 |
Значение прорыва: o3 может "смотреть на картинку и думать", как человек, реализуя переход от парадигмы "обработки пикселей" к "осмыслению сцены". Пользователь случайно сделал фотографию по дороге на работу и попросил o3 проанализировать местоположение. Пользователь сделал фотографию по дороге на работу и попросил o3 проанализировать местоположение. Сначала он увеличил фотографию при перехвате, проанализировал ключевую информацию на фотографии, затем выполнил поиск на связанных веб-страницах, чтобы шаг за шагом сузить область поиска, и, наконец, выдал конкретную информацию о местоположении.
3. код и инженерные возможности: o3 - лучший разработчик
В задачах программной инженерии o3 лидирует по доступу к инструментам и пониманию кода, в то время как o4-mini сбалансирован в легких сценариях:
кодовая задача | норма | o1-высокий | o3-mini | o3-высокий | o4-мини-высокий |
---|---|---|---|---|---|
SWE-Bench Validation (AC%) | Алгоритмы / проектирование систем | 48.9 | 69.1 | 69.1 | 68.1 |
Редактор кода Aider (целиком) | Полный многоязычный рерайт (%) | 66.7 | 81.3 | 81.3 | 64.4 |
SWE-Lancer Доход от приема заказов | Внештатные задания ($) | 118,000 | 177,000 | 236,000 | – |
Практическая ценность: o3 в среднем составляет 236 000 долларов в месяц при выполнении реальных задач по кодированию, что значительно превосходит возможности старой модели и становится основным инструментом для разработки кода корпоративного уровня; o4-mini подходит для быстрого создания прототипов и легкой отладки кода.

4. Использование и внедрение инструментов: o3 Новая парадигма для формирования интеллекта
o3 демонстрирует большую согласованность задач в сценариях совместной работы с инструментами, таких как выполнение команд в несколько раундов, работа с браузером и вызов функций:
Инструментальные задачи | норма | o1-высокий | o3-mini | o3 (инструментальная версия) | o4-mini (инструментальная версия) |
---|---|---|---|---|---|
Масштабный мультичеллендж | Многораундовое выполнение команд (AC%) | 28.3 | 44.93 | 56.51 | 42.99 |
Операции с браузером BrowseComp | Захват информации (AC%) | 32.4 | 50.0 | 70.8 | 52.0 |
Вызовы функций Tau-bench | Структурированный выход (AC%) | 49.7 | 51.5 | 57,6 (Розничная торговля) | 65,6 (Розничная торговля) |
Ключевые преимущества: Способность o3 автономно управлять виртуальными браузерами и вызывать API для создания структурированных результатов, таких как JSON для бронирования авиабилетов, обеспечивает возможности коммерческого уровня для автоматизации сложных процессов.
III. Параметры и ценообразование: полностью оптимизированное соотношение цены и качества
моделирование | способность к рассуждению | темп | Цена (Ввод/вывод / тысяча жетонов) | Поддерживаемые входы | контекстное окно |
---|---|---|---|---|---|
o1 | инфраструктура | Самый медленный | $15-$60 | Текст / Изображение | 200,000 |
o3-mini | высокий уровень | умеренный | $1.1-$4.4 | копии | 200,000 |
o4-mini | высокий уровень | умеренный | $1.1-$4.4 | Текст / Изображение | 200,000 |
o3 | supreme | Самый медленный | $10-$40 | Текст / Изображение | 200,000 |
o1-pro | профессии | Самый медленный | $150-$600 | Текст / Изображение | 200,000 |
Корректировки ядра: o3 стоит на 1/3 ниже, чем o1, при гораздо лучшем соотношении цена/производительность; o4-mini стоит столько же, сколько и o3-mini, но поддерживает ввод изображений и более качественные выводы.
Если вы хотите использовать официальный платный эксклюзивный аккаунт GPT Plus, Claude Pro, Grok Super, вы можете связаться с нашей профессиональной командой (wx: abch891), если вы не знаете, как пополнить свой счет.