Содержание Подробности

В мире, где технологии и знания переплетаются друг с другом, каждое чтение похоже на удивительное приключение, которое дает вам ощущение мудрости и вдохновляет на бесконечное творчество.

OpenAI представляет новейшие модели вывода o3 и o4-mini: скачок производительности и инновации в парадигме

17 апреля 2025 года OpenAI официально выпустила в прямом эфире новые модели вывода o3 (полнокровная версия) и o4-mini, заменив ими старые модели, такие как o1 и o3-mini. В этом обновлении достигнуты значительные улучшения в таких областях, как вывод знаний, мультимодальная обработка и возможности кода, а также оптимизированы ценовые стратегии, чтобы обеспечить разработчикам и пользователям более эффективный опыт работы с ИИ.
ShirtAI позволяет бесплатно и без ограничений использовать GPT-4, GPT-4o strongest, GPT-4.1-mini и другие модели одним кликом с официального сайта:www.lsshirtai.com

 

I. Обзор модели: комплексное обновление от параметров до позиционирования

OpenAI o3 и o4-mini основаны на новой архитектуре и ориентированы на разные сценарии:
  • o3: Являясь "полнокровной версией" флагманской модели, она фокусируется на продвинутых рассуждениях и совместной работе инструментов, поддерживает полнофункциональный доступ к инструментам (например, Python, просмотр сетей, вызов функций) и впервые реализует "визуальные рассуждения, интегрированные в цепь мышления", что подходит для решения сложных задач.
  • o4-mini: легкая, высокопроизводительная модель, ориентированная на быстрые высокоуровневые рассуждения и задачи по коду/видению, с отличным соотношением цена/производительность при сохранении эффективности.

Во-вторых, сравнение производительности: многомерная способность сокрушить старую модель

1. Интеллектуальные рассуждения: повышение точности с помощью инструментов

В математических соревнованиях, научных задачах и межпредметных тестах o3 и o4-mini показывают сокрушительные результаты, особенно когда инструменты разрешено вызывать:
Наборы данных / задачи o1 o3-mini o3 (без инструмента) o3 (с Python) o4-mini (без инструментов) o4-mini (с Python)
Математический конкурс AIME 2024 (AC%) 74.3 87.3 91.6 95.2 93.4 98.7
Конкурс кодов Codeforces (ELO) 1891 2073 2719 2073
Вопросы по бриллиантоведению GPQA (AC%) 78 77 83.3 81.4
Последний экзамен человечества (AC%) 13.4 20.3 20.3 24.9 14.28 17.7
Ключевые выводы:
  • Точность AIME повысилась с 91,6% до 95,2% после o3 вызовов Python, а точность Humanity's Last Exam повысилась на 24,9% благодаря инструментарию.
  • Хотя o4-mini - легкая модель, она достигла 93,41 TP3T (AIME) без инструментов, что близко к версии o3 с инструментами, а соотношение цена/производительность является выдающимся. o4-mini-high решила одну из последних задач Project Euler за 2 минуты и 55 секунд, но это не простая задача, только 15 человек могут решить ее за 30 минут, и это новая задача, которая появилась всего несколько дней назад и вряд ли появится в тренировочном наборе o4, что говорит о том, что o4-mini-high полагается на "мышление" при ее решении. Это новая задача, которая появилась всего несколько дней назад и не могла появиться в тренировочном наборе o4, что говорит о том, что o4-mini-high полагается на "мышление" при ее решении.

 

2. Мультимодальное визуальное мышление: от "распознавания образов" к "образному мышлению"

Впервые o3 и o4-mini поддерживают интеграцию визуальных рассуждений в цепочку мышления, значительно превосходя старые модели в сложных задачах понимания изображений:
набор данных программное заявление o1 o3 o4-mini
МГМУ (Университет визуальной математики) Формулы + графическое интегрированное решение задач (AC%) 77.6 82.9 81.6
MathVista (визуальная математика) Рассуждения с геометрическими / функциональными образами (AC%) 71.8 87.5 84.3
CharXiv-Reasoning Понимание научных диаграмм (AC%) 55.1 75.4 72
Значение прорыва: o3 может "смотреть на картинку и думать", как человек, реализуя переход от парадигмы "обработки пикселей" к "осмыслению сцены". Пользователь случайно сделал фотографию по дороге на работу и попросил o3 проанализировать местоположение. Пользователь сделал фотографию по дороге на работу и попросил o3 проанализировать местоположение. Сначала он увеличил фотографию при перехвате, проанализировал ключевую информацию на фотографии, затем выполнил поиск на связанных веб-страницах, чтобы шаг за шагом сузить область поиска, и, наконец, выдал конкретную информацию о местоположении.

 

3. код и инженерные возможности: o3 - лучший разработчик

В задачах программной инженерии o3 лидирует по доступу к инструментам и пониманию кода, в то время как o4-mini сбалансирован в легких сценариях:
кодовая задача норма o1-высокий o3-mini o3-высокий o4-мини-высокий
SWE-Bench Validation (AC%) Алгоритмы / проектирование систем 48.9 69.1 69.1 68.1
Редактор кода Aider (целиком) Полный многоязычный рерайт (%) 66.7 81.3 81.3 64.4
SWE-Lancer Доход от приема заказов Внештатные задания ($) 118,000 177,000 236,000
Практическая ценность: o3 в среднем составляет 236 000 долларов в месяц при выполнении реальных задач по кодированию, что значительно превосходит возможности старой модели и становится основным инструментом для разработки кода корпоративного уровня; o4-mini подходит для быстрого создания прототипов и легкой отладки кода.

 

 

 

 

4. Использование и внедрение инструментов: o3 Новая парадигма для формирования интеллекта

o3 демонстрирует большую согласованность задач в сценариях совместной работы с инструментами, таких как выполнение команд в несколько раундов, работа с браузером и вызов функций:
Инструментальные задачи норма o1-высокий o3-mini o3 (инструментальная версия) o4-mini (инструментальная версия)
Масштабный мультичеллендж Многораундовое выполнение команд (AC%) 28.3 44.93 56.51 42.99
Операции с браузером BrowseComp Захват информации (AC%) 32.4 50.0 70.8 52.0
Вызовы функций Tau-bench Структурированный выход (AC%) 49.7 51.5 57,6 (Розничная торговля) 65,6 (Розничная торговля)
Ключевые преимущества: Способность o3 автономно управлять виртуальными браузерами и вызывать API для создания структурированных результатов, таких как JSON для бронирования авиабилетов, обеспечивает возможности коммерческого уровня для автоматизации сложных процессов.

 

III. Параметры и ценообразование: полностью оптимизированное соотношение цены и качества

моделирование способность к рассуждению темп Цена (Ввод/вывод / тысяча жетонов) Поддерживаемые входы контекстное окно
o1 инфраструктура Самый медленный $15-$60 Текст / Изображение 200,000
o3-mini высокий уровень умеренный $1.1-$4.4 копии 200,000
o4-mini высокий уровень умеренный $1.1-$4.4 Текст / Изображение 200,000
o3 supreme Самый медленный $10-$40 Текст / Изображение 200,000
o1-pro профессии Самый медленный $150-$600 Текст / Изображение 200,000
Корректировки ядра: o3 стоит на 1/3 ниже, чем o1, при гораздо лучшем соотношении цена/производительность; o4-mini стоит столько же, сколько и o3-mini, но поддерживает ввод изображений и более качественные выводы.

Если вы хотите использовать официальный платный эксклюзивный аккаунт GPT Plus, Claude Pro, Grok Super, вы можете связаться с нашей профессиональной командой (wx: abch891), если вы не знаете, как пополнить свой счет.

Для получения дополнительной продукции, пожалуйста, ознакомьтесь с

См. подробнее

ShirtAI - проникающий интеллект Большая модель AIGC: начало эры двойной революции в инженерном деле и науке - Проникающая разведка
1:1 Восстановление Клода и GPT Официальный сайт - AI Cloud Native Приложение для просмотра прямых трансляций матчей Global HD Sports Viewing Player (рекомендуется) - Blueshirt Technology
Транзитный сервис на основе официального API - GPTMeta API Помогите, может ли кто-нибудь из вас дать несколько советов о том, как задавать вопросы в GPT? - знание
Глобальный цифровой магазин виртуальных товаров - Global SmarTone (Feng Ling Ge) Насколько мощной является функция Claude airtfacts, что GPT мгновенно перестает хорошо пахнуть? -BeepBeep
Поиск

категории.

Информационный бюллетень

рекламное пространство

Станьте свидетелями супермагии искусственного интеллекта вместе!

Примите в свои объятия помощника с искусственным интеллектом и повысьте свою производительность одним щелчком мыши!