OpenAI 推出最新推理模型 o3 和 o4-mini：性能跃升与范式革新

Inhalt Details

In einer Welt, in der Technologie und Wissen miteinander verwoben sind, ist jede Lektüre wie ein erstaunliches Abenteuer, das einem ein Gefühl von Weisheit vermittelt und zu endloser Kreativität inspiriert.

OpenAI stellt die neuesten Inferenzmodelle o3 und o4-mini vor: Leistungssprünge und Paradigmenwechsel

Am 17. April 2025 veröffentlichte OpenAI offiziell die neuen Inferenzmodelle o3 (Vollversion) und o4-mini in einer Live-Übertragung am späten Abend und ersetzte damit die bisherigen alten Modelle wie o1 und o3-mini. Mit diesem Update werden signifikante Verbesserungen in den Bereichen Wissensinferenz, multimodale Verarbeitung und Code-Fähigkeiten erzielt. Gleichzeitig wird die Preisstrategie optimiert, um Entwicklern und Nutzern ein effizienteres KI-Erlebnis zu bieten.

ShirtAI ermöglicht die kostenlose und unbegrenzte Nutzung von GPT-4, GPT-4o strongest, GPT-4.1-mini und anderen Modellen mit einem Klick von der offiziellen Website:www.lsshirtai.com

I. Überblick über das Modell: ein umfassendes Upgrade von den Parametern zur Positionierung

OpenAIs o3 und o4-mini basieren auf einer neuen Architektur und sind auf unterschiedliche Szenarien ausgerichtet:

o3: Als "Vollblutversion" des Vorzeigemodells konzentriert es sich auf fortgeschrittenes Reasoning und die Zusammenarbeit mit Werkzeugen, unterstützt den Zugriff auf Werkzeuge mit vollem Funktionsumfang (z. B. Python, Browsing im Netzwerk, Funktionsaufrufe) und realisiert erstmals "visuelles Reasoning, das in die Gedankenkette integriert ist", was für komplexe Problemlösungen geeignet ist.
o4-mini: ein leichtgewichtiges, hochleistungsfähiges Modell, das sich auf schnelle High-Level-Reasoning- und Code/Vision-Aufgaben konzentriert und ein hervorragendes Preis-Leistungs-Verhältnis aufweist, ohne dabei an Effizienz einzubüßen.

Zweitens, die Leistung Vergleich: multidimensionale Fähigkeit, das alte Modell zu vernichten

1. intellektuelles Denken: ein toolgestützter Anstieg der Genauigkeit

Bei Mathematikwettbewerben, naturwissenschaftlichen Aufgaben und fächerübergreifenden Tests zeigen o3 und o4-mini eine erdrückende Leistung, vor allem dann, wenn Hilfsmittel abgerufen werden dürfen:

Datensätze/Aufgaben	o1	o3-mini	o3 (werkzeuglos)	o3 (mit Python)	o4-mini (ohne Werkzeug)	o4-mini (mit Python)
AIME 2024 Mathematik-Wettbewerb (AC%)	74.3	87.3	91.6	95.2	93.4	98.7
Codeforces Code-Wettbewerb (ELO)	1891	2073	–	2719	–	2073
GPQA Fragen zur Diamantforschung (AC%)	78	77	83.3	–	81.4	–
Die letzte Prüfung der Menschheit (AC%)	13.4	20.3	20.3	24.9	14.28	17.7

Die wichtigsten Ergebnisse:

Die AIME-Genauigkeit verbesserte sich von 91,6% auf 95,2%, nachdem o3 Python aufgerufen hatte, und Humanity's Last Exam verbesserte seine Genauigkeit um 24,9% mit der Toolchain.
Obwohl o4-mini ein leichtgewichtiges Modell ist, hat es 93,41 TP3T (AIME) ohne Tools erreicht, was nahe an der o3-Tool-Version liegt, und das Preis-Leistungs-Verhältnis ist hervorragend. o4-mini-high hat eines der neuesten Projekt-Euler-Probleme in 2 Minuten und 55 Sekunden gelöst, aber es ist kein einfaches Problem, nur 15 Leute können es in 30 Minuten lösen, und es ist ein neues Problem, das erst vor ein paar Tagen erschienen ist. Es handelt sich um ein neues Problem, das erst vor ein paar Tagen veröffentlicht wurde und nicht in der Trainingsmenge von o4 enthalten sein kann, was darauf hindeutet, dass o4-mini-high sich bei der Lösung auf "Denken" verlassen hat.

2. multimodales visuelles Denken: Von der "Bilderkennung" zum "Bilddenken"

o3 und o4-mini unterstützen erstmals die Integration von visuellem Denken in die Denkkette und übertreffen ältere Modelle bei komplexen Bildverstehensaufgaben bei weitem:

Datensatz	Leitbild	o1	o3	o4-mini
MMMU (Universität Visuelle Mathematik)	Formel + Graphisches Integriertes Problemlösen (AC%)	77.6	82.9	81.6
MathVista (visuelles Rechnen)	Reasoning mit geometrischen / funktionalen Bildern (AC%)	71.8	87.5	84.3
CharXiv-Begründung	Verstehen von wissenschaftlichen Diagrammen (AC%)	55.1	75.4	72

Bedeutung des Durchbruchs: o3 kann "das Bild betrachten und denken" wie ein Mensch und vollzieht damit den Paradigmenwechsel von der "Pixelverarbeitung" zum "Szenario-Reasoning". Ein Nutzer machte ein Foto auf dem Weg zur Arbeit und ließ o3 den Standort analysieren. Ein Benutzer machte ein Foto auf dem Weg zur Arbeit und bat o3, den Standort zu analysieren. o3 zoomte zunächst das Bild heran, analysierte die Schlüsselinformationen im Bild, suchte dann nach verwandten Webseiten, um den Suchbereich Schritt für Schritt einzugrenzen, und gab schließlich die spezifischen Standortinformationen an.

3. code und technische Fähigkeiten: o3 ist der Entwickler der Wahl

Bei Software-Engineering-Aufgaben ist o3 führend beim Tool-Zugriff und Code-Verständnis, während o4-mini in leichtgewichtigen Szenarien ausgeglichen ist:

Code-Aufgabe	Norm	o1-hoch	o3-mini	o3-hoch	o4-mini-high
SWE-Bench-Validierung (AC%)	Algorithmen / Systementwurf	48.9	69.1	69.1	68.1
Aider Code Editor (vollständig)	Umfassende mehrsprachige Neufassung (%)	66.7	81.3	81.3	64.4
SWE-Lancer Auftragsannahme Einnahmen	Freiberufliche Aufträge ($)	118,000	177,000	236,000	–

Praktischer Nutzen: o3 hat durchschnittlich 236.000 US-Dollar pro Monat an echten Codierungsaufgaben erbracht und damit das alte Modell weit hinter sich gelassen und sich zu einem Kernwerkzeug für die Codeentwicklung auf Unternehmensebene entwickelt; o4-mini eignet sich für Rapid Prototyping und leichtes Code-Debugging.

4. die Verwendung und Umsetzung von Instrumenten: o3 Ein neues Paradigma für den Aufbau von Intelligenz

o3 zeigt eine größere Aufgabenkohärenz in Szenarien der Zusammenarbeit mit Werkzeugen, z. B. bei der Befolgung von Befehlen in mehreren Runden, bei der Manipulation von Browsern und bei Funktionsaufrufen:

Instrumentelle Aufgaben	Norm	o1-hoch	o3-mini	o3 (Werkzeugversion)	o4-mini (Werkzeugversion)
MultiChallenge skalieren	Multirunden-Befehlsverfolgung (AC%)	28.3	44.93	56.51	42.99
BrowseComp Browser-Bedienung	Informationserfassung (AC%)	32.4	50.0	70.8	52.0
Tau-bench Funktionsaufrufe	Strukturierter Ausgang (AC%)	49.7	51.5	57,6 (Einzelhandel)	65,6 (Einzelhandel)

Hauptvorteile: Die Fähigkeit von o3, virtuelle Browser autonom zu betreiben und APIs aufzurufen, um strukturierte Ausgaben wie JSON für Flugbuchungen zu generieren, bietet kommerzielle Fähigkeiten zur Automatisierung komplexer Prozesse.

III. Parameter und Preisgestaltung: Vollständig optimiertes Preis-/Leistungsverhältnis

Modellierung	logisches Denkvermögen	Tempo	Preis (Input/Output / Tausend Token)	Unterstützte Eingänge	Kontextfenster
o1	infrastrukturelle	langsamste	$15-$60	Text/Bild	200,000
o3-mini	hohes Niveau	mäßig	$1.1-$4.4	Kopien	200,000
o4-mini	hohes Niveau	mäßig	$1.1-$4.4	Text/Bild	200,000
o3	Oberste	langsamste	$10-$40	Text/Bild	200,000
o1-pro	Berufe	langsamste	$150-$600	Text/Bild	200,000

Kernanpassungen: o3 ist um 1/3 günstiger als o1 und bietet ein viel besseres Preis-Leistungs-Verhältnis; o4-mini hat den gleichen Preis wie o3-mini, unterstützt aber die Bildeingabe und bietet bessere Inferenzen.

Wenn Sie GPT Plus, Claude Pro, Grok Super als offizielles, bezahltes Exklusivkonto nutzen möchten, können Sie unser professionelles Team (wx: abch891) kontaktieren, wenn Sie nicht wissen, wie Sie Ihr Konto aufladen können.

Weitere Produkte finden Sie unter	Siehe mehr unter
ShirtAI - Durchdringende Intelligenz	Das AIGC Big Model: der Beginn einer Ära der doppelten Revolution in Technik und Wissenschaft - Penetrating Intelligence
1:1 Wiederherstellung von Claude und GPT Offizielle Website - AI Cloud Native	Live Match App Global HD Sports Viewing Player (empfohlen) - Blueshirt Technology
Transitdienst auf der Grundlage der offiziellen API - GPTMeta API	Hilfe, kann jemand von euch Tipps geben, wie man in GPT Fragen stellt? - Wissen
Global Virtual Goods Digital Store - Global SmarTone (Feng Ling Ge)	Wie leistungsfähig ist Claude airtfacts, dass GPT sofort nicht mehr gut riecht? -BeepBeep

Kategorien.

Werbefläche

Erleben Sie gemeinsam die Super-Magie von AI!

Machen Sie sich Ihren KI-Assistenten zu eigen und steigern Sie Ihre Produktivität mit nur einem Klick!

Inhalt Details

OpenAI stellt die neuesten Inferenzmodelle o3 und o4-mini vor: Leistungssprünge und Paradigmenwechsel

I. Überblick über das Modell: ein umfassendes Upgrade von den Parametern zur Positionierung

Zweitens, die Leistung Vergleich: multidimensionale Fähigkeit, das alte Modell zu vernichten

1. intellektuelles Denken: ein toolgestützter Anstieg der Genauigkeit

2. multimodales visuelles Denken: Von der "Bilderkennung" zum "Bilddenken"

3. code und technische Fähigkeiten: o3 ist der Entwickler der Wahl

4. die Verwendung und Umsetzung von Instrumenten: o3 Ein neues Paradigma für den Aufbau von Intelligenz

III. Parameter und Preisgestaltung: Vollständig optimiertes Preis-/Leistungsverhältnis

Weitere Produkte finden Sie unter

Siehe mehr unter

Kategorien.

Newsletter

Werbefläche

Erleben Sie gemeinsam die Super-Magie von AI!

Die stärkste künstliche Intelligenz der Welt

Navigation Index

Freundlicher Link

Kontakt