Am 17. April 2025 veröffentlichte OpenAI offiziell die neuen Inferenzmodelle o3 (Vollversion) und o4-mini in einer Live-Übertragung am späten Abend und ersetzte damit die bisherigen alten Modelle wie o1 und o3-mini. Mit diesem Update werden signifikante Verbesserungen in den Bereichen Wissensinferenz, multimodale Verarbeitung und Code-Fähigkeiten erzielt. Gleichzeitig wird die Preisstrategie optimiert, um Entwicklern und Nutzern ein effizienteres KI-Erlebnis zu bieten.
ShirtAI ermöglicht die kostenlose und unbegrenzte Nutzung von GPT-4, GPT-4o strongest, GPT-4.1-mini und anderen Modellen mit einem Klick von der offiziellen Website:www.lsshirtai.com
I. Überblick über das Modell: ein umfassendes Upgrade von den Parametern zur Positionierung
OpenAIs o3 und o4-mini basieren auf einer neuen Architektur und sind auf unterschiedliche Szenarien ausgerichtet:
- o3: Als "Vollblutversion" des Vorzeigemodells konzentriert es sich auf fortgeschrittenes Reasoning und die Zusammenarbeit mit Werkzeugen, unterstützt den Zugriff auf Werkzeuge mit vollem Funktionsumfang (z. B. Python, Browsing im Netzwerk, Funktionsaufrufe) und realisiert erstmals "visuelles Reasoning, das in die Gedankenkette integriert ist", was für komplexe Problemlösungen geeignet ist.
- o4-mini: ein leichtgewichtiges, hochleistungsfähiges Modell, das sich auf schnelle High-Level-Reasoning- und Code/Vision-Aufgaben konzentriert und ein hervorragendes Preis-Leistungs-Verhältnis aufweist, ohne dabei an Effizienz einzubüßen.
Zweitens, die Leistung Vergleich: multidimensionale Fähigkeit, das alte Modell zu vernichten
1. intellektuelles Denken: ein toolgestützter Anstieg der Genauigkeit
Bei Mathematikwettbewerben, naturwissenschaftlichen Aufgaben und fächerübergreifenden Tests zeigen o3 und o4-mini eine erdrückende Leistung, vor allem dann, wenn Hilfsmittel abgerufen werden dürfen:
Datensätze/Aufgaben | o1 | o3-mini | o3 (werkzeuglos) | o3 (mit Python) | o4-mini (ohne Werkzeug) | o4-mini (mit Python) |
---|---|---|---|---|---|---|
AIME 2024 Mathematik-Wettbewerb (AC%) | 74.3 | 87.3 | 91.6 | 95.2 | 93.4 | 98.7 |
Codeforces Code-Wettbewerb (ELO) | 1891 | 2073 | – | 2719 | – | 2073 |
GPQA Fragen zur Diamantforschung (AC%) | 78 | 77 | 83.3 | – | 81.4 | – |
Die letzte Prüfung der Menschheit (AC%) | 13.4 | 20.3 | 20.3 | 24.9 | 14.28 | 17.7 |
Die wichtigsten Ergebnisse:
- Die AIME-Genauigkeit verbesserte sich von 91,6% auf 95,2%, nachdem o3 Python aufgerufen hatte, und Humanity's Last Exam verbesserte seine Genauigkeit um 24,9% mit der Toolchain.
- Obwohl o4-mini ein leichtgewichtiges Modell ist, hat es 93,41 TP3T (AIME) ohne Tools erreicht, was nahe an der o3-Tool-Version liegt, und das Preis-Leistungs-Verhältnis ist hervorragend. o4-mini-high hat eines der neuesten Projekt-Euler-Probleme in 2 Minuten und 55 Sekunden gelöst, aber es ist kein einfaches Problem, nur 15 Leute können es in 30 Minuten lösen, und es ist ein neues Problem, das erst vor ein paar Tagen erschienen ist. Es handelt sich um ein neues Problem, das erst vor ein paar Tagen veröffentlicht wurde und nicht in der Trainingsmenge von o4 enthalten sein kann, was darauf hindeutet, dass o4-mini-high sich bei der Lösung auf "Denken" verlassen hat.
2. multimodales visuelles Denken: Von der "Bilderkennung" zum "Bilddenken"
o3 und o4-mini unterstützen erstmals die Integration von visuellem Denken in die Denkkette und übertreffen ältere Modelle bei komplexen Bildverstehensaufgaben bei weitem:
Datensatz | Leitbild | o1 | o3 | o4-mini |
---|---|---|---|---|
MMMU (Universität Visuelle Mathematik) | Formel + Graphisches Integriertes Problemlösen (AC%) | 77.6 | 82.9 | 81.6 |
MathVista (visuelles Rechnen) | Reasoning mit geometrischen / funktionalen Bildern (AC%) | 71.8 | 87.5 | 84.3 |
CharXiv-Begründung | Verstehen von wissenschaftlichen Diagrammen (AC%) | 55.1 | 75.4 | 72 |
Bedeutung des Durchbruchs: o3 kann "das Bild betrachten und denken" wie ein Mensch und vollzieht damit den Paradigmenwechsel von der "Pixelverarbeitung" zum "Szenario-Reasoning". Ein Nutzer machte ein Foto auf dem Weg zur Arbeit und ließ o3 den Standort analysieren. Ein Benutzer machte ein Foto auf dem Weg zur Arbeit und bat o3, den Standort zu analysieren. o3 zoomte zunächst das Bild heran, analysierte die Schlüsselinformationen im Bild, suchte dann nach verwandten Webseiten, um den Suchbereich Schritt für Schritt einzugrenzen, und gab schließlich die spezifischen Standortinformationen an.
3. code und technische Fähigkeiten: o3 ist der Entwickler der Wahl
Bei Software-Engineering-Aufgaben ist o3 führend beim Tool-Zugriff und Code-Verständnis, während o4-mini in leichtgewichtigen Szenarien ausgeglichen ist:
Code-Aufgabe | Norm | o1-hoch | o3-mini | o3-hoch | o4-mini-high |
---|---|---|---|---|---|
SWE-Bench-Validierung (AC%) | Algorithmen / Systementwurf | 48.9 | 69.1 | 69.1 | 68.1 |
Aider Code Editor (vollständig) | Umfassende mehrsprachige Neufassung (%) | 66.7 | 81.3 | 81.3 | 64.4 |
SWE-Lancer Auftragsannahme Einnahmen | Freiberufliche Aufträge ($) | 118,000 | 177,000 | 236,000 | – |
Praktischer Nutzen: o3 hat durchschnittlich 236.000 US-Dollar pro Monat an echten Codierungsaufgaben erbracht und damit das alte Modell weit hinter sich gelassen und sich zu einem Kernwerkzeug für die Codeentwicklung auf Unternehmensebene entwickelt; o4-mini eignet sich für Rapid Prototyping und leichtes Code-Debugging.

4. die Verwendung und Umsetzung von Instrumenten: o3 Ein neues Paradigma für den Aufbau von Intelligenz
o3 zeigt eine größere Aufgabenkohärenz in Szenarien der Zusammenarbeit mit Werkzeugen, z. B. bei der Befolgung von Befehlen in mehreren Runden, bei der Manipulation von Browsern und bei Funktionsaufrufen:
Instrumentelle Aufgaben | Norm | o1-hoch | o3-mini | o3 (Werkzeugversion) | o4-mini (Werkzeugversion) |
---|---|---|---|---|---|
MultiChallenge skalieren | Multirunden-Befehlsverfolgung (AC%) | 28.3 | 44.93 | 56.51 | 42.99 |
BrowseComp Browser-Bedienung | Informationserfassung (AC%) | 32.4 | 50.0 | 70.8 | 52.0 |
Tau-bench Funktionsaufrufe | Strukturierter Ausgang (AC%) | 49.7 | 51.5 | 57,6 (Einzelhandel) | 65,6 (Einzelhandel) |
Hauptvorteile: Die Fähigkeit von o3, virtuelle Browser autonom zu betreiben und APIs aufzurufen, um strukturierte Ausgaben wie JSON für Flugbuchungen zu generieren, bietet kommerzielle Fähigkeiten zur Automatisierung komplexer Prozesse.
III. Parameter und Preisgestaltung: Vollständig optimiertes Preis-/Leistungsverhältnis
Modellierung | logisches Denkvermögen | Tempo | Preis (Input/Output / Tausend Token) | Unterstützte Eingänge | Kontextfenster |
---|---|---|---|---|---|
o1 | infrastrukturelle | langsamste | $15-$60 | Text/Bild | 200,000 |
o3-mini | hohes Niveau | mäßig | $1.1-$4.4 | Kopien | 200,000 |
o4-mini | hohes Niveau | mäßig | $1.1-$4.4 | Text/Bild | 200,000 |
o3 | Oberste | langsamste | $10-$40 | Text/Bild | 200,000 |
o1-pro | Berufe | langsamste | $150-$600 | Text/Bild | 200,000 |
Kernanpassungen: o3 ist um 1/3 günstiger als o1 und bietet ein viel besseres Preis-Leistungs-Verhältnis; o4-mini hat den gleichen Preis wie o3-mini, unterstützt aber die Bildeingabe und bietet bessere Inferenzen.
Wenn Sie GPT Plus, Claude Pro, Grok Super als offizielles, bezahltes Exklusivkonto nutzen möchten, können Sie unser professionelles Team (wx: abch891) kontaktieren, wenn Sie nicht wissen, wie Sie Ihr Konto aufladen können.