Inhalt Details

In einer Welt, in der Technologie und Wissen miteinander verwoben sind, ist jede Lektüre wie ein erstaunliches Abenteuer, das einem ein Gefühl von Weisheit vermittelt und zu endloser Kreativität inspiriert.

OpenAI stellt die neuesten Inferenzmodelle o3 und o4-mini vor: Leistungssprünge und Paradigmenwechsel

Am 17. April 2025 veröffentlichte OpenAI offiziell die neuen Inferenzmodelle o3 (Vollversion) und o4-mini in einer Live-Übertragung am späten Abend und ersetzte damit die bisherigen alten Modelle wie o1 und o3-mini. Mit diesem Update werden signifikante Verbesserungen in den Bereichen Wissensinferenz, multimodale Verarbeitung und Code-Fähigkeiten erzielt. Gleichzeitig wird die Preisstrategie optimiert, um Entwicklern und Nutzern ein effizienteres KI-Erlebnis zu bieten.
ShirtAI ermöglicht die kostenlose und unbegrenzte Nutzung von GPT-4, GPT-4o strongest, GPT-4.1-mini und anderen Modellen mit einem Klick von der offiziellen Website:www.lsshirtai.com

 

I. Überblick über das Modell: ein umfassendes Upgrade von den Parametern zur Positionierung

OpenAIs o3 und o4-mini basieren auf einer neuen Architektur und sind auf unterschiedliche Szenarien ausgerichtet:
  • o3: Als "Vollblutversion" des Vorzeigemodells konzentriert es sich auf fortgeschrittenes Reasoning und die Zusammenarbeit mit Werkzeugen, unterstützt den Zugriff auf Werkzeuge mit vollem Funktionsumfang (z. B. Python, Browsing im Netzwerk, Funktionsaufrufe) und realisiert erstmals "visuelles Reasoning, das in die Gedankenkette integriert ist", was für komplexe Problemlösungen geeignet ist.
  • o4-mini: ein leichtgewichtiges, hochleistungsfähiges Modell, das sich auf schnelle High-Level-Reasoning- und Code/Vision-Aufgaben konzentriert und ein hervorragendes Preis-Leistungs-Verhältnis aufweist, ohne dabei an Effizienz einzubüßen.

Zweitens, die Leistung Vergleich: multidimensionale Fähigkeit, das alte Modell zu vernichten

1. intellektuelles Denken: ein toolgestützter Anstieg der Genauigkeit

Bei Mathematikwettbewerben, naturwissenschaftlichen Aufgaben und fächerübergreifenden Tests zeigen o3 und o4-mini eine erdrückende Leistung, vor allem dann, wenn Hilfsmittel abgerufen werden dürfen:
Datensätze/Aufgaben o1 o3-mini o3 (werkzeuglos) o3 (mit Python) o4-mini (ohne Werkzeug) o4-mini (mit Python)
AIME 2024 Mathematik-Wettbewerb (AC%) 74.3 87.3 91.6 95.2 93.4 98.7
Codeforces Code-Wettbewerb (ELO) 1891 2073 2719 2073
GPQA Fragen zur Diamantforschung (AC%) 78 77 83.3 81.4
Die letzte Prüfung der Menschheit (AC%) 13.4 20.3 20.3 24.9 14.28 17.7
Die wichtigsten Ergebnisse:
  • Die AIME-Genauigkeit verbesserte sich von 91,6% auf 95,2%, nachdem o3 Python aufgerufen hatte, und Humanity's Last Exam verbesserte seine Genauigkeit um 24,9% mit der Toolchain.
  • Obwohl o4-mini ein leichtgewichtiges Modell ist, hat es 93,41 TP3T (AIME) ohne Tools erreicht, was nahe an der o3-Tool-Version liegt, und das Preis-Leistungs-Verhältnis ist hervorragend. o4-mini-high hat eines der neuesten Projekt-Euler-Probleme in 2 Minuten und 55 Sekunden gelöst, aber es ist kein einfaches Problem, nur 15 Leute können es in 30 Minuten lösen, und es ist ein neues Problem, das erst vor ein paar Tagen erschienen ist. Es handelt sich um ein neues Problem, das erst vor ein paar Tagen veröffentlicht wurde und nicht in der Trainingsmenge von o4 enthalten sein kann, was darauf hindeutet, dass o4-mini-high sich bei der Lösung auf "Denken" verlassen hat.

 

2. multimodales visuelles Denken: Von der "Bilderkennung" zum "Bilddenken"

o3 und o4-mini unterstützen erstmals die Integration von visuellem Denken in die Denkkette und übertreffen ältere Modelle bei komplexen Bildverstehensaufgaben bei weitem:
Datensatz Leitbild o1 o3 o4-mini
MMMU (Universität Visuelle Mathematik) Formel + Graphisches Integriertes Problemlösen (AC%) 77.6 82.9 81.6
MathVista (visuelles Rechnen) Reasoning mit geometrischen / funktionalen Bildern (AC%) 71.8 87.5 84.3
CharXiv-Begründung Verstehen von wissenschaftlichen Diagrammen (AC%) 55.1 75.4 72
Bedeutung des Durchbruchs: o3 kann "das Bild betrachten und denken" wie ein Mensch und vollzieht damit den Paradigmenwechsel von der "Pixelverarbeitung" zum "Szenario-Reasoning". Ein Nutzer machte ein Foto auf dem Weg zur Arbeit und ließ o3 den Standort analysieren. Ein Benutzer machte ein Foto auf dem Weg zur Arbeit und bat o3, den Standort zu analysieren. o3 zoomte zunächst das Bild heran, analysierte die Schlüsselinformationen im Bild, suchte dann nach verwandten Webseiten, um den Suchbereich Schritt für Schritt einzugrenzen, und gab schließlich die spezifischen Standortinformationen an.

 

3. code und technische Fähigkeiten: o3 ist der Entwickler der Wahl

Bei Software-Engineering-Aufgaben ist o3 führend beim Tool-Zugriff und Code-Verständnis, während o4-mini in leichtgewichtigen Szenarien ausgeglichen ist:
Code-Aufgabe Norm o1-hoch o3-mini o3-hoch o4-mini-high
SWE-Bench-Validierung (AC%) Algorithmen / Systementwurf 48.9 69.1 69.1 68.1
Aider Code Editor (vollständig) Umfassende mehrsprachige Neufassung (%) 66.7 81.3 81.3 64.4
SWE-Lancer Auftragsannahme Einnahmen Freiberufliche Aufträge ($) 118,000 177,000 236,000
Praktischer Nutzen: o3 hat durchschnittlich 236.000 US-Dollar pro Monat an echten Codierungsaufgaben erbracht und damit das alte Modell weit hinter sich gelassen und sich zu einem Kernwerkzeug für die Codeentwicklung auf Unternehmensebene entwickelt; o4-mini eignet sich für Rapid Prototyping und leichtes Code-Debugging.

 

 

 

 

4. die Verwendung und Umsetzung von Instrumenten: o3 Ein neues Paradigma für den Aufbau von Intelligenz

o3 zeigt eine größere Aufgabenkohärenz in Szenarien der Zusammenarbeit mit Werkzeugen, z. B. bei der Befolgung von Befehlen in mehreren Runden, bei der Manipulation von Browsern und bei Funktionsaufrufen:
Instrumentelle Aufgaben Norm o1-hoch o3-mini o3 (Werkzeugversion) o4-mini (Werkzeugversion)
MultiChallenge skalieren Multirunden-Befehlsverfolgung (AC%) 28.3 44.93 56.51 42.99
BrowseComp Browser-Bedienung Informationserfassung (AC%) 32.4 50.0 70.8 52.0
Tau-bench Funktionsaufrufe Strukturierter Ausgang (AC%) 49.7 51.5 57,6 (Einzelhandel) 65,6 (Einzelhandel)
Hauptvorteile: Die Fähigkeit von o3, virtuelle Browser autonom zu betreiben und APIs aufzurufen, um strukturierte Ausgaben wie JSON für Flugbuchungen zu generieren, bietet kommerzielle Fähigkeiten zur Automatisierung komplexer Prozesse.

 

III. Parameter und Preisgestaltung: Vollständig optimiertes Preis-/Leistungsverhältnis

Modellierung logisches Denkvermögen Tempo Preis (Input/Output / Tausend Token) Unterstützte Eingänge Kontextfenster
o1 infrastrukturelle langsamste $15-$60 Text/Bild 200,000
o3-mini hohes Niveau mäßig $1.1-$4.4 Kopien 200,000
o4-mini hohes Niveau mäßig $1.1-$4.4 Text/Bild 200,000
o3 Oberste langsamste $10-$40 Text/Bild 200,000
o1-pro Berufe langsamste $150-$600 Text/Bild 200,000
Kernanpassungen: o3 ist um 1/3 günstiger als o1 und bietet ein viel besseres Preis-Leistungs-Verhältnis; o4-mini hat den gleichen Preis wie o3-mini, unterstützt aber die Bildeingabe und bietet bessere Inferenzen.

Wenn Sie GPT Plus, Claude Pro, Grok Super als offizielles, bezahltes Exklusivkonto nutzen möchten, können Sie unser professionelles Team (wx: abch891) kontaktieren, wenn Sie nicht wissen, wie Sie Ihr Konto aufladen können.

Weitere Produkte finden Sie unter

Siehe mehr unter

ShirtAI - Durchdringende Intelligenz Das AIGC Big Model: der Beginn einer Ära der doppelten Revolution in Technik und Wissenschaft - Penetrating Intelligence
1:1 Wiederherstellung von Claude und GPT Offizielle Website - AI Cloud Native Live Match App Global HD Sports Viewing Player (empfohlen) - Blueshirt Technology
Transitdienst auf der Grundlage der offiziellen API - GPTMeta API Hilfe, kann jemand von euch Tipps geben, wie man in GPT Fragen stellt? - Wissen
Global Virtual Goods Digital Store - Global SmarTone (Feng Ling Ge) Wie leistungsfähig ist Claude airtfacts, dass GPT sofort nicht mehr gut riecht? -BeepBeep

Erleben Sie gemeinsam die Super-Magie von AI!

Machen Sie sich Ihren KI-Assistenten zu eigen und steigern Sie Ihre Produktivität mit nur einem Klick!