Inhalt Details

In einer Welt, in der Technologie und Wissen miteinander verwoben sind, ist jede Lektüre wie ein erstaunliches Abenteuer, das einem ein Gefühl von Weisheit vermittelt und zu endloser Kreativität inspiriert.

Qwen 3 veröffentlicht: 235B Modell übertrifft R1, Grok und o1 mit Apache 2.0 Lizenz

Kürzlich hat das Team von Ali Tongyi Thousand Questions eine neue Generation des großen Modells Qwen 3 herausgebracht, das bei seiner Einführung den Thron der weltweiten Open-Source-Modelle bestieg. Im Vergleich zu seinem Vorgänger hat Qwen 3 signifikante Durchbrüche bei der Inferenzfähigkeit, der Mehrsprachenunterstützung und den Bereitstellungskosten usw. erzielt. Die Leistung des Flaggschiffmodells Qwen3-235B-A22B ist vergleichbar mit der von Spitzenmodellen wie DeepSeek-R1, OpenAI's o1, o3-mini, XAI's Grok-3 und Google's Gemini-2.5-Pro oder übertrifft diese sogar. Modelle.

Vollständig quelloffene Qwen 3-Familie

Die Qwen 3-Modellfamilie wird weiterhin als Open Source unter dem entspannten Apache 2.0-Protokoll angeboten, das es Entwicklern, Forschungseinrichtungen und Unternehmen weltweit ermöglicht, die Modelle kostenlos herunterzuladen und zu vermarkten. Die quelloffene Qwen-3-Familie umfasst zwei MoE-Modelle und sechs dichte Modelle:

  • MoE-Modell::
    • Qwen3-235B-A22B (235B insgesamt, 22B aktiviert)
    • Qwen3-30B-A3B (Gesamtzahl der Teilnehmer 30B, Zahl der aktivierten Teilnehmer 3B)
  • intensive Modellierung::
    • Qwen3-32B
    • Qwen3-14B
    • Qwen3-8B
    • Qwen3-4B
    • Qwen3-1.7B
    • Qwen3-0.6B

Es ist erwähnenswert, dass Qwen3-235B-A22B zwar eine viel größere Gesamtzahl an Referenzen aufweist als andere Open-Source-Modelle, seine tatsächlichen Bereitstellungskosten jedoch drastisch niedriger sind - nur vier H20 werden benötigt, um die Vollversion bereitzustellen, und der Videospeicherbedarf beträgt nur ein Drittel eines Modells mit ähnlicher Leistung.

Überragende Leistung bei allen Benchmarks

Die Qwen 3-Serie hat in verschiedenen professionellen Tests gut abgeschnitten und eine Reihe von Open-Source-Modellrekorden aufgestellt:

  • Qwen3 erzielte 81,5 Punkte in der AIME25-Bewertung auf OU-Ebene und stellte damit einen neuen Open-Source-Rekord auf!
  • Bei der LiveCodeBench-Bewertung, die die Code-Fähigkeit beurteilt, durchbricht Qwen3 die 70-Punkte-Marke und übertrifft Grok-3.
  • Qwen3 übertraf OpenAI-o1 und DeepSeek-R1 mit einer Punktzahl von 95,6 auf der ArenaHard-Messung, die den Abgleich der menschlichen Präferenzen für Modelle bewertet
  • Im BFCL-Test, der die Agentenfähigkeit eines Modells bewertet, erreichte Qwen3 einen neuen Höchstwert von 70,8 und übertraf damit Spitzenmodelle wie Gemini2.5-Pro und OpenAI-o1

Selbst kleinere Modelle, wie Qwen3-4B, erreichen die Leistung von Qwen2.5-72B-Instruct und demonstrieren damit erhebliche Effizienzgewinne. Das kleinere MoE-Modell Qwen3-30B-A3B hat nur ein Zehntel der Anzahl von Aktivierungsparametern von QwQ-32B, aber eine noch bessere Leistung.

Wegweisendes Modell des "hybriden Denkens"

Eine der größten Neuerungen in Qwen3 ist die Einführung des "Mixed Reasoning"-Modus, der den nahtlosen Wechsel zwischen Denk- und Nicht-Denk-Modi unterstützt:

  • DenkmusterModellieren einer schrittweisen Argumentation, um nach sorgfältiger Überlegung eine endgültige Antwort zu geben, geeignet für komplexe Probleme, die ein tiefes Denken erfordern
  • Modus VivendiModelle bieten eine schnelle, nahezu sofortige Reaktion für einfache Probleme, bei denen Schnelligkeit in der Tiefe gefragt ist

Die Benutzer können den Inferenzprozess des Modells je nach Komplexität der Aufgabe flexibel steuern und sogar das "Denkbudget" (d. h. die Anzahl der Token, die bei maximaler Tiefe zum Denken erwartet werden) festlegen, um das beste Gleichgewicht zwischen Leistung und Kosten zu finden. Benchmarks zeigen, dass der Denkmodus die Modellleistung bei Aufgaben wie AIME24, AIME25, LiveCodeBech (v5) und GPQA Diamond erheblich verbessert.

Ali bietet einen einfachen Soft-Switching-Mechanismus, mit dem der Benutzer den Denkmodus des Modells dynamisch steuern kann, indem er dem Dialog die Tags "/think" und "/no_think" hinzufügt.

Unterstützung mehrerer Sprachen und Verbesserung der Agentenfunktionen

Das Qwen3-Modell unterstützt 119 Sprachen und Dialekte und erweitert damit sein globales Anwendungspotenzial erheblich. Gleichzeitig wurden die Agenten- und Codefähigkeiten des Modells erheblich verbessert:

  • Native Unterstützung für das MCP-Protokoll
  • Leistungsstarke Funktionen zum Aufrufen von Werkzeugen
  • Arbeit mit dem Qwen-Agent-Framework, um die Komplexität der Kodierung erheblich zu reduzieren
  • Erzielt Spitzenleistungen bei komplexen intelligenzbasierten Aufgaben

Starkes technisches Fundament: 36 Billionen Token vor der Ausbildung

Die überragende Leistung von Qwen3 beruht auf umfangreichen Trainingsdaten und einem gut durchdachten Trainingsprozess:

  • Das Datenvolumen vor dem Training erreicht 36 Billionen Token, fast doppelt so viel wie bei Qwen 2.5
  • Abdeckung von 119 Sprachen und Dialekten
  • Qualitativ hochwertige Informationen, die zusätzlich zu den Webdaten auch aus Dokumenten wie PDFs extrahiert werden
  • Generierung großer Mengen synthetischer Daten mit Qwen2.5-Math und Qwen2.5-Coder für erweiterte Mathematik- und Codefähigkeiten

Der Vorschulungsprozess ist in drei Phasen unterteilt:

  1. Aufbau grundlegender Sprachkenntnisse: Pre-Training auf über 30 Billionen Token mit einer Kontextlänge von 4K Token
  2. Optimierung der Wissensdichte: Erhöhung des Datenanteils für MINT-, Programmier- und Schlussfolgerungsaufgaben usw. und Fortsetzung des Trainings mit zusätzlichen 5 Billionen Token
  3. Erweiterung der Kontextfähigkeit: Verwendung hochwertiger langer Kontextdaten zur Erweiterung der Kontextlänge auf 32K Token

In der Nachschulungsphase kommt ein vierstufiger Prozess zum Einsatz, der den Kaltstart einer langen Gedankenkette, das Verstärkungslernen einer langen Gedankenkette, die Fusion von Denkmustern und das generische Verstärkungslernen umfasst, um hybride Modelle zu erstellen, die sowohl zu komplexen Schlussfolgerungen als auch zu schnellen Reaktionen fähig sind.

Reaktion der Gemeinschaft und praktische Erfahrungen

Qwen3 wurde in weniger als 3 Stunden als Open-Source-Projekt veröffentlicht und erhielt auf GitHub 17.000 Sterne, was zu einer überwältigenden Resonanz in der Open-Source-Gemeinschaft führte. Der Apple-Ingenieur Awni Hannun kündigte an, dass Qwen3 nun vom MLX-Framework unterstützt wird, so dass alle Arten von Apple-Geräten, vom iPhone bis zum M2/M3 Ultra, Qwen3-Modelle mit unterschiedlichen Spezifikationen nativ ausführen können.

Eine Reihe von Praxistests hat gezeigt, dass Qwen3 komplexe logische Probleme wie mathematische Beweise und Programmieraufgaben problemlos bewältigen kann. Zum Beispiel lieferte Qwen3-235B-A22B bei einer komplexen Programmieraufgabe (Schreiben eines Snake-Spiels mit einer Pinto-Verfolgungsfunktion) in nur etwa 3 Minuten lauffähigen Code.

Einige Benutzer haben es getestet und festgestellt, dass Qwen3 im Vergleich zum Llama-Modell mit der gleichen Anzahl von Parametern deutliche Vorteile aufweist: Es kann tiefer denken, längere Zusammenhänge aufrechterhalten und schwierigere Probleme lösen.

Leitlinien für die Verwendung

Das Qwen3-Modell ist jetzt live und online in der MagicBuilder-Community, Hugging Face und GitHub verfügbar:

Für den Einsatz werden Frameworks wie SGLang und vLLM offiziell empfohlen; für die lokale Verwendung werden Tools wie Ollama, LMStudio, MLX, llama.cpp und KTransformers empfohlen.

Diese Werkzeuge gewährleisten, dass Anwender Qwen3 problemlos in eine Vielzahl von Arbeitsabläufen integrieren können, sei es in Forschungs-, Entwicklungs- oder Produktionsumgebungen. Ein Standardbeispiel für die Verwendung der Transformatoren-Bibliothek ist unten dargestellt:

PHP
from modelscope import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-30B-A3B"
# lädt den Tokenizer und das Modell
tokeniser = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
        model_name, torch_dtype="auto")
        torch_dtype="auto",
        device_map="auto"
)

# bereitet die Modelleingabe vor
prompt = "Geben Sie mir eine kurze Einführung in das große Sprachmodell."
messages = [
        {"Rolle": "Benutzer", "Inhalt": Aufforderung}
messages = [ {"role": "user", "content": prompt} ]
text = tokenizer.apply_chat_template(
        messages, tokenise=False, text = tokenizer.apply_chat_template(
        tokenise=False,
        add_generation_prompt=True, enable_thinking=True 1TP
        enable_thinking=True # Schaltet zwischen Denk- und Nicht-Denkmodus um. Standard ist True.
Voreinstellung ist True. )

Schlussbemerkungen

Bislang hat Ali Tongyi mehr als 200 Modelle als Open Source zur Verfügung gestellt, mit mehr als 300 Millionen Downloads weltweit und mehr als 100.000 Modellen, die aus tausend Fragen abgeleitet wurden, und hat damit Llama in den USA überholt und ist nun die weltweite Nummer 1 unter den Open-Source-Modellen.Die Freigabe von Qwen3 stellt nicht nur einen weiteren großen Durchbruch in der chinesischen KI-Technologie dar, sondern bietet der globalen KI-Entwicklergemeinschaft auch ein leistungsfähiges neues Werkzeug zur Förderung des Wohlstands des Open-Source-Ökosystems.

Weitere Produkte finden Sie unter

Siehe mehr unter

ShirtAI - Durchdringende Intelligenz Das AIGC Big Model: der Beginn einer Ära der doppelten Revolution in Technik und Wissenschaft - Penetrating Intelligence
1:1 Wiederherstellung von Claude und GPT Offizielle Website - AI Cloud Native Live Match App Global HD Sports Viewing Player (empfohlen) - Blueshirt Technology
Transitdienst auf der Grundlage der offiziellen API - GPTMeta API Hilfe, kann jemand von euch Tipps geben, wie man in GPT Fragen stellt? - Wissen
Global Virtual Goods Digital Store - Global SmarTone (Feng Ling Ge) Wie leistungsfähig ist Claude airtfacts, dass GPT sofort nicht mehr gut riecht? -BeepBeep

Erleben Sie gemeinsam die Super-Magie von AI!

Machen Sie sich Ihren KI-Assistenten zu eigen und steigern Sie Ihre Produktivität mit nur einem Klick!