Detalles del contenido

En un mundo en el que la tecnología y el conocimiento están entrelazados, cada lectura es como una aventura asombrosa que te da una sensación de sabiduría e inspira una creatividad sin fin.

Qwen 3: el modelo 235B supera a R1, Grok y o1 con licencia Apache 2.0

Recientemente, el equipo de Ali Tongyi Thousand Questions lanzó una nueva generación del gran modelo Qwen 3, que encabezó el trono mundial de los modelos de código abierto desde su lanzamiento. En comparación con su predecesor, Qwen 3 ha logrado avances significativos en la capacidad de inferencia, el soporte multilingüe y el coste de despliegue, etc. El rendimiento de su modelo insignia Qwen3-235B-A22B es comparable o incluso supera al de los mejores modelos como DeepSeek-R1, o1 de OpenAI, o3-mini, Grok-3 de XAI y Gemini-2.5-Pro de Google. modelos.

Familia Qwen 3 de código abierto

La familia de modelos Qwen 3 sigue siendo de código abierto bajo el relajado protocolo Apache 2.0, que permite a desarrolladores, organizaciones de investigación y empresas de todo el mundo descargar y comercializar los modelos de forma gratuita. La familia Qwen 3 de código abierto incluye dos modelos MoE y seis modelos densos:

  • Modelo ME::
    • Qwen3-235B-A22B (235B en total, 22B activados)
    • Qwen3-30B-A3B (número total de participantes 30B, número de participantes activados 3B)
  • modelización intensiva::
    • Qwen3-32B
    • Qwen3-14B
    • Qwen3-8B
    • Qwen3-4B
    • Qwen3-1.7B
    • Qwen3-0,6B

Cabe destacar que, aunque Qwen3-235B-A22B tiene un número total de referencias mucho mayor que otros modelos de código abierto, su coste de implantación real es drásticamente inferior: sólo se necesitan cuatro H20 para implantar la versión completa, y la huella de memoria de vídeo es sólo un tercio de la de un modelo con un rendimiento similar.

Rendimiento superior en todas las pruebas comparativas

La serie Qwen 3 ha obtenido buenos resultados en diversas revisiones profesionales y ha batido varios récords de modelos de código abierto:

  • Qwen3 obtuvo 81,5 puntos en la evaluación AIME25 de nivel OU, ¡lo que supone un nuevo récord de código abierto!
  • En la prueba LiveCodeBench, que evalúa la capacidad del código, Qwen3 supera la marca de 70 puntos y supera a Grok-3.
  • Qwen3 superó a OpenAI-o1 y a DeepSeek-R1 con una puntuación de 95,6 en la medida ArenaHard, que evalúa la alineación del modelo con las preferencias humanas.
  • En el examen BFCL, que evalúa la capacidad de agente de un modelo, Qwen3 alcanzó un nuevo máximo de 70,8 puntos, superando a modelos de primera fila como Gemini2.5-Pro y OpenAI-o1.

Incluso los modelos más pequeños, como Qwen3-4B, igualan el rendimiento de Qwen2.5-72B-Instruct, lo que demuestra un aumento significativo de la eficiencia. El modelo MoE más pequeño Qwen3-30B-A3B sólo tiene una décima parte del número de parámetros de activación de QwQ-32B, pero su rendimiento es aún mejor.

Innovador modelo de "razonamiento híbrido

Una de las mayores innovaciones de Qwen3 es la introducción del modo de "razonamiento mixto", que permite alternar sin problemas entre los modos de pensar y no pensar:

  • patrón de pensamientoModelización del razonamiento paso a paso para dar una respuesta final tras una cuidadosa consideración, adecuada para problemas complejos que requieren una reflexión en profundidad.
  • modus vivendiModelos de respuesta rápida y casi instantánea para problemas sencillos en los que se requiere rapidez por encima de la profundidad.

Los usuarios pueden controlar de forma flexible el proceso de inferencia del modelo en función de la complejidad de la tarea, e incluso establecer el "presupuesto de pensamiento" (es decir, el número de tokens que se espera pensar con la máxima profundidad) para encontrar el mejor equilibrio entre rendimiento y coste. Las pruebas comparativas muestran que el modo think mejora significativamente el rendimiento del modelo en tareas como AIME24, AIME25, LiveCodeBech (v5) y GPQA Diamond.

Ali ofrece un sencillo mecanismo de cambio suave que permite a los usuarios controlar dinámicamente el modo de pensamiento del modelo añadiendo etiquetas "/pensar" y "/no_pensar" al diálogo.

Compatibilidad con varios idiomas y mejora de las capacidades de los agentes

El modelo Qwen3 admite 119 idiomas y dialectos, lo que amplía considerablemente su potencial de aplicación global. Al mismo tiempo, se han mejorado notablemente las capacidades de agente y código del modelo:

  • Compatibilidad nativa con el protocolo MCP
  • Potentes funciones de invocación de herramientas
  • Trabajar con el marco Qwen-Agent para reducir en gran medida la complejidad de la codificación.
  • Alcanza un rendimiento destacado en tareas complejas basadas en las inteligencias

Sólida base técnica: formación previa de 36 billones de tokens

El rendimiento superior de Qwen3 se basa en enormes datos de entrenamiento y en un proceso de formación bien diseñado:

  • El volumen de datos de preentrenamiento alcanza los 36 billones de tokens, casi el doble que Qwen 2.5
  • Cobertura de 119 lenguas y dialectos
  • Información de alta calidad extraída de documentos como PDF, además de datos web
  • Generación de grandes cantidades de datos sintéticos con Qwen2.5-Math y Qwen2.5-Coder para mejorar las capacidades matemáticas y de codificación.

El proceso de formación previa se divide en tres etapas:

  1. Creación de capacidades lingüísticas básicas: preentrenamiento en más de 30 billones de tokens con una longitud de contexto de 4K tokens.
  2. Optimización de la densidad de conocimientos: aumentar la proporción de datos para tareas STEM, de programación y razonamiento, etc., y continuar el entrenamiento con 5 billones de tokens adicionales.
  3. Ampliación de la capacidad de contexto: uso de datos de contexto largos de alta calidad para ampliar la longitud del contexto a 32.000 tokens.

La fase posterior al entrenamiento utiliza un proceso de cuatro fases que incluye el arranque en frío de la cadena de pensamiento larga, el aprendizaje de refuerzo de la cadena de pensamiento larga, la fusión de patrones de pensamiento y el aprendizaje de refuerzo genérico para crear modelos híbridos capaces tanto de razonamiento complejo como de respuesta rápida.

Respuesta comunitaria y experiencia práctica

El código abierto de Qwen3 se abrió en menos de 3 horas y GitHub acumuló 17.000 estrellas, lo que provocó una respuesta abrumadora de la comunidad de código abierto. Awni Hannun, ingeniero de Apple, anunció que Qwen3 ya es compatible con el marco MLX, lo que permite que todo tipo de dispositivos Apple, desde el iPhone hasta el M2/M3 Ultra, ejecuten de forma nativa modelos Qwen3 de diferentes especificaciones.

Diversas pruebas reales han demostrado que Qwen3 puede enfrentarse fácilmente a problemas de razonamiento complejos, como pruebas matemáticas y tareas de programación. Por ejemplo, en una tarea de programación compleja (escribir un juego de Snake con una función de persecución de Pinto), Qwen3-235B-A22B proporcionó código ejecutable en solo unos 3 minutos.

Algunos usuarios lo han probado y han descubierto que, comparado con el modelo Llama con el mismo número de parámetros, Qwen3 muestra ventajas significativas, razonando más profundamente, manteniendo contextos más largos y resolviendo problemas más difíciles.

Normas de uso

El modelo Qwen3 ya está disponible en línea en la comunidad MagicBuilder, Hugging Face y GitHub:

Para el despliegue, se recomiendan oficialmente marcos como SGLang y vLLM; para el uso local, se recomiendan herramientas como Ollama, LMStudio, MLX, llama.cpp y KTransformers.

Estas herramientas garantizan que los usuarios puedan integrar fácilmente Qwen3 en diversos flujos de trabajo, ya sea para entornos de investigación, desarrollo o producción. A continuación se muestra un ejemplo estándar de uso de la biblioteca de transformadores:

PHP
from modelscope import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-30B-A3B"
# carga el tokenizador y el modelo
tokenizador = AutoTokenizer.from_pretrained(nombre_modelo)
model = AutoModelForCausalLM.from_pretrained(
        nombre_modelo, tipo_antorcha="auto")
        torch_dtype="auto",
        device_map="auto"
)

# preparar la entrada del modelo
prompt = "Dame una breve introducción a gran modelo de lenguaje".
mensajes = [
        {"rol": "usuario", "contenido": prompt}
messages = [ {"rol": "usuario", "contenido": prompt} ]
text = tokenizer.apply_chat_template(
        messages, tokenise=False, text = tokenizer.apply_chat_template(
        tokenise=False,
        add_generation_prompt=True, enable_thinking=True 1TP
        enable_thinking=True # Cambiar entre los modos pensar y no pensar. Por defecto es True.
Por defecto es True. )

observaciones finales

Hasta ahora, Ali Tongyi ha puesto en código abierto más de 200 modelos, con más de 300 millones de descargas en todo el mundo y más de 100.000 modelos derivados de mil preguntas, superando a Llama en EE.UU. y convirtiéndose en el modelo de código abierto número 1 del mundo.La puesta en código abierto de Qwen3 no sólo supone otro gran avance en la tecnología china de IA, sino que también proporciona a la comunidad mundial de desarrolladores de IA una nueva y potente herramienta para promover la prosperidad del ecosistema de código abierto.

Para más productos, visite

Más información en

ShirtAI - Inteligencia penetrante El Gran Modelo AIGC: el comienzo de una era de doble revolución en ingeniería y ciencia - Inteligencia Penetrante
Restauración 1:1 de Claude y GPT Sitio web oficial - AI Cloud Native Live Match App Global HD Sports Viewing Player (Recomendado) - Blueshirt Technology
Servicio de tránsito basado en la API oficial - GPTMeta API Ayuda, ¿alguien de ustedes puede proporcionar algunos consejos sobre cómo hacer preguntas en GPT? - Conocimientos
Tienda digital global de bienes virtuales - Global SmarTone (Feng Ling Ge) ¿Qué tan poderoso es Claude airtfacts característica que GPT al instante no huele bien? -BeepBeep

espacio publicitario

¡Presenciemos juntos la supermagia de la IA!

Adopte su asistente de inteligencia artificial y aumente su productividad con un solo clic.