Содержание Подробности

В мире, где технологии и знания переплетаются друг с другом, каждое чтение похоже на удивительное приключение, которое дает вам ощущение мудрости и вдохновляет на бесконечное творчество.

Выпущен Qwen 3: модель 235B превосходит R1, Grok и o1 с лицензией Apache 2.0

Недавно команда Ali Tongyi Thousand Questions выпустила новое поколение большой модели Qwen 3, которая с момента своего запуска возглавила мировой трон моделей с открытым исходным кодом. По сравнению с предшественником, Qwen 3 совершила значительный прорыв в возможностях вывода, поддержке нескольких языков, стоимости развертывания и т. д. Производительность флагманской модели Qwen3-235B-A22B сравнима или даже превосходит производительность таких топовых моделей, как DeepSeek-R1, OpenAI o1, o3-mini, XAI Grok-3 и Google Gemini-2.5-Pro. модели.

Семейство Qwen 3 с полностью открытым исходным кодом

Семейство моделей Qwen 3 продолжает оставаться открытым ресурсом в соответствии с непринужденным протоколом Apache 2.0, что позволяет разработчикам, исследовательским организациям и предприятиям по всему миру бесплатно загружать и использовать модели в коммерческих целях. Семейство моделей Qwen 3 с открытым исходным кодом включает две модели MoE и шесть плотных моделей:

  • Модель МО::
    • Qwen3-235B-A22B (235B всего, 22B активировано)
    • Qwen3-30B-A3B (общее количество участников 30B, количество активированных участников 3B)
  • интенсивное моделирование::
    • Qwen3-32B
    • Qwen3-14B
    • Qwen3-8B
    • Qwen3-4B
    • Qwen3-1.7B
    • Qwen3-0.6B

Стоит отметить, что хотя Qwen3-235B-A22B имеет гораздо большее общее количество ссылок, чем другие модели с открытым исходным кодом, его фактическая стоимость развертывания значительно ниже - для развертывания полнокровной версии требуется всего четыре H20, а объем видеопамяти составляет лишь одну треть от аналогичной производительности.

Превосходная производительность по всем основным показателям

Серия Qwen 3 отлично зарекомендовала себя в различных профессиональных обзорах и установила ряд рекордов среди моделей с открытым исходным кодом:

  • Qwen3 набрал 81,5 балла в оценке AIME25 на уровне OU, установив новый рекорд в области открытого исходного кода!
  • В оценке LiveCodeBench, которая оценивает возможности кода, Qwen3 преодолевает 70-балльную отметку и опережает Grok-3.
  • Qwen3 превзошел OpenAI-o1 и DeepSeek-R1, получив 95,6 балла по показателю ArenaHard, который оценивает выравнивание предпочтений человека в модели.
  • В обзоре BFCL, который оценивает возможности модели в области агентов, Qwen3 достиг нового максимума - 70,8, обогнав такие ведущие модели, как Gemini2.5-Pro и OpenAI-o1.

Даже меньшие модели, такие как Qwen3-4B, соответствуют производительности Qwen2.5-72B-Instruct, демонстрируя значительный прирост эффективности. Меньшая модель MoE Qwen3-30B-A3B имеет лишь десятую часть параметров активации по сравнению с QwQ-32B, но обладает еще большей производительностью.

Новаторская модель "гибридного рассуждения"

Одно из самых больших нововведений в Qwen3 - введение режима "смешанных рассуждений", который поддерживает плавное переключение между режимами мышления и немышления:

  • образ мышления: Моделирование поэтапного рассуждения с целью дать окончательный ответ после тщательного рассмотрения, подходит для сложных проблем, требующих глубокого осмысления.
  • modus vivendi: Модели обеспечивают быстрый, практически мгновенный отклик при решении простых задач, когда требуется скорость на глубине.

Пользователи могут гибко управлять процессом вывода модели в зависимости от сложности задачи и даже устанавливать "бюджет мышления" (т.е. количество лексем, ожидаемых для мышления на максимальной глубине), чтобы найти оптимальный баланс между производительностью и стоимостью. Бенчмарки показывают, что режим think значительно улучшает производительность модели в таких задачах, как AIME24, AIME25, LiveCodeBech (v5) и GPQA Diamond.

Ali предоставляет простой механизм мягкого переключения, который позволяет пользователю динамически управлять режимом мышления модели, добавляя в диалог теги "/think" и "/no_think".

Поддержка нескольких языков и расширение возможностей агента

Модель Qwen3 поддерживает 119 языков и диалектов, что значительно расширяет возможности ее глобального применения. В то же время были значительно расширены возможности модели по работе с агентами и кодами:

  • Встроенная поддержка протокола MCP
  • Мощные возможности вызова инструментов
  • Работа с фреймворком Qwen-Agent значительно снижает сложность кодирования
  • Достигает ведущих результатов в сложных заданиях, основанных на интеллекте

Прочная техническая база: предварительное обучение на 36 триллионов токенов

Превосходная производительность Qwen3 основана на огромных обучающих данных и хорошо продуманном процессе обучения:

  • Объем данных для предварительного обучения достигает 36 триллионов токенов, что почти в два раза больше, чем в Qwen 2.5.
  • Охватывает 119 языков и диалектов
  • Высококачественная информация, извлекаемая не только из веб-данных, но и из документов, таких как PDF.
  • Генерация больших объемов синтетических данных с помощью Qwen2.5-Math и Qwen2.5-Coder для расширения возможностей математики и кодирования

Процесс предварительной подготовки делится на три этапа:

  1. Формирование базовых языковых способностей: предварительное обучение на более чем 30 триллионах лексем с длиной контекста в 4 тыс. лексем
  2. Оптимизация плотности знаний: увеличение доли данных для задач STEM, программирования, рассуждений и т. д., а также продолжение обучения на дополнительных 5 триллионах токенов
  3. Расширение возможностей контекста: использование высококачественных длинных контекстных данных для увеличения длины контекста до 32K токенов

На этапе после обучения используется четырехфазный процесс, включающий холодный старт длинной мыслительной цепи, обучение с подкреплением длинной мыслительной цепи, объединение мыслительных моделей и общее обучение с подкреплением для создания гибридных моделей, способных как к сложным рассуждениям, так и к быстрому реагированию.

Реакция сообщества и практический опыт

Qwen3 был открыт менее чем за 3 часа, а GitHub набрал 17 тысяч звезд, вызвав бурную реакцию сообщества разработчиков открытого кода. Инженер Apple Ауни Ханнун объявил, что Qwen3 теперь поддерживается фреймворком MLX, что позволяет всем типам устройств Apple, от iPhone до M2/M3 Ultra, запускать модели Qwen3 с различными спецификациями нативно.

Ряд реальных тестов показал, что Qwen3 легко справляется со сложными задачами рассуждений, такими как математические доказательства и задачи программирования. Например, при решении сложной задачи программирования (написание игры "Змейка" с функцией погони за Пинто) Qwen3-235B-A22B выдал работоспособный код всего за 3 минуты.

Некоторые пользователи протестировали его и обнаружили, что по сравнению с моделью Llama с тем же количеством параметров, Qwen3 демонстрирует значительные преимущества, рассуждая глубже, сохраняя более длительные контексты и решая более сложные задачи.

Руководство по использованию

Модель Qwen3 уже доступна в сообществе MagicBuilder, Hugging Face и GitHub:

Для развертывания официально рекомендуются такие фреймворки, как SGLang и vLLM; для локального использования рекомендуются такие инструменты, как Ollama, LMStudio, MLX, llama.cpp и KTransformers.

Эти инструменты позволяют пользователям легко интегрировать Qwen3 в различные рабочие процессы, будь то исследования, разработки или производство. Ниже показан стандартный пример использования библиотеки трансформаторов:

PHP
from modelscope import AutoModelForCausalLM, AutoTokenizer

имя_модели = "Qwen/Qwen3-30B-A3B"
# загрузите токенизатор и модель
tokeniser = AutoTokenizer.from_pretrained(model_name)
модель = AutoModelForCausalLM.from_pretrained(
        имя_модели, torch_dtype="auto")
        torch_dtype="auto",
        device_map="auto"
)

# подготовить входные данные модели
prompt = "Дайте мне краткое представление о большой языковой модели".
сообщения = [
        {"роль": "пользователь", "содержание": prompt}
messages = [ {"роль": "пользователь", "содержание": prompt} ]
text = tokenizer.apply_chat_template(
        messages, tokenise=False, text = tokenizer.apply_chat_template(
        tokenise=False,
        add_generation_prompt=True, enable_thinking=True 1TP
        enable_thinking=True # Переключение между думающим и недумающим режимами. По умолчанию True.
По умолчанию True. )

заключительные замечания

К настоящему времени Ali Tongyi выложил в открытый доступ более 200 моделей, которые были загружены более чем 300 миллионами пользователей по всему миру, и более 100 000 моделей, полученных на основе тысячи вопросов, превзойдя Llama в США и став моделью №1 в мире с открытым исходным кодом. Выкладывание Qwen3 в открытый доступ не только знаменует собой еще один большой прорыв в китайской технологии ИИ, но и предоставляет мировому сообществу разработчиков ИИ новый мощный инструмент для содействия процветанию экосистемы с открытым исходным кодом.

Для получения дополнительной продукции, пожалуйста, ознакомьтесь с

См. подробнее

ShirtAI - проникающий интеллект Большая модель AIGC: начало эры двойной революции в инженерном деле и науке - Проникающая разведка
1:1 Восстановление Клода и GPT Официальный сайт - AI Cloud Native Приложение для просмотра прямых трансляций матчей Global HD Sports Viewing Player (рекомендуется) - Blueshirt Technology
Транзитный сервис на основе официального API - GPTMeta API Помогите, может ли кто-нибудь из вас дать несколько советов о том, как задавать вопросы в GPT? - знание
Глобальный цифровой магазин виртуальных товаров - Global SmarTone (Feng Ling Ge) Насколько мощной является функция Claude airtfacts, что GPT мгновенно перестает хорошо пахнуть? -BeepBeep
Поиск

категории.

Информационный бюллетень

рекламное пространство

Станьте свидетелями супермагии искусственного интеллекта вместе!

Примите в свои объятия помощника с искусственным интеллектом и повысьте свою производительность одним щелчком мыши!