Недавно компания AliCloud официально представила свою новейшую мультимодальную модель ИИ Qwen-VLo, которая вызвала бурную реакцию в сообществе ИИ после своего выхода. Многие пользователи после первого знакомства с ней отметили, что производительность модели в создании изображений даже превосходит GPT-4o, демонстрируя удивительные творческие возможности.
Являясь последним достижением AliCloud в области мультимодального ИИ, Qwen-VLo не только унаследовал преимущества своего предшественника в понимании и генерации изображений, но и добился значительных улучшений по многим параметрам, таким как опыт взаимодействия с пользователем, точность редактирования и поддержка языков. В настоящее время модель открыта для бесплатного использования глобальными пользователями, и пользователи могут использовать ее непосредственно через платформу Qwen Chat.
Технические характеристики и инновационные решения
Основное технологическое преимущество
Qwen-VLo достигла ряда прорывов в своей технической архитектуре, и ее основные преимущества можно кратко описать следующим образом:
Характерные размеры | конкретное выражение | Техническое преимущество |
---|---|---|
детализация | Улучшенная съемка деталей | Высокая семантическая согласованность на протяжении всего процесса генерации |
функция редактирования | Редактирование изображений с помощью одной команды | Поддержка преобразования стилей, добавления и удаления элементов, добавления текста и других операций |
Языковая поддержка | многоязычная совместимость | Расширение возможностей глобальных пользователей за счет использования нескольких языков, включая английский и китайский. |
Разрешение Адаптация | Гибкая опора рамы | Входы и выходы поддерживают произвольные разрешения и соотношения сторон. |
Обновление возможностей интеллектуального понимания
Помимо возможностей по созданию изображений, Qwen-VLo демонстрирует отличные способности по распознаванию и интерпретации изображений. Модель способна точно идентифицировать конкретные объекты на изображении, например, после создания изображения, содержащего домашних животных, она может точно определить конкретные породы, такие как тигровые кошки и бигли, демонстрируя глубину визуального понимания.
Более того, Qwen-VLo также оснащен функцией аннотирования изображений, которая позволяет ему обнаруживать и сегментировать существующие изображения. Например, когда модель просят сегментировать край банана, она способна точно обозначить полный контур банана красной маской, и эта точная семантическая возможность сегментации обеспечивает прочную основу для последующего редактирования изображений.

Углубленное тестирование функций редактирования изображений
Тест на замену объекта
В реальных тестах возможности Qwen-VLo по редактированию изображений показали хорошие результаты. Первым тестом был простой тест на замену объектов:
Первый пример: замена напитка
- Начальная задача: сгенерировать изображение белого медведя, пьющего кока-колу (в мультяшном стиле)
- Редактировать команду: заменить колу на молоко
- Результат теста: Успешно завершена замена, фон и основное тело белого медведя остались в основном неизменными, изменился только напиток!


Второй тестовый пример: замена животных
- Первоначальное задание: создание фотографий птиц (фотореалистичный стиль)
- Команда редактирования: заменить птицу на голубя
- Результаты теста: замена видов была выполнена точно, а экологический контекст полностью соответствовал


Стоит отметить, что в тесте терьера "чесночная птица", хотя модель и не понимала значения этого интернет-слова, она все же попыталась выполнить основные инструкции по замене птицы и показала хорошую способность к выполнению инструкций.

Многоступенчатое композитное редактирование
Более сложные тесты предполагают многоступенчатый процесс создания и редактирования изображений:
- Этап создания эскиза: Создание базовых линейных эскизов
- Этап заливки цветом: Добавление цвета и деталей к эскизам
- Этап добавления текста: Добавление китайского текста к изображению
- Этап редактирования копий: Изменить существующий текст
На протяжении всего процесса Qwen-VLo сохраняет стабильность главной фигуры и фона, и, несмотря на небольшие различия в детализации, общий эффект редактирования удовлетворительный. В частности, модель демонстрирует сильные способности к восприятию и визуализации текста на китайском и английском языках.




Объяснение техники прогрессивной генерации
Генерирование институциональных инноваций
В Qwen-VLo используется уникальный механизм прогрессивной генерации изображения, который является не только визуальным эффектом, но и имеет реальную техническую ценность. В отличие от "псевдопрогрессивных" эффектов некоторых моделей, прогрессивная генерация Qwen-VLo является настоящей технической реализацией.
Характеристики процесса генерации
Наблюдая за процессом создания изображения Qwen-VLo, можно обнаружить следующие особенности:
- нисходящее строительство: изображение формируется постепенно сверху вниз
- Динамические настройки оптимизации: Постоянная корректировка и оптимизация прогнозов в процессе генерации.
- Гарантия семантической согласованности: Обеспечение гармонизации конечных результатов
Этот механизм генерации особенно подходит для задач создания длинных текстов, требующих тонкого контроля, таких как дизайн рекламы или создание сюжета комиксов. Модель будет постоянно самокорректироваться в процессе генерации, подобно процессу "рисования во время мышления" в человеческом творчестве, и реализация этой "визуальной мыслительной цепочки" открывает новые возможности для создания ИИ.

Пример из практики UX
С момента появления Qwen-VLo в открытом доступе сообщество пользователей наводнили креативные сценарии использования:
Творческий ассистент по рисованию
- Пользователи загружают нарисованные от руки эскизы, и модель автоматически раскрашивается и оптимизируется для детализации.
- Поддержка дизайна персонажей аниме, преобразование стилей и другие творческие потребности

Производство маркетинговых материалов
- Быстрое создание рекламных плакатов с определенным текстом
- Создание фирменных логотипов, таких как рекламные доски "Qwen Chat".

Создание развлекательного контента
- Создание карты интернет-терьера, поддержка добавления популярных текстов и смайликов
- Преобразование стиля персонажей фильмов и телепередач, например, в стиле анимации Ghibli


Важной особенностью Qwen-VLo является то, что она снижает порог использования искусственного интеллекта для создания изображений. Пользователям не нужны сложные навыки оперативной инженерии, достаточно описать свои потребности на естественном языке, чтобы получить удовлетворительный результат. Этот режим "разговорного творчества" позволяет обычным пользователям испытать удовольствие от создания изображений с помощью ИИ.
В настоящее время пользователи могут получить доступ к https://chat.qwen.ai/ Испытайте всю мощь Qwen-VLo бесплатно и почувствуйте инновационную привлекательность этой мультимодальной технологии искусственного интеллекта.