Recientemente, AliCloud lanzó oficialmente su último modelo de IA multimodal, Qwen-VLo, que ha causado una fuerte reacción en la comunidad de IA tras su lanzamiento. Muchos usuarios afirmaron tras su primera experiencia que el rendimiento del modelo en la generación de imágenes superaba incluso al de GPT-4o, mostrando una capacidad creativa asombrosa.
Como último logro de AliCloud en el campo de la IA multimodal, Qwen-VLo no solo hereda las ventajas de su predecesor en comprensión y generación de imágenes, sino que también consigue mejoras significativas en múltiples dimensiones, como la experiencia de interacción con el usuario, la precisión de edición y la compatibilidad lingüística. En la actualidad, el modelo se ha abierto de forma gratuita para que los usuarios de todo el mundo puedan experimentarlo, y los usuarios pueden utilizarlo directamente a través de la plataforma Qwen Chat.
Características técnicas e innovaciones destacadas
Principales ventajas tecnológicas
Qwen-VLo ha logrado una serie de avances en su arquitectura técnica, y sus principales ventajas pueden resumirse así:
Dimensiones características | expresión concreta | Ventaja técnica |
---|---|---|
detallando | Captura de detalles mejorada | Gran coherencia semántica en todo el proceso de generación |
función de edición | Edición de imágenes con un solo comando | Admite conversión de estilos, adición y supresión de elementos, adición de texto y otras operaciones. |
Apoyo lingüístico | compatibilidad multilingüe | Mejorar la experiencia global del usuario cubriendo varios idiomas, incluidos el inglés y el chino. |
Resolución Adaptación | Soporte de bastidor flexible | Las entradas y salidas admiten resoluciones y relaciones de aspecto arbitrarias. |
Mejora de la capacidad de comprensión inteligente
Además de sus capacidades de generación de imágenes, Qwen-VLo también demuestra excelentes capacidades de reconocimiento e interpretación de imágenes. El modelo es capaz de identificar con precisión objetos específicos en una imagen. Por ejemplo, tras generar una imagen que contiene mascotas, es capaz de identificar con precisión razas específicas como gatos tigre y beagles, lo que demuestra su profundidad de comprensión visual.
Además, Qwen-VLo dispone de una función de anotación de imágenes que le permite detectar y segmentar imágenes existentes. Por ejemplo, cuando se pide al modelo que segmente el borde de un plátano, es capaz de marcar con precisión el contorno completo del plátano con una máscara roja, y esta precisa capacidad de segmentación semántica proporciona una base sólida para la posterior edición de imágenes.

Prueba en profundidad de las funciones de edición de imágenes
Prueba de sustitución de objetos
En las pruebas reales, las capacidades de edición de imágenes de Qwen-VLo funcionaron bien. La primera prueba consistió en un simple reemplazo de objetos:
Primer caso de prueba: sustitución de bebidas
- Tarea inicial: generar una imagen de un oso polar bebiendo una Coca-Cola (estilo dibujos animados).
- Editar comando: sustituir cola por leche
- Resultado de la prueba: Completada con éxito la sustitución, el fondo y el cuerpo principal del oso polar permanecieron básicamente inalterados, ¡sólo cambió la bebida!


Segundo caso de prueba: sustitución de animales
- Tarea inicial: Generar fotografías de aves (estilo fotorrealista)
- Comando de edición: sustituir pájaros por palomas
- Resultados de la prueba: la sustitución de especies se completó con precisión y el contexto medioambiental fue totalmente coherente.


Cabe destacar que en la prueba del terrier "pájaro ajo", aunque el modelo no entendía el significado de la palabra de moda en Internet, seguía intentando ejecutar las instrucciones básicas de sustitución de pájaros y mostraba una buena capacidad de ejecución de instrucciones.

Edición compuesta en varios pasos
Las pruebas más complejas implican un proceso de creación y edición de imágenes de varios pasos:
- Fase de generación de bocetosCreación de bocetos lineales básicos
- Etapa de relleno de color: Añadir color y detalle a los bocetos
- Etapa de adición de textoAñadir texto chino a una imagen
- Fase de edición: Modificar texto existente
A lo largo del proceso, Qwen-VLo es capaz de mantener la estabilidad de la figura principal y el fondo, y aunque hay ligeras variaciones en los detalles, el efecto general de edición es satisfactorio. En particular, el modelo demuestra una gran capacidad de comprensión y representación de textos en chino e inglés.




Explicación de las técnicas de generación progresiva
Generar innovaciones institucionales
Qwen-VLo adopta un mecanismo único de generación progresiva de imágenes, que no es sólo un efecto visual, sino que también tiene un verdadero valor técnico. A diferencia de los efectos "pseudoprogresivos" de algunos modelos, la generación progresiva de Qwen-VLo es una verdadera realización técnica.
Características del proceso de generación
Observando el proceso de generación de imágenes de Qwen-VLo, se pueden encontrar las siguientes características:
- construcción descendentela imagen se genera progresivamente hacia abajo desde la parte superior
- Ajustes dinámicos de optimización: Ajuste y optimización continuos de las previsiones durante el proceso de generación
- Garantía de coherencia semánticaGarantizar la armonización de los resultados finales
Este mecanismo de generación es especialmente adecuado para tareas de generación de textos largos que requieren un control preciso, como el diseño de anuncios o la producción de subtramas de cómics. El modelo se autocorregirá constantemente durante el proceso de generación, de forma similar al proceso de "dibujar mientras se piensa" en la creación humana, y la realización de esta "cadena de pensamiento visual" aporta nuevas posibilidades a la creación de IA.

Estudio de caso UX
Desde la experiencia abierta de Qwen-VLo, la comunidad de usuarios se ha visto inundada de casos de uso creativos:
Asistente creativo de dibujo
- Los usuarios cargan bocetos dibujados a mano y el modelo se colorea automáticamente y se optimizan los detalles.
- Apoyo al diseño de personajes de anime, conversión de estilos y otras necesidades creativas.

Producción de material de marketing
- Genere rápidamente carteles promocionales con texto específico
- Creación de expositores con logotipos de marca, como los tableros promocionales "Qwen Chat".

Creación de contenidos de entretenimiento
- Creación de mapas terrier de Internet, soporte para añadir texto y emoticonos populares
- Conversión del estilo de los personajes de cine y televisión, como el estilo de animación Ghibli


Una característica importante de Qwen-VLo es que reduce el umbral de uso de la creación de imágenes mediante IA. Los usuarios no necesitan tener conocimientos complejos de ingeniería, basta con describir sus necesidades en lenguaje natural para obtener resultados satisfactorios. Este modo de "creación conversacional" facilita que los usuarios normales experimenten la diversión de la creación por IA.
Actualmente, los usuarios pueden acceder al https://chat.qwen.ai/ Experimente toda la potencia de Qwen-VLo de forma gratuita y sienta el atractivo innovador de esta tecnología de IA multimodal.