Содержание Подробности

В мире, где технологии и знания переплетаются друг с другом, каждое чтение похоже на удивительное приключение, которое дает вам ощущение мудрости и вдохновляет на бесконечное творчество.

OpenAI выпускает мультимодальную модель генерации изображений gpt-image-1 для создания высококачественных изображений

Компания OpenAI официально представила свою новейшую модель генерации мультимодальных изображений, gpt-image-1, и открыла ее для глобальных разработчиков через API. Эта модель имеет низкую стоимость, высокую управляемость и сильное мультимодальное взаимодействие в качестве своих основных преимуществ, что знаменует переход генерации изображений ИИ от "игрушечного" к "промышленному" применению. Стадия применения "промышленного уровня". Как индивидуальные создатели, так и корпоративные пользователи могут реализовать плавный переход от концептуальных эскизов к готовым проектам с помощью API.

Официальное описание:https://openai.com/index/image-generation-api/

 

I. Основные функции и технические моменты

1. три основные функции: генерация, редактирование, варианты

  • Генерация изображений: gpt-image-1 поддерживает смешанный ввод текста+изображения. gpt-image-1 может точно анализировать сложные запросы и генерировать изображения, соответствующие законам физики. Например, если вы введете команду "спроектировать корпус бутылки минеральной воды в разных стилях", модель сможет быстро выдать креативные дизайнерские решения в разных стилях.
图片描述
  • Редактирование изображений: локальная модификация, перенос стилей или объединение элементов существующих изображений могут быть выполнены непосредственно через API. Например, загрузите четыре изображения подарков, чтобы создать красивое изображение подарочной корзины, содержащей все подарки.

 

  • Варианты изображений (только для DALL-E 2): быстрое создание стилизованных вариантов на основе существующих изображений для повышения эффективности дизайна.

 

2. Широкие возможности настройки

Разработчики могут точно управлять выходными параметрами через API:

  • Размер и формат: поддержка 1024×1024, 1024×1536 и других разрешений, выходной формат PNG, JPEG или WebP.
  • Качество и сжатие: три степени качества: низкое, среднее и высокое, степень сжатия JPEG может быть настроена (0-100%).
  • Фон и прозрачность: переключайте прозрачный фон одним щелчком мыши, чтобы соответствовать требованиям дизайна.
  • Пакетная генерация: ускорьте творческую итерацию, создавая несколько изображений одновременно с помощью параметра n.

 

3. преимущества стоимости

  • Оплата по факту: стоимость токена для ввода текста - $5/миллион, токена для вывода изображения - $40/миллион.
  • Пошаговое ценообразование:
    • Низкое качество (1024 x 1024): около $0,02/лист
    • Среднее качество: около $0,07 за лист
    • Высокое качество: около $0,19 за лист

 

II. Сценарии приложений и интеграция предприятий

Гибкость gpt-image-1 позволила ему быстро прижиться в различных отраслях промышленности:

  • Творческие инструменты: Adobe Firefly, Canva и другие платформы интегрируют модель, предлагая варианты персонализации, например, в стиле Ghibli.

 

  • Электронная коммерция и дизайн: Photoroom преобразует одно изображение товара в изображение для показа модели через API; HeyGen оптимизирует процесс редактирования аватара.

 

  • Корпоративное программное обеспечение: Wix, InVideo используют модели для создания маркетинговых материалов; Instacart автоматически генерирует изображения тестовых рецептов.

​​

III. Техническое сравнение и преимущества

 

характеристика gpt-image-1 ДАЛЛ-И 2/3
мультимодальная поддержка ✅ Смешанный ввод текста + изображения ❌ Только текст или изображение унимодально
Пользовательская гранулярность Поддерживает тонкую настройку размера, качества, степени сжатия и т. д. Ограниченная настройка
(производство, изготовление и т.д.) затраты Ниже (всего $0,02 за лист) высокий
Гибкость API Поддержка расширенных функций, таких как редактирование масок и композиция нескольких изображений Базовая генерация изображений

 

Сэм Альтман, генеральный директор OpenAI, отметил, что дизайн API gpt-image-1 в большей степени ориентирован на контроль разработчика и особенно подходит для сценариев, в которых необходимо сбалансировать эффективность и персонализацию.

​​

IV. Быстрый старт: как вызвать API?

Следующий пример кода на Python показывает, как сгенерировать "пиксельную карту спрайта серого кота":

from openai import OpenAI
импортировать base64

клиент = OpenAI()
response = client.images.generate(
    model="gpt-image-1",
    model="gpt-image-1", prompt="Нарисуйте 2D спрайт в стиле пиксель-арт серой кошки табби",
    size="1024x1024",
    background="transparent",
    качество="высокое"
)

image_data = response.data[0].b64_json
with open("sprite.png", "wb") as f.
    f.write(base64.b64decode(image_data))

Запуск gpt-image-1 не только снижает порог креативности, но и способствует проникновению мультимодального ИИ в деловой мир. По мере расширения экосистемы API в будущем может появиться больше межотраслевых решений - от автоматизированного проектирования до виртуальной примерки, изображения, созданные ИИ, станут повсеместными. openAI в очередной раз доказал свое лидерство в пространстве ИИ. gpt-image-1, благодаря своей технологической глубине и удобству для бизнеса, открывает новое пространство визуального творчества для разработчиков и предприятий. Он открывает совершенно новое пространство для визуального творчества. Попробуйте прямо сейчас и воплотите свои идеи "на бумаге"!

 

Если вы хотите использовать официальный платный эксклюзивный аккаунт GPT Plus, Claude Pro, Grok Super, вы можете связаться с нашей профессиональной командой (wx: abch891), если вы не знаете, как пополнить свой счет.

Для получения дополнительной продукции, пожалуйста, ознакомьтесь с

См. подробнее

ShirtAI - проникающий интеллект Большая модель AIGC: начало эры двойной революции в инженерном деле и науке - Проникающая разведка
1:1 Восстановление Клода и GPT Официальный сайт - AI Cloud Native Приложение для просмотра прямых трансляций матчей Global HD Sports Viewing Player (рекомендуется) - Blueshirt Technology
Транзитный сервис на основе официального API - GPTMeta API Помогите, может ли кто-нибудь из вас дать несколько советов о том, как задавать вопросы в GPT? - знание
Глобальный цифровой магазин виртуальных товаров - Global SmarTone (Feng Ling Ge) Насколько мощной является функция Claude airtfacts, что GPT мгновенно перестает хорошо пахнуть? -BeepBeep
Поиск

категории.

Информационный бюллетень

рекламное пространство

Станьте свидетелями супермагии искусственного интеллекта вместе!

Примите в свои объятия помощника с искусственным интеллектом и повысьте свою производительность одним щелчком мыши!