OpenAI发布gpt-image-1多模态图像生成模型，提供高质量图像创建

Detalhes do conteúdo

Num mundo em que a tecnologia e o conhecimento estão interligados, cada leitura é como uma aventura fantástica que nos dá uma sensação de sabedoria e inspira uma criatividade sem fim.

A OpenAI lança o modelo de geração de imagens multimodais gpt-image-1 para proporcionar a criação de imagens de alta qualidade

A OpenAI lançou oficialmente o seu mais recente modelo de geração de imagens multimodais, o gpt-image-1, e abriu-o a programadores globais através da API. Este modelo tem como principais vantagens o baixo custo, a elevada capacidade de controlo e a forte interação multimodal, marcando a transição da geração de imagens de IA de aplicações de "nível de brinquedo" para aplicações de "nível industrial". Fase de aplicação de "nível industrial". Tanto os criadores individuais como os utilizadores de nível empresarial podem realizar uma transição perfeita dos esboços conceptuais para os desenhos acabados através da API.

Descrição oficial:https://openai.com/index/image-generation-api/

I. Funções principais e destaques técnicos

1. Três funções principais: geração, edição, variantes

Geração de imagens: gpt-image-1 suporta entrada mista de texto+imagem. O gpt-image-1 pode analisar com exatidão pedidos complexos e gerar imagens que estão em conformidade com as leis da física. Por exemplo, se introduzir "desenhar o corpo de uma garrafa de água mineral com vários estilos", o modelo pode produzir rapidamente soluções de design criativas com estilos diferentes.

Edição de imagens: A modificação local, a migração de estilos ou a fusão de elementos de imagens existentes podem ser efectuadas diretamente através da API. Por exemplo, carregue quatro imagens de presentes para gerar uma bela imagem de cesto de presentes com todos os presentes.

Variantes de imagem (apenas para DALL-E 2): Crie rapidamente variantes estilizadas com base em imagens existentes para melhorar a eficiência do design.

2. opções altamente personalizáveis

Os programadores podem controlar com precisão os parâmetros de saída através da API:

Tamanho e formato: Suporta 1024×1024, 1024×1536 e outras resoluções, com saída em formato PNG, JPEG ou WebP.
Qualidade e compressão: três graus de qualidade: baixa, média e alta, a taxa de compressão JPEG pode ser personalizada (0-100%).
Fundo e transparência: Altere o fundo transparente com um clique para se adaptar às necessidades de design.
Geração em lote: acelere a iteração criativa gerando várias imagens de uma só vez através do parâmetro n.

3) Vantagens em termos de custos

Pagamento consoante o uso: o preço do Token de entrada de texto é de $5/milhão, o Token de saída de imagem é de $40/milhão.
Preços por etapas:
- Baixa qualidade (1024 x 1024): cerca de 0,02 ¤/folha
- Qualidade média: cerca de 0,07 dólares por folha
- Alta qualidade: cerca de 0,19 dólares por folha

II Cenários de aplicação e integração empresarial

A flexibilidade do gpt-image-1 permitiu-lhe entrar rapidamente em vários sectores:

Ferramentas criativas: Adobe Firefly, Canva e outras plataformas integram o modelo, oferecendo opções de personalização como o estilo Ghibli.

Comércio eletrónico e design: o Photoroom converte uma única imagem de produto numa imagem de apresentação de modelo através da API; o HeyGen optimiza o processo de edição de avatares.

Software empresarial: a Wix e a InVideo utilizam modelos para gerar materiais de marketing; as imagens das receitas de teste da Instacart são geradas automaticamente.

III Comparação técnica e vantagens

caraterização	gpt-image-1	DALL-E 2/3
apoio multimodal	Entrada mista de texto + imagem	Texto ou imagem apenas unimodal
Granularidade personalizada	Suporta o ajuste fino do tamanho, qualidade, taxa de compressão, etc.	Personalização limitada
custos (de fabrico, de produção, etc.)	Mais baixo (tão baixo quanto $0,02 por folha)	elevado
Flexibilidade da API	Suporta funcionalidades avançadas, como a edição de máscaras e a composição de várias imagens	Geração básica de imagens

Sam Altman, CEO da OpenAI, observou que a conceção da API do gpt-image-1 está mais centrada no controlo do programador e é particularmente adequada para cenários em que a eficiência e a personalização têm de ser equilibradas.

IV. Início rápido: Como chamar a API?

O seguinte exemplo de código Python mostra como gerar um "mapa de sprite de gato cinzento estilo pixel":

from openai import OpenAI
importar base64

cliente = OpenAI()
resposta = client.images.generate(
    model="gpt-image-1",
    model="gpt-image-1", prompt="Desenhar uma folha de sprite 2D estilo pixel art de um gato cinzento tabby",
    tamanho="1024x1024",
    background="transparente",
    qualidade="alta"
)

image_data = response.data[0].b64_json
com open("sprite.png", "wb") as f.
    f.write(base64.b64decode(image_data))

O lançamento do gpt-image-1 não só reduz o limiar da criatividade, como também promove a penetração da IA multimodal no mundo empresarial. Com a expansão do ecossistema API, poderão surgir mais soluções intersectoriais no futuro - desde o design automatizado até ao encaixe virtual, as imagens geradas por IA serão omnipresentes. A openAI provou mais uma vez a sua liderança no domínio da IA. O gpt-image-1, com a sua profundidade tecnológica e facilidade de utilização, abre um novo espaço de criação visual para programadores e empresas. Abre um espaço totalmente novo para a criação visual. Experimente-o agora e ponha as suas ideias "no papel"!

Se quiser utilizar a conta exclusiva paga oficial GPT Plus, Claude Pro, Grok Super, pode contactar a nossa equipa de profissionais (wx: abch891) se não souber como carregar a sua conta.

Para mais produtos, consultar	Ver mais em
ShirtAI - Inteligência penetrante	O Grande Modelo do AIGC: inaugurando uma era de dupla revolução na engenharia e na ciência - Penetrating Intelligence
1:1 Restauração de Claude e GPT Site oficial - AI Cloud Native	Aplicação de jogos em direto Leitor de visualização de desporto HD global (recomendado) - Blueshirt Technology
Serviço de trânsito baseado na API oficial - API GPTMeta	Ajuda, alguém pode dar algumas dicas sobre como fazer perguntas no GPT? - Conhecimento
Loja digital de bens virtuais globais - Global SmarTone (Feng Ling Ge)	Quão poderosa é a funcionalidade Claude airtfacts que o GPT instantaneamente não cheira bem? -BeepBeep

categorias.

Boletim informativo

espaço publicitário

Testemunhe a super magia da IA em conjunto!

Abrace o seu assistente de IA e aumente a sua produtividade com apenas um clique!

Detalhes do conteúdo

A OpenAI lança o modelo de geração de imagens multimodais gpt-image-1 para proporcionar a criação de imagens de alta qualidade