NextStep-1：自回归图像生成的"终极形态"，14B参数模型开源了！

Inhalt Details

In einer Welt, in der Technologie und Wissen miteinander verwoben sind, ist jede Lektüre wie ein erstaunliches Abenteuer, das einem ein Gefühl von Weisheit vermittelt und zu endloser Kreativität inspiriert.

NextStep-1：自回归图像生成的”终极形态”，14B参数模型开源了！

“它不再需要’外援’，终于成长为独立艺术家。”

在AI图像生成领域，我们似乎早已习惯这样的分工：
扩散模型负责”画画”，CLIP负责”看画”，VQ-VAE负责”压缩”，LLM负责”思考”……

但今天，一款名为 NextStep-1 的开源模型，正试图颠覆这一范式——它仅用14B参数的纯自回归架构，就实现了与顶尖扩散模型相媲美的生成质量，还能听懂日常语言、随心所欲地编辑图像。

阶跃星辰(StepFun)团队这次放出了什么”大招”？让我们一探究竟。

🎨 重新定义自回归：告别”外援”，做真正的艺术家

自回归模型在文本领域早已所向披靡，却在图像生成赛道”水土不服”多年。
过去尝试大多陷入两种困境：

离散化困境：必须通过VQ-VAE将图像压缩成有限的离散符号，造成信息损失
外援依赖：需要庞大的扩散模型作为”解码器”，架构臃肿且训练复杂

NextStep-1的核心突破::

直接在连续的视觉空间中，以自回归方式生成图像Patch

它由两部分组成：

14B参数的Transformer骨干：负责理解内容、规划构图、掌控全局
157M参数的流匹配头(Flow Matching Head)：像”画笔”一样，将Transformer的创意转化为具体像素

这种架构带来的革命性变化：
✅ 无需离散化：保留了视觉数据的全部丰富性
✅ 端到端训练：不再依赖外部扩散模型”救场”
✅ 架构极度简洁：整个系统高度统一，训练更高效

一位研究者感叹：”这就像看着自家孩子终于能独立完成一幅画，不需要父母在旁边手把手指导了。”

🔬 两大技术”炼金术”：让自回归模型真正驾驭图像

阶跃星辰团队在论文中透露了两个关键发现，堪称自回归图像生成的”点金术”：

1️⃣ 真正的”艺术家”是Transformer

团队通过实验发现：流匹配头的大小(157M→528M)对最终图像质量影响极小.
这意味着：

Transformer骨干承担了90%以上的”创意工作”
流匹配头仅作为轻量级”执行者”，忠实地将创意转化为图像
自回归模型可以真正独立”思考”和”创作”

“这证明了Transformer不仅能做语言，也能成为视觉领域的艺术家。”——研究团队

2️⃣ Tokenizer的两大”魔法”

在连续视觉标记的操作中，团队发现了两个关键技巧：

通道归一化(Channel-Wise Normalization)
通过简单归一化，有效稳定了标记的统计特性。即使在最高强度的CFG引导下，也能生成无伪影的清晰图像。
“更多噪声=更好质量”
一个反直觉的发现：在训练Tokenizer时增加噪声正则化，反而显著提升了最终图像质量。
团队推测：这塑造了更鲁棒、分布更均匀的潜在空间，为自回归模型提供了理想”画布”。

🖼️ 功能展示：不只是生成，更要会”改”

NextStep-1不仅会”无中生有”地生成图像，更能听懂人类指令，像专业设计师一样精准编辑。

✅ 高保真文生图

只需一句指令，即可生成细节丰富、构图合理的图像：

“A serene lakeside at dawn, pine trees reflected in still water, mist rising from the surface, soft golden light breaking through mountain peaks in the distance, hyperrealistic photography”

✅ 全能图像编辑

物体增删::

“在咖啡桌上加一个打开的笔记本电脑，旁边放一杯冒着热气的咖啡”

背景修改::

“把这张照片的背景从办公室换成海滩日落”

动作修改::

“让图中的狗从坐着变成跳跃的姿势”

风格迁移::

“将这张照片转换为梵高风格的油画，保留所有人物和场景细节”

实测效果令人惊艳——它不仅能理解日常语言，还能保持编辑前后的视觉一致性，避免了传统方法中常见的”身份漂移”问题。

一位设计师评价：”它就像请了个全能助理，既能凭空创作，又能按你的想法精准修改。”

📊 性能数据：自回归也能挑战SOTA

在权威评测中，NextStep-1的表现令人惊喜：

评测基准	NextStep-1表现	意义
GenEval	0.73 (使用self-CoT)	超越多数自回归模型，逼近扩散模型
GenAI-Bench	高级提示0.67，基础提示0.88	复杂场景理解能力强
DPG-Bench	85.28分	长提示理解能力强
WISE	0.54总分	世界知识整合能力优异
GEdit-Bench	显著领先其他自回归模型	图像编辑能力突出

更令人振奋的是：在多项基准测试中，NextStep-1已能与顶尖扩散模型正面竞争，这在自回归架构中是前所未有的突破。

⚠️ 直面挑战：成长路上的”绊脚石”

阶跃星辰团队没有回避模型的局限，坦诚列出了四大挑战：

1️⃣ 生成过程不稳定

在高维连续空间(16通道)生成时，偶发出现：

局部噪声/块状伪影
全局噪声干扰
网格状伪影(可能与一维位置编码相关)

2️⃣ 顺序解码延迟

自回归模型的”天性”导致速度瓶颈：

14B参数Transformer顺序解码是主要瓶颈
流匹配头的多步采样也带来开销
单token生成在H100上需要约47.6ms

3️⃣ 高分辨率挑战

收敛效率低：需更多训练步数
难以迁移扩散模型的高分辨率技术
缺乏二维空间归纳偏置

4️⃣ 监督微调(SFT)困难

依赖大规模数据(百万级)才能稳定微调
小数据集上表现脆弱：要么收效甚微，要么完全过拟合
难以找到”通用能力”与”特定风格”的平衡点

团队坦言：”坦诚面对这些挑战，是推动领域前进的第一步。”

🚀 如何上手？完全开源，一键部署

阶跃星辰团队已将NextStep-1Vollständig quelloffen，对研究者和开发者极其友好，安装只需三行命令：

git clone https://github.com/stepfun-ai/NextStep-1
cd NextStep-1
pip install -r requirements.txt

团队还提供了详细教程，从基础使用到高级定制，覆盖各种应用场景。

🔮 未来展望：自回归图像生成的新纪元

NextStep-1的发布，标志着自回归图像生成进入新阶段：

架构简洁化：不再需要复杂拼凑，一个统一模型搞定
训练高效化：端到端训练，避免多阶段优化的不稳定性
能力综合化：同时擅长生成与编辑，理解自然语言指令

阶跃星辰团队透露的未来方向：

优化流匹配头：减少参数、实现少步生成
加速自回归：探索多Token预测等新技术
高分辨率生成：研发专门针对图像的二维位置编码
改进SFT：小数据高效微调技术

“这只是探索的第一步。我们相信，这条’简洁’的道路，将为多模态生成领域提供全新视角。”

🌟 Schreiben Sie am Ende des Tages.

NextStep-1的意义远不止于一款新模型，它证明了一个重要理念：
简洁的架构，也能实现强大的能力。

当我们不再执着于”拼凑最大模型”，而是回归到”如何让模型真正理解创作”的本质，AI生成技术或许会迎来新的飞跃。

“它不是要取代扩散模型，而是为图像生成提供一条新的可能路径。”——阶跃星辰团队

在这个AI技术日新月异的时代，NextStep-1提醒我们：
有时候，最革命性的创新，恰恰来自对基础范式的重新思考。

相关链接::

论文：https://arxiv.org/abs/2508.10711
代码仓库：https://github.com/stepfun-ai/NextStep-1
模型下载：https://huggingface.co/collections/stepfun-ai/nextstep-1
项目主页：https://stepfun.ai/research/en/nextstep1

Weitere Produkte finden Sie unter	Siehe mehr unter
ShirtAI - Durchdringende Intelligenz	Das AIGC Big Model: der Beginn einer Ära der doppelten Revolution in Technik und Wissenschaft - Penetrating Intelligence
1:1 Wiederherstellung von Claude und GPT Offizielle Website - AI Cloud Native	Live Match App Global HD Sports Viewing Player (empfohlen) - Blueshirt Technology
Transitdienst auf der Grundlage der offiziellen API - GPTMeta API	Hilfe, kann jemand von euch Tipps geben, wie man in GPT Fragen stellt? - Wissen
Global Virtual Goods Digital Store - Global SmarTone (Feng Ling Ge)	Wie leistungsfähig ist Claude airtfacts, dass GPT sofort nicht mehr gut riecht? -BeepBeep

Kategorien.

Werbefläche

Erleben Sie gemeinsam die Super-Magie von AI!

Machen Sie sich Ihren KI-Assistenten zu eigen und steigern Sie Ihre Produktivität mit nur einem Klick!