截至 2024 年 5 月,已发布 20 多个Stable Diffusion
了解稳定扩散模型的演变(图片由Edmond Yip生成)
稳定扩散模型在短短两年内已经发布了多个版本。最著名的版本是1.5
和SDXL
。然而,还有许多其他版本值得一提。让我们来探索一下稳定扩散模型的起源和发展。
缺乏稳定扩散版本 1.0
Stable Diffusion 的最早版本是1.1
。它由 CompVis 而非 Stability AI 发布。有趣的是,Stable Diffusion 从未有过版本1.0
。最初的模型称为Latent Diffusion,它由 CompVis 开发,包括文本转图像和修复功能。该模型本质上就是 Stable Diffusion 1.0
。但是 Latent Diffusion 在演变为 Stable Diffusion 时没有进行进一步的更新。
潜伏扩散
稳定扩散 1.1, 1.2, 1.3, 1.4
2022 年 8 月,CompVis 迅速发布了四个版本的 Stable Diffusion。每个后续版本都涉及更多训练步骤,从而提高输出质量。
- 稳定扩散 1.1
- 在分辨率下训练了 237,000 步
256x256
,在 512×512 分辨率下训练了 197,000 步。 - 稳定扩散 1.2使用laion-improved-aesthetics 数据集以
- 515,000 步的分辨率进行。
512x512
- 稳定扩散 1.3
- 对进行了改进
1.2
,分辨率为 195,000 步512x512
,文本条件减少了 10%。 - 稳定扩散 1.4
- 也基于
1.2
,但使用分辨率为 225,000 步512x512
和 laion-aesthetics v2 5+ 数据集进行训练,并进行类似的文本条件减少。
稳定扩散 1.5
RunwayML 于 2022 年 10 月发布了稳定版 Diffusion 1.5,成为微调最广泛使用的版本。
- 稳定扩散 1.5
- 此版本是对的增强,使用 laion-aesthetics v2 5+ 数据集
1.2
以 595,000 步的分辨率进行训练。512x512
稳定扩散 2.0 和 2.1
2022 年 11 月,Stability AI 发布了 Stable Diffusion 2.0
,2.1
12 月发布了。尽管这些模型规模较大,但它们的受欢迎程度却不如前者,1.5
并且扩展支持有限。
- 稳定扩散 2.0
- 最初以 550,000 步的
256x256
分辨率进行训练,然后以 850,000 步的512x512
分辨率进行训练,并使用 v-objective 以 150,000 步的768x768
分辨率进一步细化。 - 稳定扩散 2.1
- 的微调版本
2.0
,增加了 55,000 个步骤和额外的 155,000 个细化步骤。
稳定扩散 2
稳定扩散 XL (SDXL)
SDXL 于 2023 年 6 月发布,与之前的版本相比有了显著的改进。它以 600,000 步的256x256
分辨率和 200,000 步的512x512
分辨率进行训练。SDXL 擅长生成高达1024x1024
像素的图像,并支持 LoRA 和 ControlNet。
- 稳定扩散 XL 0.9 基础/精炼器
- 与最终版本相比质量较低的预览版本。
- 稳定的 Diffusion XL 1.0 基础/精炼器
- 正式发布,具有卓越的文本理解和图像生成功能。
- 稳定扩散 XL Beta 2.2.2
- 此模型仅通过稳定性 AI 开发者平台的 v1 API 独家提供。设置
engine_id
为即可stable-diffusion-xl-beta-v2-2-2
使用它。此版本是 SDXL 模型的微调迭代,提供了比其前身更好的增强功能。 - Stable Image Core
- 该模型仅可通过 Stability AI 开发者平台上的 v2 API 访问。根据官方文档,它是 SDXL 的微调版本,旨在提高性能。
超大尺寸
稳定扩散 1.6
Stable Diffusion1.6
是一个相对不为人知的版本,因为它不是一个开源模型。它于 2023 年 11 月在 Stability AI 开发者平台上发布。它仅通过 Stability AI 开发者平台的 v1 API 提供(最新 API 版本为 v2)。
- Stable Diffusion 1.6
- 此版本是 Stable Diffusion 的微调更新
1.5
,据说可以产生比其前身更高质量的图像。
稳定扩散 1.6
SDXL Turbo
2023 年 11 月,SDXL Turbo 推出,利用潜在一致性模型 (LCM) 将生成步骤从通常的 30~40 个步骤减少到仅 1~4 个步骤。
- SDXL Turbo
- 使用对抗扩散蒸馏 (ADD) 来最小化步骤,但仅限于生成
512x512
清晰度略低的图像。 - SD Turbo
- 是 Stable Diffusion 的 Turbo 版本
2.1
,尽管它仍然不太受欢迎。
SDXL Turbo
稳定视频扩散 (SVD)
Stability AI 于 2023 年 11 月推出了 SVD,能够从单个图像生成短动画,而不会出现闪烁问题。
稳定的视频传播
稳定的 Zero123
Stable Zero 123 于 2023 年 12 月发布,专注于从单个图像生成 3D 物体,提供包括物体背面在内的多个视图。
- 稳定的 Zero123在Zero123
- 上进行训练,与前代产品相比,效果有所改进。
稳定的 Zero123
稳定扩散级联
2024 年 2 月,Stability AI 推出了 Stable Diffusion Cascade,它使用三阶段生成过程(ABC 阶段)来提高效率,生成高质量的图像。
- 稳定的扩散级联
- 以更好的性能和多功能性超越 SDXL,无需大量微调即可产生各种风格。
稳定扩散级联
SDXL 闪电
SDXL Lightning 在 SDXL Turbo 之后不久首次亮相,提供更快的生成时间和高质量的结果,因其效率而受到许多开发人员的青睐。
- SDXL Lightning
- 结合 SDXL 和先进技术,通过 1-8 个步骤传送图像,并与 LoRA 和 Unet 集成以增强性能。
SDXL 闪电
稳定扩散 3
Stable Diffusion 3 于 2024 年 2 月进行预览,并于 2024 年 4 月通过 API 发布,是 Stability AI 的非开源模型,这引发了人们对其未来可访问性的质疑。
- Stable Diffusion 3
- Stable Diffusion 3 仅通过 Stability AI 开发者平台的 API 提供。该模型在图像质量方面超越了所有以前的版本,并提供了强大的文本识别功能。它代表了 Stable Diffusion 系列的最新进展,为各种图像生成任务提供了卓越的性能。
- Stable Diffusion 3 Turbo
- 与 API 一同发布,Stable Diffusion 3 Turbo 版本提供与 Stable Diffusion 3 相同的出色功能,但图像生成速度明显更快。此版本专为需要快速获得结果且不影响 Stable Diffusion 3 提供的高质量和强大文本识别能力的用户而设计。
稳定扩散 3
稳定的 3D 视频
2024 年 3 月,Stability AI 推出了 Stable Video 3D,它可以通过单张图像创建 360 度可旋转的动画。
- 稳定的 3D 视频
- 可以从静态图像生成 21 帧像素
576x576
动画,为动画渲染提供了新的维度。
稳定的 3D 视频
Cos 稳定扩散 XL
Cos Stable Diffusion XL 于 2024 年 4 月发布,采用独特的微调方法,无需蒙版或 ControlNet 即可生成纯黑白图像并进行修复。
- Cos Stable Diffusion XL 1.0
- SDXL 的微调版本。
- Cos Stable Diffusion XL 1.0 编辑
- 专门使用提示进行修复。
我创建了一个列表来显示截至 2024 年 5 月的稳定扩散的所有版本。它应该比你想象的要多得多,因为你甚至在wiki中都找不到这些版本。
结论
截至 2024 年 5 月,稳定版 Diffusion 已发布 20 多个版本。每个版本都带来独特的功能和改进,满足各种用户需求。您最喜欢哪个版本?