刚刚，Stable Diffusion 3.5重磅开源，文生图模型霸主归来！

2024-10-23 09:00:14

声明:本文来自于微信公众号 AIGC开放社区，作者:AIGC开放社区，授权站长之家转载发布。

著名大模型开源平台Stability AI，开源了超强文生图模型——Stable Diffusion3.5。

Stable Diffusion3.5一共有Large、Large Turbo和Medium三个版本，可根据不同的商业环境提供高度定制功能，同时对这些模型进行了大幅度优化可在消费级GPU就能轻松推理运行。

开源地址:https://huggingface.co/stabilityai

Github:https://github.com/Stability-AI/sd3.5

今年6月Stability AI首次开源了Stable Diffusion3Medium，但效果未达到预期，在听取了社区用户的反馈后，Stability AI花费大量时间进一步开发，便有了最新的3.5版本。

Large、Turbo、Medium简单介绍

在这次发布中，Stable Diffusion3.5提供了多种模型，以满足不同用户群体的需求。Stable Diffusion3.5Large模型拥有80亿参数，提供了卓越的图片质量和高度文本语义还原，是Stable Diffusion家族中最强大的模型，非常适合专业使用，尤其是在100万像素分辨率的图片。

而Stable Diffusion3.5Large Turbo模型则是一个蒸馏版本，它能够在仅仅4步之内生成高质量的图像，并且对提示的遵循性非常好，速度比Stable Diffusion3.5Large快得多。

Stable Diffusion3.5Medium模型将在10月29日发布，这个模型有25亿参数，采用了改进的MMDiT-X架构和训练方法，能在消费级硬件上即开即用，可生成0.25—200万像素之间生成图像，兼顾了质量和易定制性。

在开发这些模型的过程中，Stability AI优先考虑了可定制性，提供了一个灵活的基础来构建。

将Query-Key归一化集成到了变换器块中，这不仅稳定了模型训练过程，还简化了进一步的微调和开发。

为了支持这种下游的灵活性，Stability AI不得不做出一些权衡，例如，同一个提示使用不同种子可能会产生更大的输出变化，这是有意为之的，以帮助在基础模型中保留更广泛的知识库和多样化的风格。

此外，Stable Diffusion3.5在可定制性、高效的性能以及多样化的输出方面表现出色，使其成为市场上最可定制和最易访问的文生图像模型之一，同时在提示遵循性和图像质量方面保持了顶级性能。

TAGS:

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源;
2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任;
3.作者投稿可能会经我们编辑修改或补充。