10月22日,Stability AI公司发布了其最新的AI图像生成模型——Stable Diffusion 3.5。这一新模型的推出,不仅代表了技术上的一次飞跃,也为广泛的用户群体提供了更为强大和灵活的图像生成工具,让我们来看看大家期待已久的SD新模型怎么样?
模型介绍
Stable Diffusion 3.5包含三个不同版本,分别是:
Stable Diffusion 3.5 Large
– 参数量:8B
– 特点:这是Stable Diffusion系列中最强大的模型,具有卓越的质量和快速响应能力,非常适合1百万像素分辨率的专业应用场景。
Stable Diffusion 3.5 Large Turbo
– 参数量:8B(蒸馏版)
– 特点:一句话来说就是快!仅需4个步骤即可生成高质量图像,速度明显快于Large版本
Stable Diffusion 3.5 Medium
– 参数量:2.5B
– 特点:采用改进的MMDiT-X架构和训练方法,旨在能够在消费级硬件上“开箱即用”,平衡质量和易于定制,能够生成分辨率在0.25到2百万像素之间的照片。该版本将于10月29日发布。
模型开发与特点
在开发这些模型时,Stability AI优先考虑了可定制性,以提供灵活的构建基础。他们将Query-Key Normalization集成到transformer块中,稳定了模型训练过程并简化了进一步的微调和开发。
为了支持下游灵活性,Stability AI还做出了一些权衡。例如,使用不同种子的同一提示可能会产生很大的输出差异,这是有意为之,因为它有助于在基础模型中保留更广泛的知识库和多样化的风格。不过,缺乏特异性的提示可能会导致输出不确定性增加,并且美学水平可能会有所不同。
模型的优势
Stable Diffusion 3.5在以下多个方面表现出色:
– 可定制性:轻松微调模型以满足特定创作需求,或根据定制的工作流程构建应用程序。
– 高效性能:经过优化,均可在标准消费级硬件上运行,尤其是Stable Diffusion 3.5 Medium和Stable Diffusion 3.5 Large Turbo型号。
– 多样化输出:无需大量提示,即可创建代表全世界的图像,而不仅仅是一种肤色和特征的人。
风格多样:能够生成各种风格和美感,如 3D、摄影、绘画、线条艺术以及几乎任何可以想象的视觉风格。
社区许可
Stability AI为此次3.5版本的发布实施了一项相当宽松的社区许可:
– 非商业用途免费:个人和组织可以免费使用模型进行非商业用途,包括科学研究。
– 商业用途免费(年收入低于100万美元):初创公司、中小型企业和创作者可以免费使用模型进行商业用途,只要其年收入低于100万美元。
– 输出所有权:保留生成媒体的所有权,无需担心限制性许可问题。
体验链接:https://huggingface.co/spaces/stabilityai/stable-diffusion-3.5-large
模型官网:https://stability.ai/news/introducing-stable-diffusion-3-5