全网最全AI绘画Stable Diffusion关键技术解析

这篇具有很好参考价值的文章主要介绍了全网最全AI绘画Stable Diffusion关键技术解析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

背景

很多人觉得AI绘画不稳定,对于以后是否替代插画师,摄影工作者,设计师,表示存疑,作为AI从业者本文从AI绘画关键技术分析,明白以前生产者肯定会被淘汰,现在没有到达黄金期。

技术一定会让更多人失业,而我们拥抱变化,增强自身。

AI绘画中Stable Diffusion 占领开源方案9成以上。 Stable Diffusion(稳定扩散)是一种先进的深度学习模型,用于生成高质量的图像。它的关键技术包括多个版本演化、VAE(变分自编码器)、UNet架构、CLIP文本编码器、分类器引导技术、以及注意力机制等。

版本演化

全网最全AI绘画Stable Diffusion关键技术解析,gpt,AI作画,stable diffusion,ai,aigc,AI绘画,sdxl,sd
“improved aesthetics” 主要指这次升级提升了 Stable Diffusion 在图像质量和艺术风格上的表现,使其生成的图像更富艺术感和审美价值。

5plus 指的是 Stable Diffusion 模型的配置版本

  • SD 1.1:首个版本,提出improved aesthetics,优化图像质量,使用4plus模型配置。

  • SD 1.2:引入大数据集LAION-2B进行训练,提高了图像质量,使用5plus模型配置。

  • SD 1.3:过渡版本

  • SD 1.4:在图像生成效果上有较大提升,训练迭代次数增加到195000步。

  • SD 1.5:继续改进美学效果,使用5plus模型,训练达到225000步,可以生成更高质量图片。

全网最全AI绘画Stable Diffusion关键技术解析,gpt,AI作画,stable diffusion,ai,aigc,AI绘画,sdxl,sd

  • SD2.0:
    这是Stable Diffusion的一个主要版本。
    它在之前版本的基础上实现了显著的改进,特别是在图像的美学质量和生成模型的细节上。

  • SD2.1:
    这个版本进一步优化了之前版本的特性。
    强调了更有效的文本编码器,使用了更先进的CLIP版本,生成的图像与文本提示的一致性和相关性有所提升。

  • SD变种:
    这可能是Stable Diffusion的一个变体版本,具有特殊的属性或针对特定应用场景的优化。

  • SDXL:
    这是Stable Diffusion的一个扩展版本。
    演化更大的模型(比如使用了更大的UNet),或者训练了更广泛的数据集。
    强调了CLIP文本编码器和VAE的改进,提供了更准确的文本到图像的转换能力。

Stable Diffusion 2.x系列:

SD 2.0:基于CompVis模型,提升细节生成能力。
SD 2.1:引入Hypernetwork,支持无限分辨率生成。

SD 的演化过程中,最主要的变化就是模型结构和训练数据的变化。SD1.x 系列,大多数是在 SD1.2 的基础上继续微调得到的,包括我们使用最多的 SD1.4 和 SD1.5 模型;SD2.x 系列则是新开的故事线,使用了全新的模型结构。

结构关系

全网最全AI绘画Stable Diffusion关键技术解析,gpt,AI作画,stable diffusion,ai,aigc,AI绘画,sdxl,sd
全网最全AI绘画Stable Diffusion关键技术解析,gpt,AI作画,stable diffusion,ai,aigc,AI绘画,sdxl,sd

VAE(变分自编码器)

在Stable Diffusion (SD) 技术中,VAE 起到了关键的作用。原始的扩散模型,虽然在生成图像方面表现出色,但存在两个主要限制:

  • 一是它不能直接从文本提示(prompt)生成图像,而是从纯噪声开始,其生成过程不可控且随机性较大;

  • 二是它直接在图像空间进行加噪和去噪,这在处理高分辨率图像时需要消耗大量的计算资源,尤其是显存。

VAE 作用:

  • 将扩散过程从图像空间转移到潜在空间。VAE的编码器可以将图像压缩为潜在空间的向量表示,在潜在空间进行扩散过程,再通过解码器恢复图像,这样可以大大提高计算效率。

  • 压缩图像表示。通过VAE的编码器可以获得压缩后的图像向量表示,相比原始图像大大减少了计算和存储成本。

  • 提高图像生成质量。VAE的编码-解码结构具有一定的去噪效果,可以生成更高质量的图像。

VAE详细文章

UNet架构

UNet主要通过其跨尺度的上下文学习和精确的像素预测,提供了高质量和高分辨率的图像生成能力。

UNet详细文章

CLIP文本编码器

CLIP通过跨模态的图像文本表示,为Stable Diffusion提供了精确的条件图像生成和语义一致的图像编辑能力。

CLIP详细文章

文本引导原理探秘

现在主流AI绘画模型,文本引导图像生成的过程采用了无分类器引导(Classifier Free Guidance)

原始的扩散模型从随机噪声出发,并不能用文本控制内容。于是,OpenAI 在论文中便提出了有分类器引导。

利用预训练的分类模型对生成的中间结果进行识别和评估,得到当前图像的分类信息,然后将该信息反馈回生成模型,引导其生成符合期望类别的图像。
全网最全AI绘画Stable Diffusion关键技术解析,gpt,AI作画,stable diffusion,ai,aigc,AI绘画,sdxl,sd

算法1:分类器引导的扩散采样

这个算法描述了如何使用分类器来引导扩散模型的采样过程。它的步骤如下:

  1. 输入是一个类别标签 y和一个梯度尺度 s 。
  2. 从标准正态分布 N ( 0 , I ) \mathcal{N}(0, I) N(0,I) 中采样一个向量 x T x_T xT 作为开始。
  3. 通过迭代过程,从 ( T ) 到 1 对 x t x_t xt进行采样,其中 ( T ) 是总的时间步数。
  4. 在每一步 ( t ),利用扩散模型 μ θ ( x t ) \mu_{\theta}(x_t) μθ(xt) Σ θ ( x t ) \Sigma_{\theta}(x_t) Σθ(xt) 来计算均值 μ \mu μ和方差 Σ \Sigma Σ
  5. 然后使用分类器 p ϕ ( y ∣ x t ) p_{\phi}(y|x_t) pϕ(yxt) 对 ( x_t ) 的梯度 ∇ x t log ⁡ p ϕ ( y ∣ x t ) \nabla_{x_t} \log p_{\phi}(y|x_t) xtlogpϕ(yxt) 进行加权,通过尺度 ( s ) 来调整这个梯度。
  6. 最后,从条件分布 N ( μ + s Σ ∇ x t log ⁡ p ϕ ( y ∣ x t ) , Σ ) \mathcal{N}(\mu + s \Sigma \nabla_{x_t} \log p_{\phi}(y|x_t), \Sigma) N(μ+sΣxtlogpϕ(yxt),Σ)中采样 x t − 1 x_{t-1} xt1
  7. 这个过程重复直到 ( t=0 ),最后返回 x 0 x_0 x0 作为生成的图像。

算法2:分类器引导的DDIM采样

DDIM(Denoising Diffusion Implicit Models)是一种扩散模型的变体,它允许更快的采样过程。这个算法使用分类器引导来执行DDIM采样。它的步骤如下:

  1. 输入和算法1相同。
  2. 同样从标准正态分布中采样一个向量 x T x_T xT 作为开始。
  3. 通过迭代过程,从 T 到 1 对 x t x_t xt 进行采样。
  4. 在每一步 ( t ),使用 ϵ θ ( x t ) \epsilon_{\theta}(x_t) ϵθ(xt) 来计算噪声,然后用分类器 p ϕ ( y ∣ x t ) p_{\phi}(y|x_t) pϕ(yxt)来引导这个噪声的方向。
  5. 使用这个引导的噪声来更新 x t x_t xt 并采样 x t − 1 x_{t-1} xt1
  6. 这个过程重复直到 t=0,最后返回 x 0 x_0 x0

通过这两种算法,分类器引导的扩散模型可以生成更符合类别标签 ( y ) 的图像。

这种方法对于条件图像生成来说是非常有效的,因为它可以引导生成过程朝着满足特定条件的方向发展。在实践中,

这意味着可以生成更符合用户需求的定制化图像。

采样器

注意力机制

  1. SD 模型基于潜在扩散模型,通过变分自编码器实现从图像空间到潜在空间的压缩和扩展。
  2. 利用 CLIP 等模型的文本编码器,将文本转化为文本表征,并通过交叉注意力机制将文本信息融入图像生成过程。
  3. SD 的扩散模型是一个大规模的 UNet,在编码器部分使用了多个带交叉注意力的 CADB 模块。
  4. CADB 模块包含自注意力模块和交叉注意力模块,实现文本表征与图像特征的交互。
  5. 文本表征通过交叉注意力计算 K、V 向量,与自注意力模块的 Q 向量结合,实现文本信息的注入。
  6. 时间步编码直接作用于 CADB 模块中的 ResnetBlock,与文本表征共同引导图像生成。
  7. 通过调节采样步数和 CFG Scale,可以控制生成图像与文本提示的匹配程度。

全网最全AI绘画Stable Diffusion关键技术解析,gpt,AI作画,stable diffusion,ai,aigc,AI绘画,sdxl,sd

图生图 Negative Prompt 和 CLIP Skip

解密Negative Prompt 作用

反向描述词可以避免模型生成不想要的内容,起到负样本的作用。
将无条件预测中的空字符串替换为反向描述词,告诉模型应避免生成什么内容。

最终噪声 = w * 条件预测 + (1 - w) * 反向描述词预测

通常我们的引导权重大于 1,比如取 7.5 这个数值,使用反向描述词便可以引导模型避免生成我们不想要的内容。

解密 CLIP Skip = 2 作用

使用CLIP文本编码器的倒数第二层而不是最后一层特征。
最后一层特征可能丢失语义信息,因为CLIP通过成对数据训练,图文不总对应。

倒数第二层特征更接近原始文本语义,可以让模型更听话。(经验值)

结语

以上内容从底层角度把Stable Diffusion介绍完,相信也知道AI绘画刚起步,为了各个模块规模和优化有很多路要走。

AI生成一定会淘汰更多生产者,拥抱使用AI,提升竞争能力。

我是dlimeng,独立开源软件开发者,SolidUI作者,对于新技术非常感兴趣,专注AI和数据领域,如果对我的文章内容感兴趣,请帮忙关注点赞收藏,谢谢!文章来源地址https://www.toymoban.com/news/detail-771334.html

到了这里,关于全网最全AI绘画Stable Diffusion关键技术解析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 一文教会你使用AI绘画利器Stable Diffusion!这可能是CSDN最全的AI绘画使用教程,建议收藏!

    一文教会你使用AI绘画利器Stable Diffusion!这可能是CSDN最全的AI绘画使用教程,建议收藏!

    大家好,我是程序员晓晓 随着 stable-diffusion 的开源,让更多人有机会直接参与到 AI 绘画的创作中,相关的教程也如雨后春笋般的出现。可是目前我看到的教程同质性较高,通常只能称作为\\\"使用流程讲解\\\",但是通常没有对其原理和逻辑进行深入说明。 所以本文的目的,是用

    2024年01月25日
    浏览(14)
  • Stable Diffusion 提示词解析|AI绘画

    玩了很久的SD,感觉已经没有一开始的激情了,最近有幸看到了几篇关于提示词的指导文章,突然感觉又发现了新大陆,整理后供大家一起学习。 好的提示词应该包含如下几个模块: Anatomy of a good prompt 解析好的提示词 Subject (required) 主题 Medium 媒介 Style 风格 Artist-Website Art-

    2024年02月01日
    浏览(15)
  • AI绘画stable diffusion webui汉化教程,参数解析以及界面介绍

    上期图文教程,我们分享了stable diffusion webui项目的安装操作,由于stable diffusion webui项目是英文项目,且里面涉及到很多设置与参数,这样针对stable diffusion webui项目的汉化操作就显得尤其重要了,本期,我们介绍一下stable diffusion webui的汉化操作与基础参数的含义。 stable dif

    2024年02月04日
    浏览(12)
  • 深度解析丨AI绘画Stable Diffusion如何实现模特精准换装以及如何替换模特

    深度解析丨AI绘画Stable Diffusion如何实现模特精准换装以及如何替换模特

    一、前言 来了来了,之前给大家承诺的模特换装教程它来了!本篇教程主要运用StableDiffusion这个工具来进行操作,下面会通过几个小案例,给大家展示不同需求下,我们该如何使用StableDiffusion来辅助我们完成服装效果展示。本教程适用于电商设计场景、摄影场景等多个运用人

    2024年04月15日
    浏览(17)
  • Stable Diffusion 保姆级教程!全网最新最全!小白必备!

    Stable Diffusion 保姆级教程!全网最新最全!小白必备!

    ** Stable Diffusion无疑是最近最火的AI绘画工具之一,所以本期给大家带来了全新Stable Diffusion 保姆级教程资料包(文末可获取) 2022年绝对是人工智能爆发的元年,前有 stability.ai 开源 Stable Diffusion 模型,后有 Open AI 发布 ChatGPT,二者都是里程碑式的节点事件,其重要性不亚于当

    2024年02月03日
    浏览(12)
  • 全网最全stable diffusion图生图教程!!!小白必收藏!!!!

    全网最全stable diffusion图生图教程!!!小白必收藏!!!!

    手把手教你入门绘图超强的AI绘画程序Stable Diffusion,用户只需要输入一段图片的文字描述,即可生成精美的绘画。给大家带来了全新Stable Diffusion保姆级教程资料包(文末可获取) 1.1 传统意义上的喂参考图 我们都知道,模型在运算时是根据我们提供的提示内容来确定绘图方向

    2024年01月16日
    浏览(12)
  • AI绘画与多模态原理解析:从CLIP到DALLE 3、Stable Diffusion、MDJ

    AI绘画与多模态原理解析:从CLIP到DALLE 3、Stable Diffusion、MDJ

    终于开写本CV多模态系列的核心主题:stable diffusion相关的了,为何执着于想写这个stable diffusion呢,源于三点 去年stable diffusion和midjourney很火的时候,就想写,因为经常被刷屏,但那会时间错不开 去年11月底ChatGPT出来后,我今年1月初开始写ChatGPT背后的技术原理,而今年2月份

    2024年02月05日
    浏览(11)
  • 【ai绘画】全网最全Midjourney新手指南!!!

    【ai绘画】全网最全Midjourney新手指南!!!

    手把手教你入门绘图超强的AI绘画程序Midjourney,用户只需要输入一段图片的文字描述,即可生成精美的绘画。下面是Midjourney注册和使用的方法。给大家带来了全新保姆级教程资料包 Midjourney 是除 Disco Difussion 和 Dall·E 2 之外又一个比较优秀的 AI 图像生成器,它综合能力全面,

    2024年01月21日
    浏览(13)
  • 全是干货!全网最全AI绘画提示词使用技巧

    全是干货!全网最全AI绘画提示词使用技巧

    上一篇我们介绍了一些有代表性的各种风格提示词的写作技巧,接下来我们介绍一些能显著提高画质的魔法提示词。 提高画质的魔法提示词: HDR, UHD, 64K 像HDR、UHD、4K、8k和64K这样的表示高质量的词可以产生巨大的画质提升。 Highly detailed 像高度详细这样的高质量的词可以让画

    2024年04月09日
    浏览(14)
  • AI绘画必看,一次弄懂所有技术名词 | Stable Diffusion、Midjourney、Dall-E 、Lora、ControlNet……

    AI绘画必看,一次弄懂所有技术名词 | Stable Diffusion、Midjourney、Dall-E 、Lora、ControlNet……

    前言 一、文生图(Text-to-Image)技术  Stable Diffusion(稳定扩散)算法介绍 Dall-E 算法介绍 二、AI 绘图工具介绍 Midjourney 介绍 Dall-E 介绍 Stable-Diffusion-WebUI 介绍 NovelAI 介绍 NovelAI的使用方法 Disco Diffusion 介绍 其他AI绘图软件介绍 NijiJourney Waifu Diffusion Leonardo AI、BlueWillow AI、Playgro

    2024年02月11日
    浏览(20)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包