Latent Diffusion(CVPR2022 oral)-论文阅读

这篇具有很好参考价值的文章主要介绍了Latent Diffusion(CVPR2022 oral)-论文阅读。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。


论文: 《High-Resolution Image Synthesis with Latent Diffusion Models》
github: https://github.com/CompVis/latent-diffusion

摘要

为了使得DM在有限计算资源下训练,同时保留其生成质量及灵活性,作者将其应用于预训练编解码器的隐空间。基于表征训练扩散模型达到降低计算量及细节保留的最优点。作者引入cross-attention层,增强DM生成能力,在图像修复、条件图像生成、文本图像生成、无条件图像生成、超分取得新SOTA。

背景

扩散模型 VS. GAN
优点:扩散模型不存在GAN中模式坍塌以及训练不稳定问题
缺点:扩散模型训练(150 - 1000 V100 days)及推理(50k samples 5 days a A100)成本大;
现有扩散模型训练分为两阶段:
1、感知压缩阶段:移除高频信息但仍学到语义变化
2、生成模型学习语义压缩过的数据的语义和概念组成
作者训练自编码器提供低维表征空间,其余数据空间感知上等价。隐空间复杂度降低使得可通过简单网络进行高效图像生成。

本文贡献如下:
1、跟纯Transformer方法相比,本文方法更适用于高维数据,因此可以在压缩维度上提供逼真的细节重构,可以生成高分辨率图片;
2、在无条件图像生成、图像修复、超分领域达到有竞争力的表现,同时显著降低计算成本;
3、不需要精细调整模型重构及生成权重;
4、对于超分、图像修复等密集任务,本模型可以生成1024*1024分辨率图片;
5、基于cross-attention设计条件机制,可用于跨模态训练,比如类别条件、文本到图像生成、layout到图像

算法

为了降低计算量,作者将压缩与生成训练阶段分离,具体的:使用autoencoding模型学习感知上等价于图像空间的隐空间,降低计算复杂性。
该方法有以下好处:
1、扩散模型在低维空间采样,计算更加高效;
2、使用扩散模型从UNet结构获得的归纳偏置,对于有空间结构数据格外有效;
3、通用压缩模型的隐空间可用于训练多种生成模型用于其他采样应用。

3.1. Perceptual Image Compression

通过感知损失及基于patch的对抗损失训练autoencoder;
具体而言,对于图像 x ∈ R H × W × 3 x \in R^{H×W×3} xRH×W×3,编码器 ε \varepsilon ε 将其编码进隐空间 z ∈ R h × w × c z \in R^{h×w×c} zRh×w×c,解码器基于隐空间重构图像为 x ~ \tilde x x~
为避免隐空间高方差,作者使用两种不同正则化方法:
KL-reg,在可学习隐空间对标准归一化增加KL惩罚;
VQ-reg,在decoder中使用量化层;
隐空间z为二维结构,具有相对温和压缩率,达到更好重构效果。

3.2. Latent Diffusion Models

去噪自编码器 ϵ θ ( x t , t ) \epsilon_θ(x_t, t) ϵθ(xt,t),用于预测step t去噪后变体或者说所增加噪声,扩散模型目标函数如式1.
Latent Diffusion(CVPR2022 oral)-论文阅读
与高维像素空间相比,隐空间更适合基于似然估计的生成模型,因为:
1、关注数据重要语义信息;
2、在低维、计算高效空间训练;
隐空间扩散目标函数如式2,
Latent Diffusion(CVPR2022 oral)-论文阅读

3.3. Conditioning Mechanisms

为了将DM转变为灵活有条件图像生成器,通过交叉注意力机制(高效学习各种各样输入模态)增强潜在UNet主干。为了预处理输入条件y,作者通过特定编码器 τ θ τ_θ τθ将y映射为中间表征 τ θ ( y ) τ_θ(y) τθ(y),通过cross-attention层将其映射到UNet中间层,其中 φ i ( z t ) \varphi_i(z_t) φi(zt)为UNet中间表征,
Latent Diffusion(CVPR2022 oral)-论文阅读
有条件LDMM如图3所示,
Latent Diffusion(CVPR2022 oral)-论文阅读
基于图像条件对,学习有条件LDM,如式3,
Latent Diffusion(CVPR2022 oral)-论文阅读

实验

4.1. On Perceptual Compression Tradeoffs

图6表明低降采样率导致训练慢;过高降采样率导致失真。LDM-{4-16}在效率及感知真实性达到较好平衡;
Latent Diffusion(CVPR2022 oral)-论文阅读
图7表明LDM-{4-8}提供最佳生成高质量结果的条件;
Latent Diffusion(CVPR2022 oral)-论文阅读

4.2. Image Generation with Latent Diffusion

对于无条件生成256*256分辨率图像,表1表明在CelebA-HQ数据集达到SOTA,5.11;
Latent Diffusion(CVPR2022 oral)-论文阅读
图4展示生成结果
Latent Diffusion(CVPR2022 oral)-论文阅读

4.3. Conditional Latent Diffusion

表2表明在MS-COCO数据集文本引导图像生成任务,LDM使用较少参数,但是与最近扩散模型及自回归方法达到相近性能。LDM-KL-8-G表示classifier-free diffusion guidance
Latent Diffusion(CVPR2022 oral)-论文阅读
表3表明在ImageNet数据集基于类别有条件的图像生成任务,LDM超越SOTA方法ADM
Latent Diffusion(CVPR2022 oral)-论文阅读
图9表明即使在输入为256*256分辨率,也可生成高分辨率图像;
Latent Diffusion(CVPR2022 oral)-论文阅读

4.4. Super-Resolution with Latent Diffusion

表4表明LDM在LDDM-SR领域取得更佳效果;
Latent Diffusion(CVPR2022 oral)-论文阅读
表5表明LDM在FID上超越SR3,但是在IS上SR3更佳;
Latent Diffusion(CVPR2022 oral)-论文阅读

4.5. Inpainting with Latent Diffusion

表6展示在分辨率 256 ∗ 256 256*256 256256 512 ∗ 512 512*512 512512训练及抽样的吞吐量;
Latent Diffusion(CVPR2022 oral)-论文阅读
表7表明LDM在FID上优于LAMA,LPIPS上略差与LAMA。
Latent Diffusion(CVPR2022 oral)-论文阅读

限制

1、虽然LDM与基于像素空间扩散方法相比,降低计算需求,但仍慢于GAN。
2、LDM在像素空间精度准确难以实现;

结论

作者提出的LDM在不降低质量情况下,大幅提升扩散模型训练及采样效率。在多个有条件图像生成领域,不需要特定任务结构基于cross-attention有条件机制即可达到SOTA或接近SOTA效果。文章来源地址https://www.toymoban.com/news/detail-502272.html

到了这里,关于Latent Diffusion(CVPR2022 oral)-论文阅读的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 【论文阅读】Latent Consistency Models (LDMs)、LCM-LoRa

    【论文阅读】Latent Consistency Models (LDMs)、LCM-LoRa

    提出 Latent Consistency Models (LCMs) ,图像生成速度更快、质量更好. 提出一种简单高效的 one-stage guided consistency distillation 方法,用极少的采样步数蒸馏 Stable Diffusion ,进一步提出 skipping-step 技术加快收敛过程. 介绍针对 LCMs 的微调方法. 使用 empirical PF-ODE 表示模型的逆扩散过程:

    2024年01月16日
    浏览(11)
  • 【AI绘图学习笔记】Latent Diffusion Model(上)——论文解读

    【AI绘图学习笔记】Latent Diffusion Model(上)——论文解读

    gihub代码 论文-Arxiv-High-Resolution Image Synthesis with Latent Diffusion Models 参考视频:【渣渣讲课】试图做一个正常讲解Latent / Stable Diffusion的成年人 中文翻译论文(这篇翻译得很好) 我们来看一些主要的生成模型: 第一个GAN生成对抗网络,可以分为判别器和生成器两个部分,总体思想

    2024年02月07日
    浏览(8)
  • CVPR 2022: 图像分割论文大盘点

    CVPR 2022: 图像分割论文大盘点

    本文盘点了CVPR 2022 目前为止的2D图像分割相关论文,包含语义分割和实例分割,总计22篇论文,值得学习。 (1) ReSTR: Convolution-free Referring Image Segmentation Using Transformers 论文:https://arxiv.org/pdf/2203.16768.pdf 代码:暂无 (2) Bending Reality: Distortion-aware Transformers for Adapting to Panoramic Sema

    2024年02月12日
    浏览(46)
  • 【论文简介】Stable Diffusion的基础论文:2112.High-Resolution Image Synthesis with Latent Diffusion Models

    【论文简介】Stable Diffusion的基础论文:2112.High-Resolution Image Synthesis with Latent Diffusion Models

    稳定扩散生成模型(Stable Diffusion)是一种潜在的文本到图像扩散模型,能够在给定任何文本输入的情况下生成照片般逼真的图像 Stable Diffusion 是基于 latent-diffusion 并与 Stability AI and Runway合作实现的 paper: High-Resolution Image Synthesis with Latent Diffusion Models 本论文代码 :https://github.co

    2024年02月08日
    浏览(12)
  • TPS Motion(CVPR2022)视频生成论文解读

    TPS Motion(CVPR2022)视频生成论文解读

    论文: 《Thin-Plate Spline Motion Model for Image Animation》 github: https://github.com/yoyo-nb/Thin-Plate-Spline-Motion-Model 问题: 尽管当前有些工作使用无监督方法进可行任意目标姿态迁移,但是当源图与目标图差异大时,对当前无监督方案来说仍然具有挑战。 方法: 本文提出无监督TPS Motio

    2023年04月11日
    浏览(51)
  • 【论文阅读】CVPR2023 IGEV-Stereo

    【论文阅读】CVPR2023 IGEV-Stereo

    【cvhub导读】【paper】【code_openi】 代码是启智社区的镜像仓库,不需要魔法,点击这里注册 1️⃣现有主流方法 基于代价滤波的方法 和 基于迭代优化的方法 : 基于 代价滤波 的方法可以在cost volume中编码足够的 非局部几何和上下文信息 ,这对于具有挑战性的区域中的视差预

    2024年02月07日
    浏览(51)
  • 【视频异常检测】Delving into CLIP latent space for Video Anomaly Recognition 论文阅读

    【视频异常检测】Delving into CLIP latent space for Video Anomaly Recognition 论文阅读

    中文题目:视频异常识别的CLIP潜在空间研究 文章信息: 原文链接:https://arxiv.org/abs/2310.02835 源代码:https://github.com/luca-zanella-dvl/AnomalyCLIP 我们介绍了一种新的方法AnomalyCLIP,它首次将大型语言和视觉(LLV)模型(如CLIP)与多实例学习相结合,用于联合视频异常检测和分类。

    2024年04月14日
    浏览(10)
  • 【论文笔记】End-to-End Diffusion Latent Optimization Improves Classifier Guidance

    【论文笔记】End-to-End Diffusion Latent Optimization Improves Classifier Guidance

    Classifier guidance为图像生成带来了控制,但是需要训练新的噪声感知模型(noise-aware models)来获得准确的梯度,或使用最终生成的一步去噪近似,这会导致梯度错位(misaligned gradients)和次优控制(sub-optimal control)。 梯度错位(misaligned gradients):通过噪声感知模型指导生成模型时,两个

    2024年02月02日
    浏览(12)
  • High-Resolution Image Synthesis with Latent Diffusion Models 稳定扩散模型论文笔记

    High-Resolution Image Synthesis with Latent Diffusion Models 稳定扩散模型论文笔记

    一、研究现状        早期图像生成方法主要是变分自动编码器(Variational Autoencoders, VAEs),该算法利用编码器和解码器以及变分推断的方法学习隐空间到真实图像空间的映射从而完成图像的生成。其优势是特征空间可迁移并且训练较为稳定,但是不容易进行模型评估,当输入

    2024年02月20日
    浏览(10)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包