图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】

这篇具有很好参考价值的文章主要介绍了图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

监督学习 与 无监督学习

生成模型

自编码器

从线性维度压缩角度: 2D->1D

线性维度压缩: 3D->2D

推广线性维度压缩

流形

自编码器:流形数据的维度压缩

全图像空间

自然图像流形

自编码器的去噪效果

自编码器的问题

图像预测 (“结构化预测”)

显式密度模型

RNN

PixelRNN [van der Oord et al. 2016]

PixelCNN [van der Oord et al. 2016]

Variational Auto-Encoder  (变分自编码器 VAE)

变分自编码器 VAE

VAE vs PixelRNN

​编辑

隐变量模型

VAE的“不温顺”:Intractability

Generative Adversarial Network  (对抗生成网络 GAN)

训练判别器网络预测图像是否真实

GAN模型

模式崩溃(Mode Collapse)

Diffusion扩散模型

AIGC


监督学习 与 无监督学习

监督学习

数据:(x, y) X是数据,Y是标签

目标:学习一个从x到y的函数映射

样例:分类、回归、物体检测、语义分割、描述

无监督学习

数据:(x) 只有数据,没有标签!

目标:从数据x中学习其固有的结构信息

样例:聚类、维度压缩、表征学习、密度估计 

生成模型

定义:给定训练数据,生成与训练数据服从相同分布的新样本

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

PixelRNN/CNN较为常用

为什么需要生成模型?

实际应用(图像修复,艺术生成等)

为下游任务(如分类)创造样本做表征学习

生成样本量极少的高维数据(物理、医疗图像等)

模拟环境用于决策判断(机器人、强化学习等)

自编码器

自编码器(Auto-Encoders):通过对编码层限制维度(Dimensionallity)、强制稀疏(Sparsity)、加入噪声(Denoising)等方法,来迫使模型学习数据的结构化表征

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

!!缺乏采样生成手段

简单来说就是:用无监督方法来获取无标签训练数据的低维表征

 z一般比x的维度小 为什么维度小?

数据压缩可以获得“有意义的信息”

怎么做到?

训练完去掉解码器

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成 

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

在有标注的数据集上微调编码器

有监督的数据可以让编码器获得“有意义的信息”

但这样无法采样z,因为不知道它的分布

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

从线性维度压缩角度: 2D->1D

考虑在二维平面上的点 这些点都在一条直线上

我们可以通过投影的方式把它们压缩到一维且保留相互之间的关系

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

线性维度压缩: 3D->2D

与一维类似,我们可以把点投影到平面上    进行 “平面拟合”

我们需要记录的数据从三维变成了二维+平面的参数

可以想象成把空间的点投影到一张纸

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

推广线性维度压缩

主成分分析 Principal Components Analysis (PCA):

- 根据数据的分布找到数据的主成分

- 每个正交的方向为一个主成分

- 可以保留前k个主成分来做维度压缩

- PCA与数据的特征空间高度相关

流形

一张纸上的点可以用二维空间表示

如果进行折叠,那么它仍然可以用二维表示,但是这张纸却变成了三维物体…

流形(manifold)可以看作这种形式的扩展…

自编码器:流形数据的维度压缩

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

大多数维度压缩的变换是不可逆的

自编码器所学的是一个从流形数据到低维特征的可逆变换

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

全图像空间

考虑所有分辨率为 100x100 图像   我们来随机采样…

提问: 完全随机采样的图像长什么样?

pixels = np.random.rand(100,100,3)

结论:大多数图像都是噪声

自然图像流形

大多数图像是噪声

有“意义”的图像一般分布在一个具体的流形上

该流形会包含所有拥有相同“意义”的图像

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

自编码器的去噪效果

自编码器会学习某个在流形上的可逆变换

由于没有“意义”,绝大多数噪声不在流形上

如果我们在输入端就加入噪声,我们就可以得到去噪后的数据

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

自编码器的问题

自编码器可以还原在流形上的数据点

但是并不能还原该流形上的所有数据点…

无法实现采样确保生成有效的新数据…

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

图像预测 (“结构化预测”)

我们通常会用类似自编码器的结构来进行 图像到图像之间的迁移

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

更好的损失函数:更好的生成效果

我们如何设计损失函数,使得不在流形上的数据得到应有的“惩罚”?

设计可学习的损失函数

显式密度模型

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

RNN

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

PixelRNN [van der Oord et al. 2016]

从左上角开始生成每个像素

使用RNN和所有已经生成好的像素点生成新的像素点

缺点:顺序生成过程过于缓慢

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

PixelCNN [van der Oord et al. 2016]

同样从左上角开始生成每个像素

仅使用当前像素点周围一个窗口的区域生成当前像素点

比PixelRNN快很多 但仍然很慢

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

Variational Auto-Encoder  (变分自编码器 VAE)

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

变分自编码器 VAE

变分自编码器(Variational Autoencoders,VAE):通过对中间表征概率建模(Probabilistic Modeling)使隐变量服从先验分布

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

VAE vs PixelRNN

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

优点:快,直接可以生成所有的像素点

缺点:“不温顺”,无法直接优化z,只能推出似然估计的下界

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

这样学习的问题是什么?

“不温顺”(难以处理的)

隐变量模型

隐变量模型(Latent Variable Models):学习一个潜在的隐变量空间来解释观测数据的生成过程,可以生成新的样本

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

VAE的“不温顺”:Intractability

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

由于z维度较大,较难有效采样 无法通过蒙特卡洛估计 z 来优化p(x│z)

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

优点: 可以通过微调编码器学习有效编码 理论性更强

缺点: 生成效果一般

研究领域: 解耦表征

Generative Adversarial Network  (对抗生成网络 GAN)

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

训练判别器网络预测图像是否真实

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

GAN模型

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

模式崩溃(Mode Collapse)

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

GAN总结

优点: 效果好!

缺点: 难以训练

改进方式: Wasserstein GAN (WGAN)、梯度惩罚 (Gradient Penalty)、谱标准化 (Spectral Normalization)

Diffusion扩散模型

如何避免对每一个概念训练一个扩散网络?

方法1:加一个标签给扩散网络

方法2:使用语言模型

与GAN的对比

优点: 扩散模型更好训练

缺点: 速度较慢(需要多步迭代)

AIGC

图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】,图像生成

剩下的应用就不记笔记了~有认真看~

完结撒花!!文章来源地址https://www.toymoban.com/news/detail-695365.html

到了这里,关于图像生成模型【自编码器、RNN、VAE、GAN、Diffusion、AIGC等】的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 变分自编码器VAE代码

    变分自编码器VAE代码

            自编码器的目的是自己训练自己,他的输入和输出是一样的。比如28*28的黑白手写数字图片(单通道),如果使用矩阵形式进行表达,真正有作用的特征是哪些数值为1的地方,以及他们在矩阵空间的位置。而大部分边缘部分为0的地方对于特定任务来说都是冗余的特征。

    2024年02月15日
    浏览(9)
  • 变分自编码器(VAE)(一)

    变分自编码器(VAE)(一)

    前言 说来惭愧,VAE接触很久了,一直想把VAE好好的总结一下,一直拖到现在。 闲话少说,关于VAE的文章网上也有不少,解释的最好最清楚的还是苏剑林老师的这篇文章文章链接,还有B站白板推导系列中关于变分推断跟变分自编码器链接。大家可以多看看这两个资料,或者直

    2023年04月20日
    浏览(12)
  • 变分自编码器(VAE)公式推导

    论文原文:Auto-Encoding Variational Bayes [OpenReview (ICLR 2014) | arXiv] 本文记录了我在学习 VAE 过程中的一些公式推导和思考。如果你希望从头开始学习 VAE,建议先看一下苏剑林的博客(本文末尾有链接)。 VAE 认为,随机变量 (boldsymbol{x} sim p(boldsymbol{x})) 由两个随机过程得到: 根

    2024年02月11日
    浏览(11)
  • 变分自编码器生成新的手写数字图像

    变分自编码器生成新的手写数字图像

    变分自编码器(Variational Autoencoder,VAE) 是一种生成模型,通常用于学习数据的潜在表示,并用于生成新的数据样本。它由两部分组成:编码器和解码器。 编码器(Encoder) :接收输入数据,并将其映射到潜在空间中的分布。这意味着编码器将数据转换为均值和方差参数的分

    2024年04月11日
    浏览(10)
  • 一分钟理解VAE(变分自编码器)

    VAE代表变分自编码器(Variational Autoencoder),是一种生成模型,它可以从输入数据中学习潜在变量,并生成新的样本。 VAE的输入和输出都是连续向量。输入通常是图像、文本或声音等数据类型,输出可以是相同类型的数据,也可以是新的数据样本。 Variational Autoencoder (VAE) 可以

    2024年02月15日
    浏览(12)
  • AIGC实战——使用变分自编码器生成面部图像

    在自编码器和变分自编码器上,我们都仅使用具有两个维度的潜空间。这有助于我们可视化自编码器和变分自编码器的内部工作原理,并理解自编码器和变分自编码潜空间分布的区别。在本节中,我们将使用更复杂的数据集,并了解增加潜空间的维度时,变

    2024年02月05日
    浏览(10)
  • 变分自编码器(Variational AutoEncoder,VAE)

    变分自编码器(Variational AutoEncoder,VAE)

    说到编码器这块,不可避免地要讲起 AE (AutoEncoder)自编码器。它的结构下图所示: 据图可知,AE通过自监督的训练方式,能够将输入的原始特征通过编码encoder后得到潜在的特征编码,实现了自动化的特征工程,并且达到了降维和泛化的目的。而后通过对进行decoder后,我们

    2024年01月18日
    浏览(14)
  • 变分自编码器(VAE)PyTorch Lightning 实现

    变分自编码器(VAE)PyTorch Lightning 实现

    ✅作者简介:人工智能专业本科在读,喜欢计算机与编程,写博客记录自己的学习历程。 🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。 变分自编码器 (Variational Autoencoder,VAE)是一

    2024年02月21日
    浏览(14)
  • AIGC实战——变分自编码器(Variational Autoencoder, VAE)

    我们已经学习了如何实现自编码器,并了解了自编码器无法在潜空间中的空白位置处生成逼真的图像,且空间分布并不均匀,为了解决这些问题#

    2024年02月05日
    浏览(13)
  • 编码器 | 基于 Transformers 的编码器-解码器模型

    基于 transformer 的编码器-解码器模型是 表征学习 和 模型架构 这两个领域多年研究成果的结晶。本文简要介绍了神经编码器-解码器模型的历史,更多背景知识,建议读者阅读由 Sebastion Ruder 撰写的这篇精彩 博文。此外,建议读者对 自注意力 (self-attention) 架构 有一个基本了解

    2024年02月08日
    浏览(16)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包