SSR-Encoder：用于主题驱动生成的通用编码器详解_AIGC-图片生成视频系列

1年前作者：AI杰克王分类：Toy博客阅读(33)违法举报

这篇具有很好参考价值的文章主要介绍了SSR-Encoder：用于主题驱动生成的通用编码器详解_AIGC-图片生成视频系列。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

稳定扩散（Stable Diffusion）模型可以让广泛的用户群轻松地根据文本提示生成图像。

但人们越来越感兴趣的领域是主题驱动生成，比如关注焦点从创建通用主题（例如“一只猫”）转移到生成特定实例（例如“这只猫”）。主题驱动定义可以见之前一篇文章DreamTuner（点击可跳转）。

今天要介绍的SSR-Encoder就是可以用于主题驱动生成的通用编码器。

一. 贡献概述

上文提到，人们对主题驱动越来越感兴趣。但通过制作完美的文本提示来生成所需的主题内容是一大难点，并且对大多数用户而言门槛略高。

分析已有的解决策略，可以发现:

主题驱动的图像生成任务通过从参考图像中学习主题，并生成符合身份和风格等特定概念的图像。
一种方法是涉及test-time微调，虽然有效，但需要大量的计算资源来学习每个新主题。
一种方法是将参考图像编码到图像嵌入中以绕过微调成本。但是基于编码器的模型通常需要与基础扩散模型联合训练，限制了它们的通用性。
一个同期工作 IP-adapter 通过学习投影将图像信息注入 U-Net 来解决微调成本和通用性，避免了对基础的文本到图像模型进行微调，从而拓宽了在个性化模型中的应用。

但问题是：

尽管之前的策略都有进步，但经常被忽视的一个关键方面是精准提取主题最丰富的信息表示。
图像是主题、背景和风格的复杂组合，因此专注于有效表现主题的最关键元素至关重要。

如何解决：

文中提出的SSR-Encoder是一种新颖的架构，旨在有选择地从单个或多个参考图像中捕获任何主题。
SSR-Encoder响应各种查询模式，包括文本和掩码，无需测试时微调。
SSR-Encoder结合了 Token-to-Patch Aligner（将查询输入与图像补丁对齐）和保留细节主题编码器（用于提取和保留主题的精细特征），从而生成主题嵌入。这些嵌入与原始文本嵌入结合使用，决定了生成过程。
SSR-Encoder以其模型通用性和效率为特点，适用于一系列自定义模型和控制模块。通过嵌入一致性正则化损失来改进训练。
大量实验证明了SSR-Encoder在多功能和高质量图像生成方面的有效性，表明了其广泛的适用性。

SSR-Encoder,主题驱动生成,图像生成,视频生成

SSR 编码器是一种模型通用编码器，它能够根据所选的图像表示来指导任何定制的扩散模型，用于单个主题驱动的图像生成（顶部分支）或从不同图像（中间分支）生成多个主题驱动的图像通过文本查询或掩码查询，无需任何额外的测试时间微调。此外，我们的 SSR 编码器还可以应用于具有附加控制的可控生成（底部分支）。

二. 方法详解

SSR-Encoder,主题驱动生成,图像生成,视频生成

a) 训练阶段

SSR-Encoder,主题驱动生成,图像生成,视频生成

训练时候， SSR-Encoder的输入是参考图像以及查询输入（掩膜查询或者文字查询）。
SSR-Encoder的编码输出注入基础T2I模型，做法类似IPAdapter。
可以与任何自定义扩散模型集成，而无需测试时微调。
训练过程固定文本编码器，VAE和基础模型的参数，只训练SSR-Encoder。

b) 推理生成阶段：

SSR-Encoder,主题驱动生成,图像生成,视频生成

给定一个查询文本-图像对，SSR-Encoder采用token-to-patch aligner来突出显示查询中参考图像中的选择性区域。
同时，它通过保留细节的主题编码器提取主题的细粒度细节，通过token-to-patch aligner投影多尺度视觉嵌入。
然后，采用主题条件生成来生成具有高保真度和创造性可编辑性的特定主题。

三. 综合结果

SSR-Encoder 在不同生成能力下的结果，支持两种查询模式，并且适用于各种任务，包括单主体和多主体条件生成。

其多功能性扩展到与其他定制模型的集成以及与现成 ControlNet 的兼容性。

SSR-Encoder,主题驱动生成,图像生成,视频生成

四. 注意力可视化

注意力图的可视化

SSR-Encoder,主题驱动生成,图像生成,视频生成

五. 选择性主题驱动图像生成

从单个图像中选择不同的主题以进行重新生成图像。

SSR-Encoder,主题驱动生成,图像生成,视频生成

六. 人体图像生成

尽管 SSR-Encoder没有接受过特定领域设置（例如人脸）的训练，但它已经能够捕获对象的复杂细节。

利用 OpenImages 数据集中的人脸图像作为生成人体图像的参考图像。为了更好地说明结果，还使用了两位名人的图像作为参考。

SSR-Encoder,主题驱动生成,图像生成,视频生成

七. 可推广到视频生成模型

SSR-Encoder不仅具有足够的通用性，可以适应各种自定义模型和可控性模块，而且还可以有效地应用于视频生成，与视频生成模型无缝集成。

下面演示了将 SSR-Encoder与 Animatediff 相结合的影响。尽管没有接受过视频数据的训练，该方法可以完美地与 Animatediff 结合起来，生成与参考图像保持一致的角色身份的视频。

SSR-Encoder,主题驱动生成,图像生成,视频生成

八. 论文

论文：https://arxiv.org/pdf/2312.16272.pdf

九. 个人思考

这个项目挺有意义的，可以用极少代价即可固定特定主题，扩展文生图和图生视频的生成能力上限，还能充分利用基础模型。整体的思路有点类似IPAdapter。等代码公开后可以对比分析一波。文章来源地址https://www.toymoban.com/news/detail-786420.html

到了这里，关于SSR-Encoder：用于主题驱动生成的通用编码器详解_AIGC-图片生成视频系列的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

SSR-Encoder 主题驱动生成图像生成视频生成

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

深入理解深度学习——Transformer：编码器（Encoder）部分
分类目录：《深入理解深度学习》总目录相关文章： ·注意力机制（AttentionMechanism）：基础知识 ·注意力机制（AttentionMechanism）：注意力汇聚与Nadaraya-Watson核回归 ·注意力机制（AttentionMechanism）：注意力评分函数（AttentionScoringFunction） ·注意力机制（AttentionMechanism）：Bahda
2024年02月08日
浏览(13)
机器学习：自动编码器Auto-encoder
不用标注数据就能学习的任务，比如Bert之类的。但最早的方法是Auto-encoder。 encoder输出的向量，被decoder还原的图片，让输出的图片与输入的图片越接近越好。将原始的高维向量变成低维向量，将该新的特征用于下游任务。相关的类似方法： PCA： youtu.be/iwh5o_M4BNU t-SNE： yout
2024年02月14日
浏览(8)
【Transformer系列（1）】encoder（编码器）和decoder（解码器）
前言这个专栏我们开始学习transformer，自推出以来transformer在深度学习中占有重要地位，不仅在NLP领域，在CV领域中也被广泛应用，尤其是2021年，transformer在CV领域可谓大杀四方。在论文的学习之前，我们先来介绍一些专业术语。本篇就让我们先来认识一下encoder和decoder吧！
2024年03月25日
浏览(14)
【FPGA】Verilog 实践：优先级编码器 | Priority encoder
0x00 优先级编码器（Priority encoder） \\\"能将多个二进制输入压缩成更少数目输出的电路或算法的编码器\\\" 优先级编码器是一种编码器，它考虑了两个或更多输入位同时变为 1 但没有收到输入的情况。当输入进来时，优先级编码器会按照优先级顺序进行处理。通常，它按升序或降
2024年01月18日
浏览(12)
【人工智能概论】自编码器（Auto-Encoder , AE）
自编码器结构图自编码器是自监督学习的一种，其可以理解为一个试图还原其原始输入的系统。其主要由编码器（Encoder）和解码器（Decoder）组成，其工作流程是将输入的数据 x 经编码器压缩成 y ， y 再由解码器转化成 x* ，其目的是让 x* 和 x 尽可能相近。注意：尽管自编码
2024年02月04日
浏览(10)
STM32(HAL）--使用定时器TIM的Encoder Mode来读取旋钮编码器的脉冲数
目录一旋钮编码器相关知识二 STM32CubeMx配置三程序编写 3.1 相关函数介绍 3.2 程序编写四实验结果旋转编码器是一种位置传感器，输出脉冲信号可以用来确定编码器的旋转角度和旋转方向。编码器中有两个开关，当旋钮旋转后，开关会依次导通，开关结构图如下图所示
2024年02月15日
浏览(9)
(四) timer+pit(定时器中断)+encoder(编码器)-逐飞TC264库学习（对比STM32 HAL库）
PIT ，是programmable interval timer 可编程间隔定时器 DSC中的器件的缩写，所以就是定时器中断，有点像32里的timer(TIMx) 目前看来一共能用通道的有四个 typedef enum // 枚举通道号 { CCU60_CH0, CCU60_CH1, CCU61_CH0, CCU61_CH1, }pit_index_enum; 因为涉及到中断，为方便设定中断优
2024年03月15日
浏览(21)
【AIGC-图片生成视频系列-4】DreamTuner：单张图像足以进行主题驱动生成
目录一. 项目概述问题：解决：二. 方法详解 a) 整体结构 b) 自主题注意力三. 文本控制的动漫角色驱动图像生成的结果四. 文本控制的自然图像驱动图像生成的结果五. 姿势控制角色驱动图像生成的结果 2023年的最后一天，发个文记录下。马上就要迎来新的一年，在这里预
2024年02月03日
浏览(8)
利用MDK的FLM文件生成通用flash驱动
在进行Flash操作时，一般我们需要设计一套Flash抽象层，至少要包括flash的init，read、write、erase这些操作。但每更换一个单片机或者flash器件就要额外去编写flash驱动去适配init，read、write、erase。尽管有会者不难的属性加持，但适配所有的单片机或者flash器件，工作量也可想而知
2023年04月16日
浏览(8)
用于无监督视频异常检测的合成伪异常：一种简单有效的基于掩码自动编码器的框架论文阅读
论文标题：SYNTHETIC PSEUDO ANOMALIES FOR UNSUPERVISED VIDEO ANOMALY DETECTION: A SIMPLE YET EFFICIENT FRAMEWORK BASED ON MASKED AUTOENCODER 文章信息：发表于：ICASSP 2023（CCF B）原文链接：https://arxiv.org/abs/2303.05112 源码：无由于用于训练的异常样本的可用性有限，视频异常检测通常被视为一类分类问题
2024年02月04日
浏览(15)