【论文笔记3】RFN-Nest: An end-to-end residual fusion network for infrared and visible images

这篇具有很好参考价值的文章主要介绍了【论文笔记3】RFN-Nest: An end-to-end residual fusion network for infrared and visible images。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

RFN-Nest: An end-to-end residual fusion network for infrared and visible images

RFN-Nest：红外与可见光图像的端对端残差融合网络

宝子们，今天学习了RFN-Nest这篇文献，和上一篇的DenseFuse同一个作者。下面是我的学习记录，希望对各位宝子们有所帮助~

end-to-end fusion network (funet,图像融合,论文阅读,深度学习,图像处理,python,pytorch

介绍

设计可学习的融合策略是图像融合领域的一个极具挑战性的问题。前面我们学习的DenseNet就是手工融合策略。

本文提出一种新的端对端融合网络架构（RFN-Nest）的红外和可见光图像融合，提出了一种基于残差结构的残差融合网络（RFN），提出了一种新的细节保持损失函数和特征增强损失函数来训练RFN。融合模型的学习是由一个新的两阶段的训练策略，第一阶段，基于创新的嵌套连接（Nest）概念训练自动编码器，第二阶段，利用损失函数来训练RFN。

主要贡献

1、提出了一种新的残差融合网络（RFN）来代替手工的融合策略；

2、由于特征提取和特征重构能力是编码器和解码器网络的关键，因此设计了一个两阶段的训练策略来设计网络；

3、设计了一个能够保留图像细节的损失函数，以及一个增强损失函数的特征来训练RFN网络。

融合网络架构

end-to-end fusion network (funet,图像融合,论文阅读,深度学习,图像处理,python,pytorch

RFN-Nest包含三个部分：编码器（左）、残差融合网络（RFN 1-4）和解码器（右）。

对于卷积层：“k*k，(in, out)”，表示内核大小为k*k，输入通道为in，输出通道为out。通过编码器网络中的最大池化操作，可以从源图像中提取多尺度深度特征。

RFN用于融合在每个尺度上提取的多模态深度特征，浅层特征保留了更多的细节信息，而深层特征则传达了语义信息。

最后，融合后的图像重建的嵌套连接的解码网络，充分利用了多尺度结构的特征。

残差融合网络RFN

end-to-end fusion network (funet,图像融合,论文阅读,深度学习,图像处理,python,pytorch

表示由编码器网络提取的第m尺度深度特征，其中m属于（1,2,3,4）。“Conv 1-6”表示RFN中的六个卷积层，在该残差网络中，“Conv1”和“Conv2”的输出作为“Conv3”的输入。“Conv6”是生成初始融合特征的第一个融合层。（有点儿像ResNet）

解码器网络

基于嵌套连接架构的解码器网络如下图所示：

end-to-end fusion network (funet,图像融合,论文阅读,深度学习,图像处理,python,pytorch

表示由RFN网络获得的融合多尺度特征，“DCB”表示解码器卷积块，其具有两个卷积层。在每行中，这些块通过类似于密集块架构的短连接连接，跨层链路连接解码器网络中的多尺度深度特征。

两阶段训练策略

自动编码器网络的训练

在第一阶段，编码器网络被训练以提取多尺度深度特征，训练解码器网络以重建具有多尺度深度特征的输入图像。

end-to-end fusion network (funet,图像融合,论文阅读,深度学习,图像处理,python,pytorch

特征提取部分包括一个下采样操作（最大池化），它以四个尺度提取深度特征，这些多尺度深度特征被馈送到解码器网络中以重建输入图像。该算法利用短的跨层连接，充分利用多尺度深度特征对输入图像进行重构。

1、损失函数：

end-to-end fusion network (funet,图像融合,论文阅读,深度学习,图像处理,python,pytorch

其中Lpixel和Lslim表示输入图像（Input）和输出图像（Output）之间的像素损失和结构相似性损失。λ是Lpixel和Lslim之间的折衷参数。

2、像素损失

end-to-end fusion network (funet,图像融合,论文阅读,深度学习,图像处理,python,pytorch

3、结构相似性（SSIM）损失

end-to-end fusion network (funet,图像融合,论文阅读,深度学习,图像处理,python,pytorch

RFN的训练

RFN的提出，实现一个完全可学习的融合策略。在第二阶段，在编码器和解码器固定的情况下，RFN用适当的损失函数训练。训练过程如下图：

end-to-end fusion network (funet,图像融合,论文阅读,深度学习,图像处理,python,pytorch

利用固定编码器网络从源图像中提取多尺度深度特征，对于每个尺度，RFN用于融合这些深特征，然后融合的多尺度特征被馈送到固定解码器网络中。

1、为了训练RFN，提出了一个新的损失函数LRFN：

end-to-end fusion network (funet,图像融合,论文阅读,深度学习,图像处理,python,pytorch

其中Ldetail和Lfeature分别指示背景细节保留损失函数和目标特征增强损失函数。α是一个权衡参数。

2、背景细节信息主要来自可见光图像，背景细节保留损失函数：

end-to-end fusion network (funet,图像融合,论文阅读,深度学习,图像处理,python,pytorch

3、由于红外图像比可见光图像包含更多的显著目标特征，因此设计了目标特征增强损失函数：

end-to-end fusion network (funet,图像融合,论文阅读,深度学习,图像处理,python,pytorch

M是多尺度深度特征的数量，其被设置为4。由于尺度之间的幅度差异，w1是用于平衡损失幅度的折衷参数向量。它假定四个值{1，10，100，1000}。Wvi和Wir控制融合特征图中可见和红外特征的相对影响。

由于可见光信息受到Ldetail的约束，并且Lfeature的目的是从红外图像中保留显著特征，因此Wir通常大于Wvi。

训练

1、在第一阶段，使用数据集MS-COCO来训练自动编码器网络，选取80000幅图像构成训练集。这些图像被转换为灰度级并重新调整为256*256。参数λ被设置为100以平衡Lpixel和Lslim之间的幅度差。批量大小和epoch分别设置为4和2。学习率设定为1 × 10e−4。

2、在第二阶段，选择KAIST数据集来训练RFN网络，包含近90000对图像，在这个数据集中，选择了80000对红外与可见光图像进行训练，这些图像也转换为灰度级，并调整为256*256。批量大小和epoch分别设置为4和2。学习率也设定为1 × 10e−4，与第一阶段相同。

测试

1、测试图像来自TNO和VOT 2020-RGBT收集的两个数据集。第一个数据集包含从TNO收集的21对红外和可见光图像，第二个数据集包含从TNO和VOT 2020-RGBT收集的40对红外和可见光图像。

2、使用六个质量指标来客观评价融合算法：Entropy（En），标准差（SD），互信息（MI），改进的融合伪影测量（Nab f），用于评估融合图像中的噪声信息;差异相关性之和（SCD）以及多尺度结构相似性（MS-SSIM）。

结论

针对现有融合方法在图像细节保护方面的不足，提出了一种基于嵌套连接的端到端融合框架（RFN-Nest）。为了设计RFN-Nest，提出了一个两阶段的训练策略。在所提出的方案中，使用SSIM损失函数（Lssim）和像素损失函数（Lpixel）训练自动编码器网络。利用训练好的编码器从源图像中提取多尺度特征，设计基于嵌套连接的解码器网络，利用融合后的多尺度特征重构融合图像。RFN Nest的关键组件是残差融合网络（RFN）。在训练策略的第二阶段，训练四个残差融合网络（RFN）来保留图像细节，并分别使用Ldetail和Lfeature来保留显著特征。一旦两阶段训练完成，融合图像的重建使用编码器，RFN网络和解码器。

参考文献

RFN-Nest: An end-to-end residual fusion network for infrared and visible images文章来源地址https://www.toymoban.com/news/detail-843820.html

到了这里，关于【论文笔记3】RFN-Nest: An end-to-end residual fusion network for infrared and visible images的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！