【论文笔记3】RFN-Nest: An end-to-end residual fusion network for infrared and visible images

这篇具有很好参考价值的文章主要介绍了【论文笔记3】RFN-Nest: An end-to-end residual fusion network for infrared and visible images。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

RFN-Nest: An end-to-end residual fusion network for infrared and visible images

RFN-Nest:红外与可见光图像的端对端残差融合网络

宝子们,今天学习了RFN-Nest这篇文献,和上一篇的DenseFuse同一个作者。下面是我的学习记录,希望对各位宝子们有所帮助~

end-to-end fusion network (funet,图像融合,论文阅读,深度学习,图像处理,python,pytorch

介绍

设计可学习的融合策略是图像融合领域的一个极具挑战性的问题。前面我们学习的DenseNet就是手工融合策略。

本文提出一种新的端对端融合网络架构(RFN-Nest)的红外和可见光图像融合,提出了一种基于残差结构的残差融合网络(RFN),提出了一种新的细节保持损失函数和特征增强损失函数来训练RFN。融合模型的学习是由一个新的两阶段的训练策略,第一阶段,基于创新的嵌套连接(Nest)概念训练自动编码器,第二阶段,利用损失函数来训练RFN。

主要贡献

1、提出了一种新的残差融合网络(RFN)来代替手工的融合策略;

2、由于特征提取和特征重构能力是编码器和解码器网络的关键,因此设计了一个两阶段的训练策略来设计网络;

3、设计了一个能够保留图像细节的损失函数,以及一个增强损失函数的特征来训练RFN网络。

融合网络架构

end-to-end fusion network (funet,图像融合,论文阅读,深度学习,图像处理,python,pytorch

RFN-Nest包含三个部分:编码器(左)、残差融合网络(RFN 1-4)和解码器(右)。

对于卷积层:“k*k,(in, out)”,表示内核大小为k*k,输入通道为in,输出通道为out。通过编码器网络中的最大池化操作,可以从源图像中提取多尺度深度特征。

RFN用于融合在每个尺度上提取的多模态深度特征,浅层特征保留了更多的细节信息,而深层特征则传达了语义信息。

最后,融合后的图像重建的嵌套连接的解码网络,充分利用了多尺度结构的特征。

残差融合网络RFN

end-to-end fusion network (funet,图像融合,论文阅读,深度学习,图像处理,python,pytorch

表示由编码器网络提取的第m尺度深度特征,其中m属于(1,2,3,4)。“Conv 1-6”表示RFN中的六个卷积层,在该残差网络中,“Conv1”和“Conv2”的输出作为“Conv3”的输入。“Conv6”是生成初始融合特征的第一个融合层。(有点儿像ResNet)

解码器网络

基于嵌套连接架构的解码器网络如下图所示:

end-to-end fusion network (funet,图像融合,论文阅读,深度学习,图像处理,python,pytorch

表示由RFN网络获得的融合多尺度特征,“DCB”表示解码器卷积块,其具有两个卷积层。在每行中,这些块通过类似于密集块架构的短连接连接,跨层链路连接解码器网络中的多尺度深度特征。

两阶段训练策略

自动编码器网络的训练

在第一阶段,编码器网络被训练以提取多尺度深度特征,训练解码器网络以重建具有多尺度深度特征的输入图像。

end-to-end fusion network (funet,图像融合,论文阅读,深度学习,图像处理,python,pytorch

特征提取部分包括一个下采样操作(最大池化),它以四个尺度提取深度特征,这些多尺度深度特征被馈送到解码器网络中以重建输入图像。该算法利用短的跨层连接,充分利用多尺度深度特征对输入图像进行重构。

1、损失函数:

end-to-end fusion network (funet,图像融合,论文阅读,深度学习,图像处理,python,pytorch

其中Lpixel和Lslim表示输入图像(Input)和输出图像(Output)之间的像素损失和结构相似性损失。λ是Lpixel和Lslim之间的折衷参数。

2、像素损失

end-to-end fusion network (funet,图像融合,论文阅读,深度学习,图像处理,python,pytorch

3、结构相似性(SSIM)损失

end-to-end fusion network (funet,图像融合,论文阅读,深度学习,图像处理,python,pytorch

RFN的训练

RFN的提出,实现一个完全可学习的融合策略。在第二阶段,在编码器和解码器固定的情况下,RFN用适当的损失函数训练。训练过程如下图:

end-to-end fusion network (funet,图像融合,论文阅读,深度学习,图像处理,python,pytorch

利用固定编码器网络从源图像中提取多尺度深度特征,对于每个尺度,RFN用于融合这些深特征,然后融合的多尺度特征被馈送到固定解码器网络中。

1、为了训练RFN,提出了一个新的损失函数LRFN:

end-to-end fusion network (funet,图像融合,论文阅读,深度学习,图像处理,python,pytorch

其中Ldetail和Lfeature分别指示背景细节保留损失函数和目标特征增强损失函数。α是一个权衡参数。

2、背景细节信息主要来自可见光图像,背景细节保留损失函数:

end-to-end fusion network (funet,图像融合,论文阅读,深度学习,图像处理,python,pytorch

3、由于红外图像比可见光图像包含更多的显著目标特征,因此设计了目标特征增强损失函数:

end-to-end fusion network (funet,图像融合,论文阅读,深度学习,图像处理,python,pytorch

M是多尺度深度特征的数量,其被设置为4。由于尺度之间的幅度差异,w1是用于平衡损失幅度的折衷参数向量。它假定四个值{1,10,100,1000}。Wvi和Wir控制融合特征图中可见和红外特征的相对影响。

由于可见光信息受到Ldetail的约束,并且Lfeature的目的是从红外图像中保留显著特征,因此Wir通常大于Wvi。

训练

1、在第一阶段,使用数据集MS-COCO来训练自动编码器网络,选取80000幅图像构成训练集。这些图像被转换为灰度级并重新调整为256*256。参数λ被设置为100以平衡Lpixel和Lslim之间的幅度差。批量大小和epoch分别设置为4和2。学习率设定为1 × 10e−4。

2、在第二阶段,选择KAIST数据集来训练RFN网络,包含近90000对图像,在这个数据集中,选择了80000对红外与可见光图像进行训练,这些图像也转换为灰度级,并调整为256*256。批量大小和epoch分别设置为4和2。学习率也设定为1 × 10e−4,与第一阶段相同。

测试

1、测试图像来自TNO和VOT 2020-RGBT收集的两个数据集。第一个数据集包含从TNO收集的21对红外和可见光图像,第二个数据集包含从TNO和VOT 2020-RGBT收集的40对红外和可见光图像。

2、使用六个质量指标来客观评价融合算法:Entropy(En),标准差(SD),互信息(MI),改进的融合伪影测量(Nab f),用于评估融合图像中的噪声信息;差异相关性之和(SCD)以及多尺度结构相似性(MS-SSIM)。

结论

针对现有融合方法在图像细节保护方面的不足,提出了一种基于嵌套连接的端到端融合框架(RFN-Nest)。为了设计RFN-Nest,提出了一个两阶段的训练策略。在所提出的方案中,使用SSIM损失函数(Lssim)和像素损失函数(Lpixel)训练自动编码器网络。利用训练好的编码器从源图像中提取多尺度特征,设计基于嵌套连接的解码器网络,利用融合后的多尺度特征重构融合图像。RFN Nest的关键组件是残差融合网络(RFN)。在训练策略的第二阶段,训练四个残差融合网络(RFN)来保留图像细节,并分别使用Ldetail和Lfeature来保留显著特征。一旦两阶段训练完成,融合图像的重建使用编码器,RFN网络和解码器。

参考文献

RFN-Nest: An end-to-end residual fusion network for infrared and visible images文章来源地址https://www.toymoban.com/news/detail-843820.html

到了这里,关于【论文笔记3】RFN-Nest: An end-to-end residual fusion network for infrared and visible images的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 《Dense Distinct Query for End-to-End Object Detection》论文笔记(ing)

    作者这里认为传统个目标检测的anchor/anchorpoint其实跟detr中的query作用一样,可以看作query (1)dense query:传统目标检测生成一堆密集anchor,但是one to many需要NMS去除重复框,无法end to end。 (2)spare query 在one2one:egDETR,100个qeury,数量太少造成稀疏监督,收敛慢召回率低。 (

    2024年01月25日
    浏览(11)
  • END-TO-END OPTIMIZED IMAGE COMPRESSION论文阅读

    END-TO-END OPTIMIZED IMAGE COMPRESSION 单词 image compression 图像压缩 quantizer 量化器 rate–distortion performance率失真性能 a variant of 什么什么的一个变体 construct 构造 entropy 熵 discrete value 离散值 摘要: We describe an image compression method, consisting of a nonlinear analysis transformation, a uniform quantizer,

    2024年02月12日
    浏览(14)
  • End-to-End Object Detection with Transformers(论文解析)

    我们提出了一种将目标检测视为直接集合预测问题的新方法。我们的方法简化了检测流程,有效地消除了许多手工设计的组件的需求,如显式编码我们关于任务的先验知识的非极大值抑制过程或锚点生成。新框架的主要要素,称为DEtection TRansformer或DETR,包括一个基于集合的全

    2024年02月09日
    浏览(10)
  • 【Deformable DETR 论文+源码解读】Deformable Transformers for End-to-End Object Detection

    上一篇讲完了DETR相关原理和源码,打算继续再学习DETR相关改进。这次要解读的是21年发表的一篇论文: ICLR 2021:Deformable DETR: Deformable Transformers for End-to-End Object Detection 。 先感谢这位知乎大佬,讲的太细了: Deformable DETR: 基于稀疏空间采样的注意力机制,让DCN与Transformer一起玩

    2023年04月16日
    浏览(10)
  • Trajectory-guided Control Prediction for End-to-end Autonomous Driving论文学习

    端到端自动驾驶方法直接将原始传感器数据映射为规划轨迹或控制信号,范式非常简洁,从理论上避免了多模块设计的错误叠加问题和繁琐的人为规则设计。当前的端到端自动驾驶方法主要有两条独立的研究路线,要么基于规划轨迹来运行控制器,要么直接预测控制信号。端

    2024年02月05日
    浏览(12)
  • 【论文阅读】DeepVO: Towards End-to-End Visual Odometry with Deep Recurrent Convolutional Neural Networks

    相较于传统的视觉里程计,端到端的方法可以认为是把特征提取、匹配、位姿估计等模块用深度学习模型进行了替代。不同于那种用深度学习模型取代里程计框架一部分的算法,端到端的视觉里程计是直接将整个任务替换为深度学习,输入依然是图像流,结果也依然是位姿,

    2024年03月18日
    浏览(14)
  • 论文解读《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose 》

    论文:《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation》 Code:https://github.com/tjiiv-cprg/epro-pnp (909 star) 作者的视频简单介绍:https://www.bilibili.com/video/BV13T411E7kb 摘要: 解决问题: 对于6D位姿估计,基于几何(PnP)的方法性能要好一些,但以前

    2024年02月03日
    浏览(13)
  • 深度学习中端到端(end-to-end)简要理解

    端到端指的是输入是原始数据,输出是最后的结果。而原来的输入端不是直接的原始数据(raw data),而是在原始数据中提取的特征(features)。这一点在图像问题上尤为突出,因为图像像素数太多,数据维度高,会产生维度灾难,所以原来一个思路是手工提取(hand-crafted f

    2024年02月09日
    浏览(22)
  • End-to-end 3D Human Pose Estimation with Transformer

    基于Transformer的端到端三维人体姿态估计 基于Transformer的架构已经成为自然语言处理中的常见选择,并且现在正在计算机视觉任务中实现SOTA性能,例如图像分类,对象检测。然而,卷积方法在3D人体姿态估计的许多方法中仍然保持SOTA性能。受视觉变换器最近发展的启发,我们

    2024年02月08日
    浏览(13)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包