[论文阅读]PIDNet: A Real-time Semantic Segmentation Network Inspired by PID Controllers

这篇具有很好参考价值的文章主要介绍了[论文阅读]PIDNet: A Real-time Semantic Segmentation Network Inspired by PID Controllers。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

1.摘要

双分支网络结构已显示出其对实时语义分割任务的效率性和有效性。然而，低级细节和高级语义的直接融合将导致细节特征容易被周围上下文信息淹没，即本文中的超调 (overshoot)，这限制了现有两个分支模型的准确性的提高。
在本文中，我们在卷积神经网络（CNN）和比例积分微分（PID）控制器之间架起了桥梁，并揭示了双分支网络只是一个比例积分（PI）控制器，当然也会存在类似的超调问题。为了解决这个问题，我们提出了一种新的三分支网络架构：PIDNet，它具有三个分支来分别解析细节、上下文和边界信息（语义的派生），并在最后阶段使用边界注意来指导细节和上下文分支的融合

2.introduction

比例积分微分（PID）控制器是上个世纪提出的传统概念，已广泛应用于现代动态系统或过程，如机器人操纵、化学过程、电力系统。尽管近年来已经开发了许多具有更好控制性能的先进控制策略，但由于其简单但鲁棒的特性，PID控制器仍然是大多数工业应用的首选。一个科学领域的经典概念可以扩展到许多其他领域。例如，PID控制器的基本方法被引入到图像去噪、随机梯度下降和数值优化中，并实现了对原始方法的极大改进。在本文中，我们通过采用PID控制器的基本概念，为实时语义分割任务设计了一个深度神经网络架构，该新模型的性能超过了所有先前的网络，从而实现了推理速度和准确性之间的最佳权衡。

3.contribution

我们在深度学习模型与PID控制器之间架起了桥梁，并提出了一个基于PID控制器架构的三分支网络家族。
提出了基于选择性学习的连接、快速上下文聚合模块和边界引导融合模块，以提高PIDNets的性能
我们的模型在所有现有模型中实现了推理速度和准确性之间的最佳权衡。特别是，在没有加速工具的Cityscapes测试集上，PIDNet-S以93.2 FPS的速度实现了78.6%的mIOU，PIDNet-L以31.1 FPS的速度达到了80.6%的mIOU（实时域最高）

4.Method

4.1PIDNet:新型的三分支网络

为两分支网络提供辅助微分分支（ADB），并在空间域中完全模拟PID控制器。每个对象内部像素的语义是一致的，并且仅在相邻对象的边界上变得不一致，因此语义的微分仅在对象边界处是非零的，ADB的功能应是边界检测。因此，我们建立了一个新的三分支实时语义分割架构，即比例积分微分网络（PIDNet），如图4所示。PIDNet拥有三个具有互补职责的分支：

比例(P)分支解析并保存其高分辨率特征图中的详细信息；
积分(I)分支本地和全局聚合上下文信息以解析长程依赖关系；
微分(D)分支提取高频特征以预测边界区域。

[论文阅读]PIDNet: A Real-time Semantic Segmentation Network Inspired by PID Controllers,论文阅读

我们在第一个Pag模块后面添加一个语义头，用来生成额外的语义损失L0，来优化整个网络。

采用加权二元交叉熵损失L1来代替dice loss来处理边界检测的不平衡问题，因为粗糙边界更适合突出边界区域并增强小对象的特征。L2和L3表示CE损失，而我们利用边界头的输出来协调语义分割和边界检测任务，并增强Bag模块的功能。

4.2Pag：选择性学习高级语义

[论文阅读]PIDNet: A Real-time Semantic Segmentation Network Inspired by PID Controllers,论文阅读

在PIDNet中，I分支提供的丰富而准确的语义信息，对于包含相对较少的层和通道的 P分支的细节解析至关重要。因此，我们可以将 I分支视为其他两个分支的备份，并使其能够向它们提供所需的信息。与直接添加所提供的特征图的 D分支不同，我们为P分支引入了像素注意力引导融合模块（Pag），如图所示，以选择性地从I分支学习有用的语义特征，而不会被淹没。

当得到的权重矩阵中的参数较高时，我们更相信i分支，因为i分支的语义更高。反之则更相信p分支

4.3PAPPM:上下文的快速聚合

[论文阅读]PIDNet: A Real-time Semantic Segmentation Network Inspired by PID Controllers,论文阅读

图中arg()的实际操作是池化(ks,stride) +BN+ReLU+卷积，将上面四个得到的特征图经过上采样后与第五个特征图相加卷积再拼接

4.4Pag:平衡细节和上下文

边界注意力引导融合模块（Bag）来融合三个分支提供的特征。注意，上下文分支语义丰富，可以提供更准确的语义，但它丢失了太多的空间和几何细节，特别是对于边界区域和小对象。由于细节分支更好地保留了空间细节，我们迫使模型沿着边界区域更加信任细节分支，并利用上下文特征填充对象内部的区域，这可以通过图7中的Bag实现。文章来源地址https://www.toymoban.com/news/detail-856328.html

到了这里，关于[论文阅读]PIDNet: A Real-time Semantic Segmentation Network Inspired by PID Controllers的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！