BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection

这篇具有很好参考价值的文章主要介绍了BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

简介

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

造成shape miss主要由三个原因:

外部遮挡。前方物体挡住了后面的物体，使得传感器难以感知到后面的物体。
信号丢失。由于目标的材质或者传感器的原因，一部分传感器信号丢失，使得传感器难以感知这个区域
自身遮挡。物体自身的靠近传感器的部分遮挡住了远离传感器的部分。

shape miss的影响：

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

以前的工作都没有考虑目标形状，只是对box监督从而优化模型参数，Part A2里增加了对部分形状（激光雷达检测到的形状）的监督

X , D, Sob, Soc 分别代表 box中心、box size、观察到的目标形状、丢失的目标形状

只对box监督的参数优化：

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

对box和部分形状监督的参数优化：

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

完整目标形状：

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

预测感兴趣区域的形状占有Os来估计S，网络预测形状占用率P（Os）

所以总的参数优化，是对box和形状占有率P（Os）的监督：

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

模型总览

首先，确定遮挡区域 Roc 和signal miss Rsm，形状占用网络 Ω 估计物体形状占用概率P ( OS )。

其次，backbone Ψ 提取点云的特征，特征经过 RPN 生成3d proposal。为了利用占用率估计，将稀疏张量P( Os )与Ψ的特征图

最后，proposal微调。局部几何特征 fgeo 由 P ( Os ) 和 Ψ 的多尺度特征组成，BtcDe将局部几何特征 fgeo pool 到局部网格上，聚合网格特征，生成最终的边界框预测。

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

学习遮挡的形状

确定丢失形状，生成球面体素，使用形状占用网络预测体素内的占用率P（Os）

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

将gt box内的目标形状补充完整

基于下述2个假设，作者构建目标近似完整的形状 S_：

前景目标多数有shape prototypes，比如行人共享一些体型，车都有车轮胎等；
前景目标，大体上是对称的，尤其对于车、骑车的人等。

函数 H（A，B）用于评估源对象B是否覆盖对象A的大部分区域，并提供了填充A形状缺失的点。选择得分最高的三个源对象B1、B2、B3，近似A的完整形状。 最终近似 S_ 由A的原始点和 B1，B2，B3点组成。

源对象B 镜像复制后再和目标对象A 结合 (附录还有很多结合后的完整形状)

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

一个目标的近似完整形状是由本身的点 + 其他相同目标的点

H(A, B) 函数得分越低，目标B越适合A

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

评估B是否能覆盖A：

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

评估B和A的box IoU（重合率）：

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

B比A有额外的体素：

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

有了上述近似的完整目标形状之后，通过对比原本的目标形状，就能分辨出被遮挡的区域Ros和signal miss Rsm

在球坐标下识别ROC∪RSM

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

形状缺失只存在遮挡区域 Roc 和 signal miss Rsm，所以在估计形状之前，需要识别ROC∪RSM区域。

在现实世界的传感器中，在深度图的四面体截锥中最多存在一个点，当激光的一个点被停止时，该点后面的的所有区域都被遮挡住了。因此，为了能够更好的辨别出被遮挡的区域，作者提出了使用球面网格来对点云进行体素化。这样的话，位于任何一个点后面的球面坐标下的体素都是被遮挡的体素。因此，被遮挡的区域Roc包括非空的球面体素和位于这些体素后面的空的体素。

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

提出使用均匀间隔的球面网格对点云进行体素化，使得任意点后方的球面体素都能准确地形成遮挡区域。每个点（x，y，z）转换成球坐标 ( r, φ, θ )

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

ROC 包括非空球面体素和这些体素后面的空体素。

右图中，虚线标注了信号缺失的潜在区域。

寻找位于有雷达信号和没有雷达信号的边界构成的像素，RSM是由投影到这些像素的球面体素形成的

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

确定训练目标

在ROC ∪ RSM区域，我们需要预测一个目标覆盖的概率P ( O S )。将生成的对于gt box的近似S_ 放到球面体素中，含有S_ 的球面体素的 Os_ = 1，否则 Os_ = 0，这些作为GT，用于估计 Os

S由多个目标组合而成。借用点近似的形状细节不准确，不同物体的点密度不一致。离散化后的Os避免了这些问题；
避免了点生成的合理性问题。

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

上图中，红色部分的球面体素 Os = 1，蓝色的 Os = 0

生成形状占用

在ROC ∪RSM区域，将平均的方法编码非空的球面体素，使用球面体素的点（x，y，z，feat）来代表这个提体素的特征，之后将特征进shape occupancy network Ω（有两层下采样流形稀疏卷积和两层上采样反卷积组成）。注意，这里是对球坐标下进行稀疏卷积，体素沿 ( r, φ, θ ) 索引。

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

输出P（Os）由sigmod 交叉熵focal loss监督：（ δ < 1 )

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

位置占用概率的结合

笼统地说

P（Os）是球坐标下的占用率

P(OS )⊥ 是普通坐标下的占用率

通过特定的监督训练，形状占用网络 Ω 学习部分观察目标的shape prior，并生成P（Os）。P（Os）从球坐标转换成普通坐标系，且融合到 backbone Ψ，一个3d 稀疏卷积网络在普通坐标系下提取特征。

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

球面体素的中心 ( r, φ, θ ) 转换为 x = r cosθcosφ, y = r cosθsinφ, z = r sinθ

假设 x，y，z 在普通坐标体素 Vi,j,k 内，几个球面体素可以投影到 Vi,j,k （一个普通体素能够对应多个球面坐标系），

体素Vi,j,k 的概率取这几个体素 SV (vi,j,k) 的最大值：

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

普通坐标体素的P（Os）构成一个稀疏张量图 P(OS )⊥ = {P(OS )v} ，通过在多尺度里max-pooling下采样，并与 Ψ 的中间特征图concat：

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

（这里看附录内容）

f in Ψi 表示 Ψ 第 i 层输入，f out Ψi−1表示为 Ψ 第 i-1 层输出，maxpool i−1 ×2 (·) 表示为步长为2的max pooling i-1次。 Ψ 输出的特征经过RPN生成3d proposal，每个3d proposal (xp, yp, zp), (lp, wp, hp), θp,Pp，Pp为proposal置信度

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

Occlusion-Aware Proposal Refinement

Local geometry features

进一步优化形状占用率，为获得更精确的box，btcdet需要找到proposal周围的局部几何信息。因此，通过结合 Ψ 的多尺度特征生成一个局部特征图 fgeo。另外，将 P(OS )⊥ 结合到 fgeo上，在局部区域提醒signal miss的出现。fgeo 是一个3d稀疏张量图（400 × 352 × 5）

P(OS )⊥对proposal为微调带来两个优点：

P(OS )⊥只有在 ROC ∪ RSM 区域有概率，所以使得box回归可以避免ROC ∪ RSM以外的区域
估计的占有率表明存在丢失的物体形状，特别是对于具有高P ( OS )。下图橙色区域

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

RoI pooling

为增大感受野，将proposal扩大：

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

grid分为 12 × 4 × 2，三线性插值将附近的fgeo特征汇集到grid上，再用3d稀疏卷积聚合。最终，预测IOU-aware的class 得分和box回归参数

Total Loss

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

占用率P（Os）的loss （L shape）

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

RPN

对每个分类，anchor大小取自gt box的平均大小，并设置两个角度0◦ 和 90◦，每个分类两个anchor

gt box和anchor的关系：

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

RPN 的loss

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

Ldir 是朝向分类，采用bin+res+θ 的方法

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

refinement

两个分支：一是分类得分，二是box回归。将IOU加权到分类得分

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

gt box与proposal的关系：

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

refinement的loss

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

Network Architecture

Shape Occupancy Network Ω

在OS_的监督下，预测 ROC∪RSM 中体素的形状占有率P ( OS )。

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

Detection Backbone Network Ψ

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

将球坐标系下占有率的稀疏概率张量变换到普通坐标系P ( OS )⊥，使得P ( OS )⊥的两个通道可以通过 Ψ 的中间层进行拼接。如果P ( OS )存在于一个体素中，则一个通道持有占有率P ( OS )，另一个通道持有二进制编码。

最后分为两个分支，一是给RPN；二是生成fgeo特征图

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

proposal refinement

按照 grid中心 (xgrid, ygrid, zgrid) 与 proposal中心(xp, yp, zp)的距离(∆x ∈ {±λ, 0} × wp, ∆y = {±λ, 0} × lp, ∆z = {±λ, 0} × hp)，分成3 × 3 × 3个grids xp + ∆x = xgrid λ = 0.25时最好。回归时，将所有grid中心和置信度与真实值做loss，得出最好的结果

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习文章来源地址https://www.toymoban.com/news/detail-778350.html

到了这里，关于BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！