简介
造成shape miss主要由三个原因:
-
外部遮挡。前方物体挡住了后面的物体,使得传感器难以感知到后面的物体。
-
信号丢失。由于目标的材质或者传感器的原因,一部分传感器信号丢失,使得传感器难以感知这个区域
-
自身遮挡。物体自身的靠近传感器的部分遮挡住了远离传感器的部分。
shape miss的影响:
以前的工作都没有考虑目标形状,只是对box监督从而优化模型参数,Part A2里增加了对部分形状(激光雷达检测到的形状)的监督
X , D, Sob, Soc 分别代表 box中心、box size、观察到的目标形状、丢失的目标形状
只对box监督的参数优化:
对box和部分形状监督的参数优化:
完整目标形状:
预测感兴趣区域的形状占有Os来估计S,网络预测形状占用率P(Os)
所以总的参数优化,是对box和形状占有率P(Os)的监督:
模型总览
首先,确定遮挡区域 Roc 和signal miss Rsm,形状占用网络 Ω 估计物体形状占用概率P ( OS )。
其次,backbone Ψ 提取点云的特征,特征经过 RPN 生成3d proposal。为了利用占用率估计,将稀疏张量P( Os )与Ψ的特征图
最后,proposal微调。局部几何特征 fgeo 由 P ( Os ) 和 Ψ 的多尺度特征组成,BtcDe将局部几何特征 fgeo pool 到局部网格上,聚合网格特征,生成最终的边界框预测。
学习遮挡的形状
确定丢失形状,生成球面体素,使用形状占用网络预测体素内的占用率P(Os)
将gt box内的目标形状补充完整
基于下述2个假设,作者构建目标近似完整的形状 S_:
-
前景目标多数有shape prototypes,比如行人共享一些体型,车都有车轮胎等;
-
前景目标,大体上是对称的,尤其对于车、骑车的人等。
函数 H(A,B)用于评估源对象B是否覆盖对象A的大部分区域,并提供了填充A形状缺失的点。选择得分最高的三个源对象B1、B2、B3,近似A的完整形状。 最终近似 S_ 由A的原始点 和 B1,B2,B3点组成。
源对象B 镜像复制后再和目标对象A 结合 (附录还有很多结合后的完整形状)
一个目标的近似完整形状是由 本身的点 + 其他相同目标的点
H(A, B) 函数得分越低,目标B越适合A
评估B是否能覆盖A:
评估B和A的box IoU(重合率):
B比A有额外的体素 :
有了上述近似的完整目标形状之后,通过对比原本的目标形状,就能分辨出被遮挡的区域Ros和signal miss Rsm
在球坐标下识别ROC∪RSM
形状缺失只存在遮挡区域 Roc 和 signal miss Rsm,所以在估计形状之前,需要识别ROC∪RSM区域。
在现实世界的传感器中,在深度图的四面体截锥中最多存在一个点,当激光的一个点被停止时,该点后面的的所有区域都被遮挡住了。因此,为了能够更好的辨别出被遮挡的区域,作者提出了使用球面网格来对点云进行体素化。这样的话,位于任何一个点后面的球面坐标下的体素都是被遮挡的体素。因此,被遮挡的区域Roc包括非空的球面体素和位于这些体素后面的空的体素。
提出使用均匀间隔的球面网格对点云进行体素化,使得任意点后方的球面体素都能准确地形成遮挡区域。每个点(x,y,z)转换成球坐标 ( r, φ, θ )
ROC 包括非空球面体素和这些体素后面的空体素。
右图中,虚线标注了信号缺失的潜在区域。
寻找位于有雷达信号和没有雷达信号的边界构成的像素,RSM是由投影到这些像素的球面体素形成的
确定训练目标
在ROC ∪ RSM区域,我们需要预测一个目标覆盖的概率P ( O S )。将生成的对于gt box的近似S_ 放到球面体素中,含有S_ 的球面体素的 Os_ = 1,否则 Os_ = 0,这些作为GT,用于估计 Os
-
S由多个目标组合而成。借用点近似的形状细节不准确,不同物体的点密度不一致。离散化后的Os避免了这些问题;
-
避免了点生成的合理性问题。
上图中,红色部分的球面体素 Os = 1,蓝色的 Os = 0
生成形状占用
在ROC ∪RSM区域,将平均的方法编码非空的球面体素,使用球面体素的点(x,y,z,feat)来代表这个提体素的特征,之后将特征进shape occupancy network Ω(有两层下采样 流形稀疏卷积 和 两层上采样 反卷积组成)。注意,这里是对球坐标下进行稀疏卷积,体素沿 ( r, φ, θ ) 索引。
输出P(Os)由sigmod 交叉熵focal loss监督:( δ < 1 )
位置占用概率的结合
笼统地说
P(Os)是球坐标下的占用率
P(OS )⊥ 是普通坐标下的占用率
通过特定的监督训练,形状占用网络 Ω 学习部分观察目标的shape prior,并生成P(Os)。P(Os)从球坐标转换成普通坐标系,且融合到 backbone Ψ,一个3d 稀疏卷积网络在普通坐标系下提取特征。
球面体素的中心 ( r, φ, θ ) 转换为 x = r cosθcosφ, y = r cosθsinφ, z = r sinθ
假设 x,y,z 在普通坐标 体素 Vi,j,k 内,几个球面体素可以投影到 Vi,j,k (一个普通体素能够对应多个球面坐标系),
体素Vi,j,k 的概率取这几个体素 SV (vi,j,k) 的最大值:
普通坐标 体素的P(Os)构成一个稀疏张量图 P(OS )⊥ = {P(OS )v} ,通过在多尺度里max-pooling下采样,并与 Ψ 的中间特征图concat:
(这里看附录内容)
f in Ψi 表示 Ψ 第 i 层输入,f out Ψi−1表示为 Ψ 第 i-1 层输出,maxpool i−1 ×2 (·) 表示为 步长为2的max pooling i-1次。 Ψ 输出的特征经过RPN生成3d proposal,每个3d proposal (xp, yp, zp), (lp, wp, hp), θp,Pp,Pp为proposal置信度
Occlusion-Aware Proposal Refinement
Local geometry features
进一步优化形状占用率,为获得更精确的box,btcdet需要找到proposal周围的局部几何信息。因此,通过结合 Ψ 的多尺度特征生成一个局部特征图 fgeo。另外,将 P(OS )⊥ 结合到 fgeo上,在局部区域提醒signal miss的出现。fgeo 是一个3d稀疏张量图(400 × 352 × 5)
P(OS )⊥对proposal为微调带来两个优点:
-
P(OS )⊥只有在 ROC ∪ RSM 区域有概率,所以使得box回归可以避免ROC ∪ RSM以外的区域
-
估计的占有率表明存在丢失的物体形状,特别是对于具有高P ( OS )。下图橙色区域
RoI pooling
为增大感受野,将proposal扩大:
grid分为 12 × 4 × 2,三线性插值将附近的fgeo特征汇集到grid上,再用3d稀疏卷积聚合。最终,预测IOU-aware的class 得分和box回归参数
Total Loss
占用率P(Os)的loss (L shape)
RPN
对每个分类,anchor大小取自gt box的平均大小,并设置两个角度0◦ 和 90◦,每个分类两个anchor
gt box和anchor的关系:
RPN 的loss
Ldir 是朝向分类,采用bin+res+θ 的方法
refinement
两个分支:一是分类得分,二是box回归。将IOU加权到分类得分
gt box与proposal的关系:
refinement的loss
Network Architecture
Shape Occupancy Network Ω
在OS_的监督下,预测 ROC∪RSM 中体素的形状占有率P ( OS )。
Detection Backbone Network Ψ
将球坐标系下占有率的稀疏概率张量变换到普通坐标系P ( OS )⊥,使得P ( OS )⊥的两个通道可以通过 Ψ 的中间层进行拼接。如果P ( OS )存在于一个体素中,则一个通道持有占有率P ( OS ),另一个通道持有二进制编码。
最后分为两个分支,一是给RPN;二是生成fgeo特征图
proposal refinement
按照 grid中心 (xgrid, ygrid, zgrid) 与 proposal中心(xp, yp, zp)的距离(∆x ∈ {±λ, 0} × wp, ∆y = {±λ, 0} × lp, ∆z = {±λ, 0} × hp),分成3 × 3 × 3个grids xp + ∆x = xgrid λ = 0.25时最好。回归时,将所有grid中心和置信度 与真实值做loss,得出最好的结果文章来源:https://www.toymoban.com/news/detail-778350.html
文章来源地址https://www.toymoban.com/news/detail-778350.html
到了这里,关于BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!