BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection

这篇具有很好参考价值的文章主要介绍了BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

简介

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

造成shape miss主要由三个原因:

  1. 外部遮挡。前方物体挡住了后面的物体,使得传感器难以感知到后面的物体。

  2. 信号丢失。由于目标的材质或者传感器的原因,一部分传感器信号丢失,使得传感器难以感知这个区域

  3. 自身遮挡。物体自身的靠近传感器的部分遮挡住了远离传感器的部分。

shape miss的影响:

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

以前的工作都没有考虑目标形状,只是对box监督从而优化模型参数,Part A2里增加了对部分形状(激光雷达检测到的形状)的监督

X , D, Sob, Soc 分别代表 box中心、box size、观察到的目标形状、丢失的目标形状

只对box监督的参数优化:

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

对box和部分形状监督的参数优化:

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

完整目标形状:

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

预测感兴趣区域的形状占有Os来估计S,网络预测形状占用率P(Os)

所以总的参数优化,是对box和形状占有率P(Os)的监督:

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

模型总览

首先,确定遮挡区域 Roc 和signal miss Rsm,形状占用网络 Ω 估计物体形状占用概率P ( OS )。

其次,backbone Ψ 提取点云的特征,特征经过 RPN 生成3d proposal。为了利用占用率估计,将稀疏张量P( Os )与Ψ的特征图

最后,proposal微调。局部几何特征 fgeo 由 P ( Os ) 和 Ψ 的多尺度特征组成,BtcDe将局部几何特征 fgeo pool 到局部网格上,聚合网格特征,生成最终的边界框预测。

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

学习遮挡的形状

确定丢失形状,生成球面体素,使用形状占用网络预测体素内的占用率P(Os)

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

将gt box内的目标形状补充完整

基于下述2个假设,作者构建目标近似完整的形状 S_:

  • 前景目标多数有shape prototypes,比如行人共享一些体型,车都有车轮胎等;

  • 前景目标,大体上是对称的,尤其对于车、骑车的人等。

函数 H(A,B)用于评估源对象B是否覆盖对象A的大部分区域,并提供了填充A形状缺失的点。选择得分最高的三个源对象B1、B2、B3,近似A的完整形状。 最终近似 S_ 由A的原始点 和 B1,B2,B3点组成。

源对象B 镜像复制后再和目标对象A 结合 (附录还有很多结合后的完整形状)

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

一个目标的近似完整形状是由 本身的点 + 其他相同目标的点

H(A, B) 函数得分越低,目标B越适合A

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

评估B是否能覆盖A:

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

评估B和A的box IoU(重合率):

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

B比A有额外的体素 :

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

有了上述近似的完整目标形状之后,通过对比原本的目标形状,就能分辨出被遮挡的区域Ros和signal miss Rsm

在球坐标下识别ROC∪RSM

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

形状缺失只存在遮挡区域 Roc 和 signal miss Rsm,所以在估计形状之前,需要识别ROC∪RSM区域。

在现实世界的传感器中,在深度图的四面体截锥中最多存在一个点,当激光的一个点被停止时,该点后面的的所有区域都被遮挡住了。因此,为了能够更好的辨别出被遮挡的区域,作者提出了使用球面网格来对点云进行体素化。这样的话,位于任何一个点后面的球面坐标下的体素都是被遮挡的体素。因此,被遮挡的区域Roc包括非空的球面体素和位于这些体素后面的空的体素

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

提出使用均匀间隔的球面网格对点云进行体素化,使得任意点后方的球面体素都能准确地形成遮挡区域。每个点(x,y,z)转换成球坐标 ( r, φ, θ )

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

ROC 包括非空球面体素和这些体素后面的空体素。

右图中,虚线标注了信号缺失的潜在区域。

寻找位于有雷达信号和没有雷达信号的边界构成的像素,RSM是由投影到这些像素的球面体素形成的

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

确定训练目标

在ROC ∪ RSM区域,我们需要预测一个目标覆盖的概率P ( O S )。将生成的对于gt box的近似S_ 放到球面体素中,含有S_ 的球面体素的 Os_ = 1,否则 Os_ = 0,这些作为GT,用于估计 Os

  • S由多个目标组合而成。借用点近似的形状细节不准确,不同物体的点密度不一致。离散化后的Os避免了这些问题;

  • 避免了点生成的合理性问题。

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

上图中,红色部分的球面体素 Os = 1,蓝色的 Os = 0

生成形状占用

在ROC ∪RSM区域,将平均的方法编码非空的球面体素,使用球面体素的点(x,y,z,feat)来代表这个提体素的特征,之后将特征进shape occupancy network Ω(有两层下采样 流形稀疏卷积 和 两层上采样 反卷积组成)。注意,这里是对球坐标下进行稀疏卷积,体素沿 ( r, φ, θ ) 索引。

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

输出P(Os)由sigmod 交叉熵focal loss监督:( δ < 1 )

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

位置占用概率的结合

笼统地说

P(Os)是球坐标下的占用率

P(OS )⊥ 是普通坐标下的占用率

通过特定的监督训练,形状占用网络 Ω 学习部分观察目标的shape prior,并生成P(Os)。P(Os)从球坐标转换成普通坐标系,且融合到 backbone Ψ,一个3d 稀疏卷积网络在普通坐标系下提取特征。

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

球面体素的中心 ( r, φ, θ ) 转换为 x = r cosθcosφ, y = r cosθsinφ, z = r sinθ

假设 x,y,z 在普通坐标 体素 Vi,j,k 内,几个球面体素可以投影到 Vi,j,k (一个普通体素能够对应多个球面坐标系),

体素Vi,j,k 的概率取这几个体素 SV (vi,j,k) 的最大值:

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

普通坐标 体素的P(Os)构成一个稀疏张量图 P(OS )⊥ = {P(OS )v} ,通过在多尺度里max-pooling下采样,并与 Ψ 的中间特征图concat:

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

(这里看附录内容)

f in Ψi 表示 Ψ 第 i 层输入,f out Ψi−1表示为 Ψ 第 i-1 层输出,maxpool i−1 ×2 (·) 表示为 步长为2的max pooling i-1次。 Ψ 输出的特征经过RPN生成3d proposal,每个3d proposal (xp, yp, zp), (lp, wp, hp), θp,Pp,Pp为proposal置信度

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

Occlusion-Aware Proposal Refinement

Local geometry features

进一步优化形状占用率,为获得更精确的box,btcdet需要找到proposal周围的局部几何信息。因此,通过结合 Ψ 的多尺度特征生成一个局部特征图 fgeo。另外,将 P(OS )⊥ 结合到 fgeo上,在局部区域提醒signal miss的出现。fgeo 是一个3d稀疏张量图(400 × 352 × 5)

P(OS )⊥对proposal为微调带来两个优点:

  • P(OS )⊥只有在 ROC ∪ RSM 区域有概率,所以使得box回归可以避免ROC ∪ RSM以外的区域

  • 估计的占有率表明存在丢失的物体形状,特别是对于具有高P ( OS )。下图橙色区域

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

RoI pooling

为增大感受野,将proposal扩大

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

grid分为 12 × 4 × 2,三线性插值将附近的fgeo特征汇集到grid上,再用3d稀疏卷积聚合。最终,预测IOU-aware的class 得分和box回归参数

Total Loss

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

占用率P(Os)的loss (L shape)

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

RPN

对每个分类,anchor大小取自gt box的平均大小,并设置两个角度0◦ 和 90◦,每个分类两个anchor

gt box和anchor的关系:

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

RPN 的loss

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

Ldir 是朝向分类,采用bin+res+θ 的方法

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

refinement

两个分支:一是分类得分,二是box回归。将IOU加权到分类得分

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

gt box与proposal的关系:

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

refinement的loss

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

Network Architecture

Shape Occupancy Network Ω

在OS_的监督下,预测 ROC∪RSM 中体素的形状占有率P ( OS )。

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

Detection Backbone Network Ψ

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

将球坐标系下占有率的稀疏概率张量变换到普通坐标系P ( OS )⊥,使得P ( OS )⊥的两个通道可以通过 Ψ 的中间层进行拼接。如果P ( OS )存在于一个体素中,则一个通道持有占有率P ( OS ),另一个通道持有二进制编码。

最后分为两个分支,一是给RPN;二是生成fgeo特征图

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习

proposal refinement

按照 grid中心 (xgrid, ygrid, zgrid) 与 proposal中心(xp, yp, zp)的距离(∆x ∈ {±λ, 0} × wp, ∆y = {±λ, 0} × lp, ∆z = {±λ, 0} × hp),分成3 × 3 × 3个grids xp + ∆x = xgrid λ = 0.25时最好。回归时,将所有grid中心和置信度 与真实值做loss,得出最好的结果

BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection,3d,目标检测,深度学习文章来源地址https://www.toymoban.com/news/detail-778350.html

到了这里,关于BtcDet论文详解| Behind the Curtain: Learning Occluded Shapes for 3D Object Detection的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 论文阅读《Learning Adaptive Dense Event Stereo from the Image Domain》

    论文阅读《Learning Adaptive Dense Event Stereo from the Image Domain》

    论文地址:https://openaccess.thecvf.com/content/CVPR2023/html/Cho_Learning_Adaptive_Dense_Event_Stereo_From_the_Image_Domain_CVPR_2023_paper.html   事件相机在低光照条件下可以稳定工作,然而,基于事件相机的立体方法在域迁移时性能会严重下降。无监督领域自适应作为该问题的一种解决方法,传统的

    2024年02月04日
    浏览(11)
  • 【自监督论文阅读笔记】EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

    【自监督论文阅读笔记】EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

            本文推出了 EVA ,这是一个 以视觉为中心 的基础模型,旨在仅使用可公开访问的数据来 探索大规模 视觉表示的 局限性 。EVA 是一种经过预训练的普通 ViT,用于 重建 以可见图像块为条件的 屏蔽掉的 图像-文本对齐(image-text aligned)的视觉特征 。通过这个前置任

    2024年02月06日
    浏览(12)
  • Updates were rejected because the tip of your current branch is behind

    解决Updates were rejected because the tip of your current branch is behind its remote counterpart问题 Git错误提示Integrate the remote changes…的解决方法 Git在push推送时,报错提示信息如下: 原因分析: 是由于本地和远程仓库两者代码文件不同步,因此需要先pull,进行合并然后再进行push 解决方法:

    2024年02月02日
    浏览(17)
  • git报错:Updates were rejected because the tip of your current branch is behind

    多人协作项目,其他成员提交之后,你这边没有拉取最近代码就要进行推送,远程仓库和本地仓库不同步。 一般远程仓库和本地仓库是同步的,当有另一个人克隆远程仓库并修改推送代码后,你这边的本地仓库再进行推送会提示这个错误。“更新被拒绝,因为您当前分支的提

    2024年02月15日
    浏览(16)
  • 成功解决:Updates were rejected because the tip of your current branch is behind its remote...【解决方法】

    最近使用git,一直使用命令行操作。昨天突发奇想研究了一番git的GUI,结果由于操作不当产生了如下报错: Updates were rejected because the tip of your current branch is behind its remote counterpart. 该报错在git push时出现,一句话解释就是你在本地仓库上的修改没有基于远程库最新版本,本地

    2024年02月12日
    浏览(11)
  • 已解决:Connection timed out: connect. If you are behind an HTTP proxy, please configure the proxy

    已解决:Connection timed out: connect. If you are behind an HTTP proxy, please configure the proxy

    安装了新版Android Studio,开始跑一个项目时,出了如下错误:Connection timed out: connect. If you are behind an HTTP proxy, please configure the proxy setting 意思是连接超时:连接。如果您在HTTP代理之后,请配置代理设置 看了网上的几种解决方案,都没有太适合的,于是自己在设置中,, 搞了

    2024年02月06日
    浏览(13)
  • 完美解决Error:Connection timed out: connect. If you are behind an HTTP proxy, please configure the proxy

    当你用Android studio 打开一个新项目(一般是下载的工程),可能会报错 Error:Connection timed out: connect. If you are behind an HTTP proxy, please configure the proxy settings either in IDE or Gradle. android 2.0以后,涌现该题目的缘由是as拜访... 当你用Android studio 打开一个新项目(一般是下载的工程),可能会

    2024年02月08日
    浏览(12)
  • Neural Geometric Level of Detail: Real-time Rendering with Implicit 3D Shapes 论文笔记&环境配置

    Neural Geometric Level of Detail: Real-time Rendering with Implicit 3D Shapes 论文笔记&环境配置

    发布于 CVPR 2021 论文介绍了一种具有神经SDF的复杂几何实时渲染方法。 论文提出了一种神经SDF表示,可以有效地捕获多个LOD,并以最先进的质量重建3D几何图形。 论文中的架构可以以比传统方法具有更高视觉保真度的压缩格式表示 3D 形状,并且即使在单个学习示例中也能跨不

    2024年01月24日
    浏览(16)
  • Learning From Data 中英文对照 1.THE LEARNING PROBLEM (第7页)

    Learning From Data 中英文对照 1.THE LEARNING PROBLEM (第7页)

    为了简化感知器公式的表示法,我们将把偏差aaWp=b与其他权重合并到一个向量中[wo,1,。…,wd]“,其中T表示向量的转置,所以w是acolumn向量,我们也将x作为列向量,并将其修改为x=[o,1,…,ad]T,其中所添加的坐标ao固定在co=1。 With this convention,w Tx = d_o WwiOi, and so Equation

    2024年02月09日
    浏览(18)
  • The Deep Learning AI for Environmental Monitoring——Deep

    作者:禅与计算机程序设计艺术 环境监测是整个经济社会发展的一个重要环节,环境数据是影响经济、金融、社会和政策走向的不可或缺的组成部分。目前,环境监测主要依靠地面站(例如气象台)或者卫星遥感影像获取的数据进行实时监测,其精确度受到数据源和采集技术

    2024年02月08日
    浏览(10)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包