【论文笔记】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enh

这篇具有很好参考价值的文章主要介绍了【论文笔记】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enh。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

【论文笔记】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enhancement
原文链接:https://ieeexplore.ieee.org/abstract/document/10363646

I. 引言

本文的3DOPFormer使用空间交叉注意力机制和反卷积恢复3D占用,然后基于激光雷达射线方向特征提出优化3D占用感知模型的新方法。使用神经渲染方法合成激光雷达射线方向的距离,通过最小化合成距离与原始点云距离之间的损失,使模型生成精确的占用预测。通过插值可以得到任意3D点的特征,从而预测任意分辨率下的3D场景占用。

III. 方法

A. 准备知识

本节介绍了NeRF的体积渲染公式,见神经辐射场的简单介绍。

在粗糙采样的基础上,还可进行细化采样,即根据粗糙采样的权重分布采样新的点,再将粗糙采样点与细化采样点一起用于计算渲染结果。损失函数为粗糙采样渲染结果光度损失与细化采样渲染结果光度损失的均值。

对于激光雷达距离合成,将上述渲染公式中的RGB值替换为距离即可。由于点的距离是采样得到,需要预测的仅有 σ \sigma σ,因此可改为直接预测不透明度 α \alpha α
d ^ = ∑ i = 1 N T i α i t i T i = ∑ j = 1 i − 1 ( 1 − α j ) α i = F ( x i ) \hat{d}=\sum_{i=1}^NT_i\alpha_it_i\\T_i=\sum_{j=1}^{i-1}(1-\alpha_j)\\\alpha_i=F(x_i) d^=i=1NTiαitiTi=j=1i1(1αj)αi=F(xi)
其中 F F F为3D占用感知模型(见后文)。

B. 概述

【论文笔记】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enh,自动驾驶中的3D占用预测,论文阅读,深度学习,计算机视觉,自动驾驶
如上图所示,首先用主干网络提取图像特征,并使用空间注意力提升到3D空间得到 V i ∈ R H × W × Z × C V_i\in\mathbb{R}^{H\times W\times Z\times C} ViRH×W×Z×C,并使用3D反卷积得到更高分辨率的3D体素特征。最后,使用MLP预测3D占用结果。

C. 3D占用感知查询

定义可学习参数 Q ∈ R H × W × Z × C Q\in\mathbb{R}^{H\times W\times Z\times C} QRH×W×Z×C(与初始3D体素 V i V_i Vi大小相同)。位于网格 p = ( x , y , z ) p=(x,y,z) p=(x,y,z)处的查询为 Q p ∈ R C Q_p\in\mathbb{R}^C QpRC

D. 空间占用交叉注意力

本文使用可变形注意力以减小计算,其中3D体素查询与2D图像特征中的相应区域的特征交互。

首先将查询 Q p Q_p Qp投影到图像上,采样附近的图像特征,然后按下式得到 V i V_i Vi
S O C A ( Q p , F ) = 1 ∣ V h i t ∣ ∑ i ∈ V h i t D A ( Q p , P ( p , i ) , F i ) D A ( q , p , x ) = ∑ i ′ = 1 N h e a d W i ′ ∑ j ′ = 1 N k e y A i ′ j ′ W i ′ ′ x ( p + Δ p i ′ j ′ ) SOCA(Q_p,F)=\frac{1}{|\mathcal{V}_{hit}|}\sum_{i\in\mathcal{V}_{hit}}DA(Q_p,\mathcal{P}(p,i),F^i)\\DA(q,p,x)=\sum_{i'=1}^{N_{head}}W_{i'}\sum_{j'=1}^{N_{key}}A_{i'j'}W'_{i'}x(p+\Delta p_{i'j'}) SOCA(Qp,F)=Vhit1iVhitDA(Qp,P(p,i),Fi)DA(q,p,x)=i=1NheadWij=1NkeyAijWix(p+Δpij)

其中 V h i t \mathcal{V}_{hit} Vhit为查询所属视图数量, P ( p , i ) \mathcal{P}(p,i) P(p,i)为将点 p p p投影到视图 i i i上的函数, F i F^i Fi为视图 i i i的特征。 N h e a d , N k e y N_{head},N_{key} Nhead,Nkey分别为注意力头数和采样点数, W i ′ ∈ R C × ( C / N h e a d ) , W i ′ ′ ∈ R ( C / N h e a d ) × C W_{i'}\in\mathbb{R}^{C\times(C/N_{head})},W'_{i'}\in\mathbb{R}^{(C/N_{head})\times C} WiRC×(C/Nhead),WiR(C/Nhead)×C为权重, A i ′ j ′ ∈ [ 0 , 1 ] A_{i'j'}\in[0,1] Aij[0,1]为预测注意力权重,满足 ∑ j ′ = 1 N k e y A i ′ j ′ = 1 \sum_{j'=1}^{N_{key}}A_{i'j'}=1 j=1NkeyAij=1 Δ p i ′ j ′ ∈ R 2 \Delta p_{i'j'}\in\mathbb{R}^2 ΔpijR2为预测偏移量。

下面是投影函数 P ( p , i ) \mathcal{P}(p,i) P(p,i)的介绍。首先根据体素索引 ( x , y , z ) (x,y,z) (x,y,z)计算查询的真实世界坐标 ( x w , y w , z w ) (x_w,y_w,z_w) (xw,yw,zw)
x w = x + 0.5 W ( X max ⁡ − X min ⁡ ) + X min ⁡ y w = x + 0.5 H ( Y max ⁡ − Y min ⁡ ) + Y min ⁡ z w = x + 0.5 Z ( Z max ⁡ − Z min ⁡ ) + Z min ⁡ x_w=\frac{x+0.5}{W}(X_{\max}-X_{\min})+X_{\min}\\ y_w=\frac{x+0.5}{H}(Y_{\max}-Y_{\min})+Y_{\min}\\ z_w=\frac{x+0.5}{Z}(Z_{\max}-Z_{\min})+Z_{\min} xw=Wx+0.5(XmaxXmin)+Xminyw=Hx+0.5(YmaxYmin)+Yminzw=Zx+0.5(ZmaxZmin)+Zmin

然后使用投影矩阵投影到图像上:
P ( p , i ) = ( x i , y i ) z i [ x i y i 1 1 / z i ] = [ K O O 1 ] [ R T O 1 ] [ x w y w z w 1 ] \mathcal{P}(p,i)=(x_i,y_i)\\ z_i\begin{bmatrix}x_i\\y_i\\1\\1/z_i\end{bmatrix}=\begin{bmatrix}K&O\\O&1\end{bmatrix}\begin{bmatrix}R&T\\O&1\end{bmatrix}\begin{bmatrix}x_w\\y_w\\z_w\\1\end{bmatrix} P(p,i)=(xi,yi)zi xiyi11/zi =[KOO1][ROT1] xwywzw1

其中 K , R , T K,R,T K,R,T分别为相机内参、外参旋转矩阵与外参平移矩阵, z i z_i zi为深度。

E. 模型优化

除交叉熵损失和lovasz-softmax损失外,还提出基于点云方向特征的方向体素损失和基于神经渲染的距离损失。

1) 方向体素损失

如下左图所示,激光雷达射线会从原点出发,穿过未占用体素(empty颜色)到达占用体素处。记经过的体素编号为1到 m m m,则方向体素损失为:
L d i r v o x e l = 1 n ∑ L 1 s m o o t h ( m log ⁡ p c + ∑ i = 1 m − 1 ( m − i ) log ⁡ ( 1 − p i ) , 0 ) L 1 s m o o t h ( x , y ) = { 0.5 ( x − y ) 2 若 ∣ x − y ∣ < 1 ∣ x − y ∣ − 0.5 否则 \mathcal{L}_{dirvoxel}=\frac{1}{n}\sum L1_{smooth}(m\log p_c+\sum_{i=1}^{m-1}(m-i)\log(1-p_i),0)\\L1_{smooth}(x,y)=\left\{\begin{matrix}0.5(x-y)^2&若|x-y|<1\\|x-y|-0.5&否则\end{matrix}\right. Ldirvoxel=n1L1smooth(mlogpc+i=1m1(mi)log(1pi),0)L1smooth(x,y)={0.5(xy)2xy0.5xy<1否则

其中 n n n为激光雷达射线数, p i p_i pi为中间点的预测占用概率, p c p_c pc为预测所属真实类别的概率。 log ⁡ \log log前的 ( m − i ) (m-i) (mi)为权重,射线从原点到激光雷达点的权重逐渐减小。方向体素损失可以促进模型收敛并提高性能。

【论文笔记】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enh,自动驾驶中的3D占用预测,论文阅读,深度学习,计算机视觉,自动驾驶【论文笔记】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enh,自动驾驶中的3D占用预测,论文阅读,深度学习,计算机视觉,自动驾驶

2) 距离损失

如上右图所示,粗糙阶段将激光雷达射线段均匀分为 N N N段进行采样,细化阶段根据粗糙阶段采样点的权重分布,再采样 N N N个点。采样点的特征从体素特征中插值,并输入MLP预测不透明度,进行渲染。距离损失为:
L d i s t a n c e = 1 2 ∣ R ∣ ∑ ( L 1 s m o o t h ( log ⁡ d ^ c , log ⁡ d ) + L 1 s m o o t h ( log ⁡ d ^ f , log ⁡ d ) ) \mathcal{L}_{distance}=\frac{1}{2|\mathcal{R}|}\sum(L1_{smooth}(\log\hat d_c,\log d)+L1_{smooth}(\log\hat d_f,\log d)) Ldistance=2∣R1(L1smooth(logd^c,logd)+L1smooth(logd^f,logd))

其中 R \mathcal{R} R为射线集合。

IV. 实验

C. 评估指标

使用IoU(不考虑类别)和mIoU评估性能。此外还仅针对激光雷达射线穿过的体素进行评估。

D. 主要结果

1) nuScenes数据集上的3D语义占用预测

实验表明,本文的方法与基准方案相比有更高的性能,且在激光雷达射线穿过的体素上的性能优势更明显。

可视化表明,本文的方法能更精确地表达物体的结构,且能成功预测一些远处的物体或小物体。

E. 消融研究

实验表明,本文的方向体素损失和距离损失均能提高模型性能,且前者作用更大。文章来源地址https://www.toymoban.com/news/detail-822414.html

到了这里,关于【论文笔记】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enh的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images

    PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images

    PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images 旷视 本文的目标是 通过扩展 PETR,使其有时序建模和多任务学习的能力 以此建立一个 强有力且统一的框架。 本文主要贡献: 将 位置 embedding 转换到 时序表示学习,时序的对齐 是在 3D PE 上做 姿态变换实现的。提出了

    2024年02月16日
    浏览(12)
  • 【论文笔记】Perception, Planning, Control, and Coordination for Autonomous Vehicles

    【论文笔记】Perception, Planning, Control, and Coordination for Autonomous Vehicles

    单纯作为阅读笔记,文章内容可能有些混乱。 作者先介绍了一些关于自动驾驶汽车在未来城市交通系统中的潜在作用,包括增加安全性、提高生产力、提高可达性、提高道路效率以及对环境的积极影响;接着介绍自动驾驶汽车的起源与发展,当然少不了介绍DARPA;作者还介绍

    2024年02月08日
    浏览(11)
  • 大一统模型 Universal Instance Perception as Object Discovery and Retrieval 论文阅读笔记

    大一统模型 Universal Instance Perception as Object Discovery and Retrieval 论文阅读笔记

    写在前面   马上又是一周周末了,开始写论文博客啦。   这是一篇顶会文章,标题很清楚,就是一个一统的框架用于解决各种任务。这类文章在 21 年的时候挺多的,现在倒是不常见了。因为需要的资源很多,外部数据集也很庞大,一般的小资源团队基本搞不定。但一旦

    2024年02月04日
    浏览(10)
  • 论文阅读:Offboard 3D Object Detection from Point Cloud Sequences

    论文阅读:Offboard 3D Object Detection from Point Cloud Sequences

    目录 概要 Motivation 整体架构流程 技术细节 3D Auto Labeling Pipeline The static object auto labeling model The dynamic object auto labeling model 小结 论文地址: [2103.05073] Offboard 3D Object Detection from Point Cloud Sequences (arxiv.org)     该论文提出了一种利用点云序列数据进行离线三维物体检测的方法,称

    2024年02月06日
    浏览(15)
  • Monocular 3D Object Detection with Depth from Motion 论文学习

    Monocular 3D Object Detection with Depth from Motion 论文学习

    论文链接:Monocular 3D Object Detection with Depth from Motion 从单目输入感知 3D 目标对于自动驾驶非常重要,因为单目 3D 的成本要比多传感器的方案低许多。但单目方法很难取得令人满意的效果,因为单张图像并没有提供任何关于深度的信息,该方案实现起来非常困难。 Two view 场景

    2024年02月17日
    浏览(14)
  • 论文阅读 TripoSR: Fast 3D Object Reconstruction from a Single Image 单张图片快速完成3D重建

    论文阅读 TripoSR: Fast 3D Object Reconstruction from a Single Image 单张图片快速完成3D重建

    本文为记录自己在NeRF学习道路的一些笔记,包括对论文以及其代码的思考内容。公众号: AI知识物语 B站讲解:出门吃三碗饭 论文地址: https://arxiv.org/abs/2403.02151 代码: https://github.com/VAST-AI-Research/Tr ipoSR 先来看下演示效果 TripoSR可以在0.5秒内从单张图片重建高质量3D模型,并

    2024年04月14日
    浏览(14)
  • 浅谈3D隐式表示(SDF,Occupancy field,NeRF)

    浅谈3D隐式表示(SDF,Occupancy field,NeRF)

    本篇文章介绍了符号距离函数Signed Distance Funciton(SDF),占用场Occupancy Field,神经辐射场Neural Radiance Field(NeRF)的概念、联系与区别。 三维空间的表示形式可以分为显式和隐式。 比较常用的显式表示比如 体素Voxel , 点云Point Cloud , 三角面片Mesh 等。 比较常用的隐式表示有 符

    2024年02月15日
    浏览(13)
  • 51 -25 Scene as Occupancy,场景作为占用 论文精读

    51 -25 Scene as Occupancy,场景作为占用 论文精读

    本文阅读的文章是Scene as Occupancy,介绍了一种将物体表示为3D occupancy的新方法,以描述三维场景,并用于检测、分割和规划。 文章提出了OccNet和OpenOcc两个核心概念。 OccNet 3D占用网络是一种以多视图视觉为中心的方法,通过层级化的体素解码器,可以重建3D感知模型和3D占用,

    2024年02月22日
    浏览(12)
  • 51 -25 Scene as Occupancy 场景即占用 论文精读

    51 -25 Scene as Occupancy 场景即占用 论文精读

    本文阅读的文章是Scene as Occupancy,介绍了一种将物体表示为3D occupancy的新方法,以描述三维场景,并用于检测、分割和规划。 文章提出了OccNet和OpenOcc两个核心概念。 OccNet 3D占用网络是一种以多视图视觉为中心的方法,通过层级化的体素解码器,可以重建3D感知模型和3D占用,

    2024年02月21日
    浏览(9)
  • 【PMLR21‘论文阅读】Perceiver: General Perception with Iterative Attention

    【PMLR21‘论文阅读】Perceiver: General Perception with Iterative Attention

    Jaegle, A., Gimeno, F., Brock, A., Vinyals, O., Zisserman, A., Carreira, J. (18–24 Jul 2021). Perceiver: General Perception with Iterative Attention. In M. Meila T. Zhang (Eds.), Proceedings of the 38th International Conference on Machine Learning (Vol. 139, pp. 4651–4664). PMLR. https://proceedings.mlr.press/v139/jaegle21a.html Perceiver:迭代关注的

    2024年02月20日
    浏览(7)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包