PolarFormer:Multi-camera 3D Object Detection with Polar Transformer——论文笔记

这篇具有很好参考价值的文章主要介绍了PolarFormer:Multi-camera 3D Object Detection with Polar Transformer——论文笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

参考代码:PolarFormer

1. 概述

介绍:在仓库RoboBEV中总结了现有的一些bev感知算法在不同输入情况下的鲁棒性,在这些感知算法中PolarFormer拥有较为不错的泛化性能。这个算法的思想是将之前由直角坐标系栅格化构建bev网格,转换到由极坐标构建栅格化bev网格,这样的bev特征构建方法其实是符合相机成像过程的,在W维度切分的单个竖向特征代表的便是由光心和两条射线组成的扇形区域。其大体过程为:首先需要使用transformer机制对各个扇形区域进行特征抽取,而完整的感知区域(一个由车体为中心的圆形区域)则通过双线性插值的方式在各个扇区取值得到,之后会经过self-attention网络完成特征优化,而且fov到bev特征转换的过程会在多个特征尺度上完成,因而这个过程构建的是一个多尺度bev特征,最后的感知头则是类detr的实现。整体上看这个算法从bev特征构建、获取、感知预测简洁明了,但是这样的算法构建要是上车部署估计还有一段路要走。

在RoboBEV中变化不同的输入情况下PolarFormer的退化情况:
PolarFormer:Multi-camera 3D Object Detection with Polar Transformer——论文笔记

2. 方法设计

2.1 整体pipeline

整个bev感知算法的结构见下图所示:
PolarFormer:Multi-camera 3D Object Detection with Polar Transformer——论文笔记
结合上图内容可以将整个算法结构划分为如下几个部分:

  • 1)使用backbone+fpn实现图像特征抽取
  • 2)以车体为中心对感知范围划分不同的扇区,并以扇区构建query,通过cross-attention的形式得到各个扇区的特征表达
  • 3)对各个扇区通过双线性插值得到完整bev特征,在此基础上通过self-attention完成bev特征优化和对齐
  • 4)设置需要感知目标的query通过mul-scale deformable attention实现在多尺度特征下的感知

2.2 fov到bev的转换

这篇文章中bev特征的表达和感知都是在极坐标下完成的,因而需要在特征转换的时候也需要直角坐标系到极坐标系的转换,如下图:
PolarFormer:Multi-camera 3D Object Detection with Polar Transformer——论文笔记

对于图像中的点 ( x ( I ) , y ( I ) ) (x^{(I)},y^{(I)}) (x(I),y(I)),图像视锥坐标系下的点 ( x ( C ) , y ( C ) , z ( C ) ) (x^{(C)},y^{(C)},z^{(C)}) (x(C),y(C),z(C)),极坐标系下的点 ( ϕ P , ρ ( P ) ) (\phi^{P},\rho^{(P)}) (ϕP,ρ(P)),它们的转换关系为:
ϕ ( P ) = a r c t a n x ( C ) z ( C ) = a r c t a n x ( I ) − u 0 f x \phi^{(P)}=arctan\frac{x^{(C)}}{z^{(C)}}=arctan\frac{x^{(I)}-u_0}{f_x} ϕ(P)=arctanz(C)x(C)=arctanfxx(I)u0
ρ ( P ) = ( x ( C ) ) 2 + ( z ( C ) ) 2 = z ( C ) ( x ( I ) − u 0 f x ) 2 + 1 \rho^{(P)}=\sqrt{(x^{(C)})^2+(z^{(C)})^2}=z^{(C)}\sqrt{(\frac{x^{(I)}-u_0}{f_x})^2+1} ρ(P)=(x(C))2+(z(C))2 =z(C)(fxx(I)u0)2+1
上面的转换关系会在生成GT的过程中参与到,而在对应特征转换和预测过程中是不会怎么涉及的,这里没有假定扇形区域深度的概念,对于扇形范围的特征为 p ^ x , u , w ∈ R R u ∗ C \hat{p}_{x,u,w}\in R^{R_u*C} p^x,u,wRRuC,其中 ( x , u , w , R u ) (x,u,w,R_u) (x,u,w,Ru)分别代表camera_id,多尺度特征index,特征的宽度和极坐标的范围(也就是对应的range)。则对应的图像特征为 f x , u , w ∈ R H u ∗ C f_{x,u,w}\in R^{H_u*C} fx,u,wRHuC,那么后面就是根据cross-attention实现扇区特征的获取:
p n , u , w = M u l t i H e a d ( p ^ n , u , w , f x , u , w , f x , u , w ) p_{n,u,w}=MultiHead(\hat{p}_{n,u,w},f_{x,u,w},f_{x,u,w}) pn,u,w=MultiHead(p^n,u,w,fx,u,w,fx,u,w)
上面得到的是一个扇区的特征表达,那么周视的完整bev特征表达就是这些扇区的叠加:
p n , u = S t a c k ( [ p n , u , 1 , … , p n , u , w u ] , d i m = 1 ) ∈ R R u ∗ W ∗ C p_{n,u}=Stack([p_{n,u,1},\dots,p_{n,u,w_u}], dim=1)\in R^{R_u*W*C} pn,u=Stack([pn,u,1,,pn,u,wu],dim=1)RRuWC
按照上面的过程已经得到一个特征scale下的表达,则实际bev极坐标到图像视锥极坐标的转换就需要通过采样的方式实现了,这里也是借鉴了世界坐标到图像坐标的转换,也就是
( ϕ P , ρ ( P ) ) = C a m I C a m E ( ϕ W , ρ ( W ) ) (\phi^{P},\rho^{(P)})=Cam_ICam_E(\phi^{W},\rho^{(W)}) (ϕP,ρ(P))=CamICamE(ϕW,ρ(W))
然后对这些投影过来的点按照双线性插值的方式获取实际bev极坐标下的特征表达:
G u ( ρ i ( P ) , ϕ j P ) = 1 ∑ n = 1 N ∑ n = 1 Z λ n ( ρ i ( P ) , ϕ i ( P ) , z k ( P ) ) ⋅ ∑ n = 1 N ∑ n = 1 Z λ n ( ρ i ( P ) , ϕ i ( P ) , z k ( P ) ) B ( P n , u , ( x ˉ i , j , k , n ( I ) , r ˉ i , j , n ) ) G_u(\rho^{(P)}_i,\phi^{P}_j)=\frac{1}{\sum_{n=1}^N\sum_{n=1}^Z\lambda_n(\rho_i^{(P)},\phi_i^{(P)},z_k^{(P)})}\cdot\sum_{n=1}^N\sum_{n=1}^Z\lambda_n(\rho_i^{(P)},\phi_i^{(P)},z_k^{(P)})\mathcal{B}(P_{n,u},(\bar{x}_{i,j,k,n}^{(I)},\bar{r}_{i,j,n})) Gu(ρi(P),ϕjP)=n=1Nn=1Zλn(ρi(P),ϕi(P),zk(P))1n=1Nn=1Zλn(ρi(P),ϕi(P),zk(P))B(Pn,u,(xˉi,j,k,n(I),rˉi,j,n))
上面得到的特征还是比较原始的特征还需要经过几层self-attention网络进行特征优化和对齐操作。那么使用这样的坐标达标具体会有什么样的收益?见下表
PolarFormer:Multi-camera 3D Object Detection with Polar Transformer——论文笔记
而这里的扇形划分分辨率和range对性能的影响:
PolarFormer:Multi-camera 3D Object Detection with Polar Transformer——论文笔记
极坐标建模与直角坐标建模在不同距离下的性能差异:
PolarFormer:Multi-camera 3D Object Detection with Polar Transformer——论文笔记

2.3 感知头部分

前面得到的bev特征是多尺度的,则在感知头部分便使用multi-scale deformable attention构建head部分,其结构见下图所示:
PolarFormer:Multi-camera 3D Object Detection with Polar Transformer——论文笔记
对于multi-scale特征给网络性能带来的影响见下表:
PolarFormer:Multi-camera 3D Object Detection with Polar Transformer——论文笔记

3. 实验结果

nuScenes test set:
PolarFormer:Multi-camera 3D Object Detection with Polar Transformer——论文笔记文章来源地址https://www.toymoban.com/news/detail-500044.html

到了这里,关于PolarFormer:Multi-camera 3D Object Detection with Polar Transformer——论文笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 【论文笔记】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enh

    【论文笔记】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enh

    【论文笔记】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enhancement 原文链接:https://ieeexplore.ieee.org/abstract/document/10363646 本文的3DOPFormer使用空间交叉注意力机制和反卷积恢复3D占用,然后基于激光雷达射线方向特征提出优化3D占用感知模型的新方法。使

    2024年01月25日
    浏览(14)
  • 超全 | 基于纯视觉Multi-Camera的3D感知方法汇总!

    超全 | 基于纯视觉Multi-Camera的3D感知方法汇总!

    近两年,基于纯视觉BEV方案的3D目标检测备受关注,all in one方式,确实能将基于camera的3D检测算法性能提升一大截,甚至直逼激光雷达方案,这次整理了领域中一些备受关注的multi-camera bev纯视觉感知方案,包括DETR3D、BEVDet、ImVoxelNet、PETR、BEVFormer、BEVDepth、BEVDet4D、BEVerse等!

    2023年04月08日
    浏览(9)
  • 多模态融合2022|TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers

    多模态融合2022|TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers

    论文题目:TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers 会议:CVPR2022 单位:香港科技大学,华为 1.摘要+intro 作者认为目前的坑是在point-wise级的融合,之前方法存在两个主要问题,第一,它们简单地通过逐个元素相加或拼接来融合LiDAR特征和图像特征,因此

    2023年04月08日
    浏览(15)
  • [论文笔记] SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving

    [论文笔记] SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving

    Wei, Yi, et al. “Surroundocc: Multi-camera 3d occupancy prediction for autonomous driving.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023. 将占用网格应用到多个相机构成的3D空间中; 使用BEVFormer中的方法获取3D特征, 然后使用交叉熵损失计算loss; 和BEVFormer区别是BEV中z轴高度为1, 这里

    2024年02月04日
    浏览(16)
  • 实时 3D 深度多摄像头跟踪 Real-time 3D Deep Multi-Camera Tracking

    论文url https://arxiv.org/abs/2003.11753 提出了一个名为Deep Multi-Camera Tracking (DMCT)的实时3D多摄像机跟踪系统。该系统旨在解决使用多个RGB摄像机进行3D人群跟踪的挑战性任务。 多个RGB摄像机的实时视频帧,每个视频帧是一个彩色图像,具有高度和宽度的像素矩阵。 基础卷积层(Ba

    2024年04月09日
    浏览(17)
  • BEV学习--Sparse4D Multi-view 3d object detection with Sparse Spatial-Temporal Fusion

    BEV学习--Sparse4D Multi-view 3d object detection with Sparse Spatial-Temporal Fusion

    BEV方法最近在多视图3D检测任务中取得了很大进展。Sparse4D通过sparsely sampling和fusing spatial-temporal features 对anchor box进行迭代改进: (1)Sparse 4D Sampling: 对于每个3D anchor,我们分配多个4D关键点,然后将其投影到多视图/尺度/时间戳图像特征,用来采样相应的特征。 (2)Hierarc

    2024年04月13日
    浏览(19)
  • 【论文阅读】OccNeRF: Self-Supervised Multi-Camera Occupancy Prediction with Neural Radiance Fields

    【论文阅读】OccNeRF: Self-Supervised Multi-Camera Occupancy Prediction with Neural Radiance Fields

    原文链接:https://arxiv.org/abs/2312.09243 3D目标检测任务受到无限类别和长尾问题的影响。3D占用预测则不同,其关注场景的几何重建,但多数方法需要从激光雷达点云获取的3D监督信号。 本文提出OccNeRF,一种自监督多相机占用预测模型。首先使用图像主干提取2D特征。为节省空间

    2024年02月02日
    浏览(13)
  • PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images

    PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images

    PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images 旷视 本文的目标是 通过扩展 PETR,使其有时序建模和多任务学习的能力 以此建立一个 强有力且统一的框架。 本文主要贡献: 将 位置 embedding 转换到 时序表示学习,时序的对齐 是在 3D PE 上做 姿态变换实现的。提出了

    2024年02月16日
    浏览(12)
  • PETR: Position Embedding Transformation for Multi-View 3D Object Detection

    PETR: Position Embedding Transformation for Multi-View 3D Object Detection 旷视 DETR3D 中 2D-3D过程 存在的问题: 预测的参考点坐标可能不准确,在采样图片特征时可能拿不到对应的特征。 只有参考点 投影位置的图像特征被使用,无法学到全局的特征。 采样图像特征的过程过于复杂,难于应用

    2024年02月16日
    浏览(12)
  • 【论文笔记】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection

    【论文笔记】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection

    原文链接:https://openaccess.thecvf.com/content/WACV2024/html/Wu_A_Robust_Diffusion_Modeling_Framework_for_Radar_Camera_3D_Object_WACV_2024_paper.html 本文使用概率去噪扩散模型的技术,提出完全可微的雷达-相机框架。使用校准矩阵将雷达点云投影到图像上后,在特征编码器和BEV下的Transformer检测解码器中

    2024年01月18日
    浏览(17)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包