BEVFormer: Learning Bird‘s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Trans

南京大学的研究团队提出BEVFormer,利用Transformer的注意力机制生成准确的BEV特征,解决深度信息不准确导致的3D检测性能问题。通过BEVquery、空间cross-attention和时序自注意力设计,有效融合多相机视图和历史BEV特征。

作者单位

南京大学,上海人工智能实验室

目的

动机:

  1. BEV的感知方式在多项任务中有较好的表现,但是在 3D 检测任务中,并没有明显的由于其它方法。原因是当前流行的生成 BEV 的方案对深度值 或 深度分布的准确性比较很敏感。不准确的 BEV特征会损害性能。本文想设计一种不依赖深度信息的 BEV 生成方式。 Transformer 可以利用注意力机制可以动态的聚合特征,可以满足本文的需求。
  2. BEV 是连接时间和空间的理想桥梁。时间信息在推断物体的运动状态和识别被遮挡的物体方面有重要作用。但如果只是简单的叠加时序的 BEV特征,结果可能并不理想。本文借了 RNN 的方法,可以循环的利用 BEV 特征。

因此本文提出了以 BEVFormer, 可以有效地聚合 多视图相机的时空特征 和 历史 BEV 特征。

方法

网络结构

BEVFormer 架构
6个 encoder 层,基本都遵循 Transformer 的结构,除了3个自定义的设计:BEV query,空间 cross-attention, 空间自注意力。
BEV query 是网格状可学习的参数,旨在通过注意力机制 从多相机视图查询 BEV空间中的特征。
在 推理阶段,先生成多相机的图像特征。然后用 BEV queries 通过时序自注意力 从历史帧的特征上查询空间信息。然后使用 BEV queries 结合 cross-attention 从多相机特征 查询空间信息。在 FFN 之后,encoder 会输出 refined 的BEV 特征,作为下一层 encoder 的输入。经过 6 个堆叠的 encoder ,会生成一个 当前帧的 BEV feature,用于一些特定任务的 head。

BEV queries, 一个 shape 为 HxWxC 的可学习 向量,更具体的,query 上每一个位置都和 真实世界的位置一一对应。按照常规的做法,会加入 可学习的位置 embedding 到 BEV queries 中,输入到 BEVFormer。

空间 cross-attention
如果直接对多相机的特征做自注意力,多头注意力的成本很高。于是本文提出了 空间 cross-attention,其中每个 BEV queris 至于多相机视图中感兴趣交互。最初 deformable attention 视为 2D 感知设计的,所以 3D场景需要做一些调整。
首先将 BEV平面上的每个 queries lift 到 柱状(pillar-like )queries, 从中采样 N个 3D 参考点。然后将这些参考点 投影到 2D 视图。这些参考点只会落在一些视图上。然后从命中的视图参考点 附近采样一些特征。然后讲这些采样的特征 家全球和,作为 空间 cross-attention 的输出。

时序自注意力
首先将 T-1 帧的特征 和 T 帧的特征 在空间上对齐,然后做 deformable 注意力。
![[attachments/Pasted image 20230813210210.png]]

这里的 Q_p 表示 在 p=(x,y) 位置的 BEV query

相关资料

https://www.bilibili.com/video/BV1PF411c78z/?vd_source=00106fd989dcb83a8a603de5e4375920

https://www.bilibili.com/video/BV1A34y1W7Lu/

下载代码方式:https://pan.quark.cn/s/e2157c05e625 在信息技术领域中,数学问题的复杂求解在很大程度上依赖于数值计算,这在科学计算、工程分析以及数据分析等多个方面尤为重要。线性方程组的求解是数值计算中的一个核心且关键的问题,而雅克比迭代法作为一种有效策略,专门用于处理大规模稀疏线性方程组。这个资源提供了一段采用C++语言编写的雅克比迭代法源代码,配合附带的博客文章,能够帮助使用者深入掌握此方法的基本原理和实际应用。 雅克比迭代法,有时也被称作局部迭代方法,主要用于求解形式为 Ax = b 的线性方程组,其中矩阵A需满足对角占优的条件。对角占优的特性是指矩阵中每个对角线元素的绝对值要大于该行其他元素绝对值之和,这一性质确保了算法的收敛性能。该方法的实施基于矩阵A的雅克比矩阵J,其构成方式为 J = D - L - U,其中D、L和U分别代表矩阵A的对角线部分、下三角部分以及上三角部分。 迭代过程的数学表达式为:x(k+1) = J^-1 * b + (I - J^-1*A) * x(k),在此表达式中,x(k)表示第k次迭代的解向量,x(k+1)则是第k+1次迭代的解向量,I是单位矩阵。每次迭代都利用前一次得到的解来计算下一次的解,迭代会持续进行,直到解的精度达到预设标准或迭代次数达到最大限制。 在使用C++进行编程实现时,主要步骤包括: 1. 初始化阶段:设定初始解向量x(0),并明确迭代过程中的参数,例如最大迭代次数和容许的误差界限。 2. 构建雅克比矩阵:依据矩阵A的非对角元素来形成J矩阵。 3. 迭代计算:依照上述迭代公式计算新的解向量,并验证是否满足终止条件(即当前解与前一次解的差值小于设定的误差界限)。 4. 结果输出...
源码下载地址: https://pan.quark.cn/s/24e22475d2c3 采用SSM框架构建的果蔬生鲜超市平台,亦称为果蔬在线交易系统。其用户界面部分涵盖了:账号登录流程、新用户注册功能、购物车内容维护、订单状态监控、收货地点设置、商品检索服务、商品购买操作等。系统后台则由以下核心单元构成:用户账户维护、收货地址簿维护、商品分类维护、商品信息维护、货品出库单维护、订单状态跟踪、销售业绩统计、系统整体配置等。采用SSM框架构建的果蔬生鲜超市平台,亦称为果蔬在线交易系统。其用户界面部分涵盖了:账号登录流程、新用户注册功能、购物车内容维护、订单状态监控、收货地点设置、商品检索服务、商品购买操作等。系统后台则由以下核心单元构成:用户账户维护、收货地址簿维护、商品分类维护、商品信息维护、货品出库单维护、订单状态跟踪、销售业绩统计、系统整体配置等。采用SSM框架构建的果蔬生鲜超市平台,亦称为果蔬在线交易系统。其用户界面部分涵盖了:账号登录流程、新用户注册功能、购物车内容维护、订单状态监控、收货地点设置、商品检索服务、商品购买操作等。系统后台则由以下核心单元构成:用户账户维护、收货地址簿维护、商品分类维护、商品信息维护、货品出库单维护、订单状态跟踪、销售业绩统计、系统整体配置等。采用SSM框架构建的果蔬生鲜超市平台,亦称为果蔬在线交易系统。其用户界面部分涵盖了:账号登录流程、新用户注册功能、购物车内容维护、订单状态监控、收货地点设置、商品检索服务、商品购买操作等。系统后台则由以下核心单元构成:用户账户维护、收货地址簿维护、商品分类维护、商品信息维护、货品出库单维护、订单状态跟踪、销售业绩统计、系统整体配置等。
源码下载地址: https://pan.quark.cn/s/a4b39357ea24 在当前文档中,我们将详细研究如何运用Eclipse集成开发环境(IDE)的自定义CSS选项来调整其所有视窗的背景色调以及其他常用视窗的色调。Eclipse作为一个功能强大的开源开发平台,能够支持多种编程语言,包括Java、C++以及Python等。对于那些长时间运用Eclipse的开发专业人士而言,个性化界面色调能够显著提升工作舒适感和效率。让我们深入理解Eclipse的色彩配置机制。Eclipse依托于SWT(Standard Widget Toolkit)框架,允许用户通过调整主题和CSS样式来改变其视觉呈现。在默认设置下,Eclipse会采用系统级别的视窗色调,但用户可以通过覆盖特定的CSS文件来实现个性化定制,而无需触及操作系统本身的设置。 实施步骤1:定位Eclipse的CSS文件 Eclipse的CSS文件通常存储在以下路径位置: ``` <eclipse安装目录>\plugins\org.eclipse.platform_<version>\css ``` 此处,`<eclipse安装目录>`代表用户安装Eclipse的文件夹位置,`<version>`指代Eclipse的版本标识。 实施步骤2:对原始CSS文件进行备份 在进行任何修改之前,务必对原CSS文件进行备份操作,以便在出现问题时能够迅速恢复到原始状态。备份文件通常命名为`e4.css`和`e4_basestyle.css`。 实施步骤3:建立或编辑CSS文件 创建一个新的CSS文件(例如`custom_theme.css`),并插入以下内容以设定窗口背景色: ```css .e4-applicatio...
代码下载地址: https://pan.quark.cn/s/a4b39357ea24 根据所提供的文件资料可以判断,这是一份关于RS232转422/485转换器电路原理图的详尽设计文档。该文档全面地列出了电路中各个组件及其连接方法,对于掌握RS232与422/485之间的信号转换原理具有非常重要的参考意义。 ### RS232、RS422与RS485概述 在开始深入剖析电路原理图之前,有必要先对RS232、RS422与RS485这三种通信协议的基本概念进行简要介绍。 #### RS232 RS232是一种应用于串行数据通信的接口规范,主要适用于计算机与调制解调器或其他外部设备之间的数据交互。该接口标准支持点对点的通信模式,通信距离通常不超过15米,并且较为容易受到外界干扰的影响。 #### RS422 RS422是一种经过改进的串行通信标准,其核心特点在于采用差分信号进行传输,支持多点的通信模式,即一个发送端能够同时向多个接收端传输数据,通信距离最远可达1200米,并且具有较强的抗干扰性能。 #### RS485 RS485是建立在RS422基础之上的进一步发展,同样运用差分信号进行传输,其最突出的特点在于支持半双工通信模式,即在同一时刻只能进行发送或接收操作,但发送端和接收端的位置可以互换,非常适合于长距离、多设备之间的数据传输,通信距离同样可以达到1200米,并且能够支持多达32个设备接入。 ### RS232转422/485转换器电路解析 在电路原理图中,可以观察到采用了MAX490CPA和MAX485CPA芯片作为RS232与RS422/485之间的信号转换装置,同时使用了MAX233ACPP芯片作为RS232电平转换装置。 #### MAX490CP...
内容概要:本文档系统汇集了“计及电动汽车充电站接入的配电网承载能力评估与优化”的Matlab代码实现资源,覆盖无功优化、多时间尺度调度、N-1/N-k故障分析、电动汽车V2G技术、微电网协调调度、电氢耦合系统、风光储联合系统等多个电力系统前沿研究方向。资源以Matlab/Simulink为核心工具,辅以Python,提供大量可复现的科研代码实例,涵盖从建模、优化算法(如NSGA-II、DDPG、MPC、PSO等)到仿真验证的全流程。同时拓展至机器学习、深度学习、路径规划、信号处理、无人机控制、综合能源系统优化等多个交叉领域,配套网盘资料与公众号支持,助力科研人员高效开展创新研究与高水平论文复现。; 适合人群:具备电力系统基础知识和Matlab编程能力,从事电气工程、能源互联网、智能电网、综合能源系统等方向研究的研究生、科研人员及工程技术人员。; 使用场景及目标:①研究电动汽车大规模接入对配电网安全性、稳定性及承载力的影响;②构建含V2G的无功优化与电压协同控制模型;③实现多时间尺度下微电网与配电网的协调调度;④复现N-1/N-k故障下的安全约束调度、鲁棒恢复等复杂优化模型;⑤开展综合能源系统、电氢氨耦合系统等新兴领域的仿真与优化研究; 阅读建议:建议结合提供的网盘资源与公众号内容体系化学习,优先掌握核心案例的算法架构与建模逻辑,按研究主题分类深入,并注重将理论方法与代码实践紧密结合,提升科研效率与创新能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值