BEV:典型BEV算法总结

张开发
2026/4/21 1:29:14 15 分钟阅读

分享文章

BEV:典型BEV算法总结
核心差异1. 视角转换1显示视角转换FastBEVIPMBEVDepthLSS2隐式视角转换DETR3Dquery-based单参考点采样PETRquery-based3D位置编码标准TransformerBEVFormer显示稠密BEV query映射SparseBEV显示稀疏BEV query映射Sparse4D实例级query-based多个参考点采样2. head设计query-basedDETR3DPETRBEVFormerSparse4DBEV-featureFastBEVBEVDepthSparseBEVvoxelSurroundOcc对比总结算法代表核心特点解决的问题视角转换head设计多任务OD / OCC时序扩展潜力依赖项算力FastBEV1. 显式 IPM 几何投影高效率易工程落地1. 解决 BEV 方法精度高但推理慢、部署重的问题。1. 显式投影将图像特征通过几何关系映射到 BEV 网格2. 基于 BEV feature 的 dense head。1. OD强OCC弱到中等。2. 时序扩展弱。3. 在实时部署、量产导向上潜力大。4. 依赖标定质量和 BEV 网格设计。5. 算力需求低。BEVDepth1. 显式引入深度估计增加深度信息1. 解决图像到 BEV 转换中深度不准导致空间对齐差的问题。1. 显式深度估计下的 3D 视角转换2. 基于 BEV feature 的 dense head。1. OD强OCC中等。2. 时序扩展中。3. 平衡性能与算力。4. 依赖相机标定与深度估计质量。5. 算力需求中等。DETR3D1. query-based 的多视角 3D 检测2. 不显式构建 dense BEV3. NMS free更优雅。1. 多相机 3D 检测自主融合2. 减少 BEV 映射流程3. 较小后处理复杂度。1. 隐式视角转换query-based 的 3D 参考点特征采样单点2. query-based 检测 head。1. OD强OCC弱不适合稠密场景表示。2. 时序扩展弱。3. 多任务平台潜力有限。4. 强依赖相机标定与 query 设计。5. 算力需求中等。PETR1. 隐式构建图像深度为每个图像像素生成 3D 深度位置编码ego 系2. 标准 attention 更简洁图像特征 3D 位置编码与图像特征相加得到 K图像特征为 V标准 query query_pose 为 Q。1. 为 2D 特征增加隐式深度信息2. 不需要显式深度监督避免显式深度误差传递3. 更适合 query-based 的检测范式。1. 隐式视角转换2. query-based 检测 head。1. OD强OCC弱比 DETR3D 空间建模更强但不如 BEVFormer / BEVDepth。2. 时序扩展弱。3. 多视角 3D 检测潜力较强。4. 强依赖位置编码设计与相机标定。5. 算力需求中等。BEVFormer1. 显式构建 BEV 网格引入 BEV query通过 spatial cross-attention 将 2D 的 BEV 坐标映射为多个 3D 参考点通过线性映射得到参考点的可学习偏移量与参考点相加构成采样点坐标2. deformable attention多个稀疏的全局特征采样学习采样点偏移量及对应的权重系数3. 支持时序融合。1. 减少传感器参数误差对模型性能影响2. 减小对地平假设的依赖3. 对不同传感器参数的鲁棒性更强。1. 显式 BEV query 视角转换2. query-based 检测 head。1. OD强OCC强。2. 时序扩展强。3. 适合向地图与规划扩展。4. 依赖较强的工程化能力。5. 算力需求高。SparseBEV1. 构建稀疏的 BEV 关键点提取关键目标特征信息2. 保留 BEV 中间表示方便时序和多任务扩展。1. 解决 dense BEV 表示计算量大、冗余区域太多的问题2. 是 query-based 与稠密 BEV 的折中。1. 构建稀疏 BEV 表示只在关键区域进行计算和更新2. 稀疏 BEV detection head兼顾 BEV 结构和效率。1. OD强OCC中。2. 时序扩展弱。3. 在精度与效率平衡方面很有潜力适合工程优化。4. 强依赖稀疏区域筛选策略。5. 算力需求低。Sparse4D1. 用稀疏实例表示不显式构建 dense BEV2. 预测动态目标速度进行多帧关联3. 维护每个目标的跨时间状态并持续更新4. 构建 13 个关键点中心点、6 个面、6 个随机点进行特征采样。1. 解决 dense BEV 计算重、时序建模成本高的问题。1. 隐式视角转换偏稀疏实例级视角聚合2. 稀疏实例 head围绕目标级表示做检测和时序更新。1. OD强OCC弱。2. 时序扩展强。3. 在动态目标、时序建模、高效实例级感知上潜力很大。4. 依赖时序关联质量、训练策略设计。5. 算力需求中等。SurroundOcc1. 从检测走向 3D occupancy 场景理解强调完整空间表示。1. 解决只靠目标框难以表达复杂场景结构的问题尝试恢复完整 3D 占用状态。1. 显式 3D voxel / occupancy 空间映射2. occupancy head预测体素占用和语义而非仅输出目标框。1. OD中等OCC强。2. 时序扩展中。3. 是世界模型、场景理解、高阶自动驾驶的重要方向。4. 强依赖高质量标注。5. 算力需求高。选型推荐如果你更关心更推荐先看单任务 3D 检测DETR3D、PETR高精度 BEV 多任务BEVFormer、BEVDepth实时部署或量产FastBEV、SparseBEV时序动态目标Sparse4D、BEVFormer完整 3D 场景理解或 OCCSurroundOcc

更多文章