CVPR 19系列3 | Stereo R-CNN 3D 目标检测-白红宇

CVPR 19系列3 | Stereo R-CNN 3D 目标检测

阅读量：483 次

发布时间：2019-03-06

本文共 1050 字，大约阅读时间需要 3 分钟。

标题：基于双目视觉的三维物体检测方法——Stereo R-CNN

引言：近年来，双目视觉在自动驾驶和机器人学领域的应用受到广泛关注。传统的3D检测任务主要依赖于深度学习模型对单感数据的处理，但在实际应用中，这种方法往往存在多个挑战，如深度估计的不准确性和计算复杂度过高等。此外，与单帧检测器（如Faster R-CNN）相比，Stereo R-CNN能够同时利用左右双射影图像中的信息，显著提升2D目标检测与关联的性能。

核心方法： Stereo R-CNN主要由以下几个关键组件构成：

RPN Module（区域建议网络）：

在FPN（特征网）框架的基础上，分别对左右视图的特征图进行分析，生成对应的目标建议框。

通过融合左右图像的特征，提出的候选框覆盖了更多的目标区域，显著提高检测的鲁棒性。

Stereo Regression：

在得到RPN建议后，通过RoI Align操作，提取固定尺寸的特征图块。

通过全连接网络与特征融合，预测目标类别、3D边界框尺寸，以及视角角度信息。

3D Keypoint检测：

基于Mask R-CNN的思想，预测多个3D语义关键点。

通过投影到图像空间，生成相应的视角关键点，辅助3D边界框的精度提升。

Dense 3D Box Alignment：

采用基于深度的优化方法，结合左右视图的2D边界框信息，逐步调整3D边界框的精度。

主要采用高斯牛顿法进行非线性优化，确保最小化与真实几何约束的误差。

实验结果：在KITTI数据集上的实验结果展示了Stereo R-CNN的显著优势：

2D Detection和关联：

左右视图上的AR和AP值与Faster R-CNN保持相当。

左AR略低于RPN的原始输出，但右AR表现优异，表明方法的稳定性和一致性。

3D Detection和定位： -_linux相关的性能指标显示，该方法在3D检测（AP 3D）和定位任务中比传统基于立体图像的方法提升了约30%的精度优势。

关键点的效果评估：

关键点的引入显著改善了所有难度水平下的3D定位精度，尤其在远距离物体的检测中，减少了视差估计的误差。

总结： Stereo R-CNN通过结合双目视觉的稀疏、密集、语义和几何信息，提出了一种高效的3D物体检测方法。其核心思想在于通过深度优化和基于视点约束的3D盒定位，解决了传统任务的关键难点。这种方法不仅在理论上有创新性，而且在实际应用中展现了优异的性能，为自动驾驶和机器人学领域的3D目标检测提供了新的解决思路。

转载地址：http://bsxdz.baihongyu.com/

你可能感兴趣的文章

Objective-C实现combine With Repetitions结合重复算法（附完整源码）