服务咨询:

4009660626

彩客网手机版的产品中心

 

3d相机

彩客网首页的版权所有© 深圳市深视智能科技有限公司      

  • gf
  • 在线客服:
    0755-2965 5425

  • gf
  • 售前咨询:2850370855 裘小姐
    销售部:2850370850 张先生

  • gf

新闻资讯

 

公司新闻

行业动态

产品知识

 

 

彩客网下载的服务支持

 

用户手册

彩客网下载的技术支持

资料下载

 

 

关注深视

新闻资讯

news

资讯详情

基于点云 / rgbd的3d视觉检测技术-彩客网手机版

浏览量
【摘要】:

基于点云 / rgbd的3d视觉检测技术

 
 
 

 

3d视觉技术相较于2d视觉能获取更丰富更全面的环境信息,已经成为机器人导航、无人驾驶、增强/虚拟现实、工业检测等领域的关键技术.当前基于2d的的计算机视觉技术日趋成熟,在很多领域取得了很不错的进展,但我们真实的世界是三维空间,利用2d的技术对真实世界进行建模存在先天的缺陷——深度信息缺失,我们不能从2d图片中获得物体的绝对尺度和位置,而这一点在点云中不会存在问题.“”介绍了基于单目(monocular)视觉以及双目(binocular)视觉的3d目标检测算法,单目做3d检测完全是数据驱动,通过机器学习模型结合摄影几何的约束去拟合3d空间的数据分布;双目视觉会有额外的视差信息,可以重建出景深信息,所以可以得到比单目视觉更强的空间约束关系,在3d目标检测任务重的精度相比单目会更好.

1. 基于鸟瞰图(bird-eye-view)的方法:

 

此类方法将点云投射到鸟瞰图上,利用bev图生成proposal区域进而结合多个模态rgb/front-view点云进行3d bbox的预测. 其中代表性的方法有mv3d[1] 和avod[2]

 

mv3d

从上图可以看到,作者将鸟瞰图中点云进行离散化,按照0.1m x 0.1m的cell进行投影并针对按照z轴将点云划分成m层得到具有m个通道的height map; density map是统计的投影到x-y平面的点云密度; intensity map是对点云中每个点反射强度的统计. 下图是mv3d的网络结构图,分为三个分支,采用cnn对每个分支进行encoding,其中利用第一个bve分支进行proposal box的预测.该框架属于两阶段预测的方法,在第二个refine的阶段,作者实验了不同的策略对第一阶段三个分支的latent feature进行融合 :

 

early fusion, late fusion 和 deep fusion, deep fusion的方式增加了中间层不同模态特征的交换效果相比前两种方式稍好.

avod可以理解为mv3d的加强版本也是2-stage的方法,由于mv3d的最后做proposal的feature map相较于原始输入小了8倍,导致其对小目标物体极其不友好,而avod则采用了时下流行的fpn结构,最后融合后的feature map为full resolution,同时保留了不同level的图像信息(底层细节 高层语义),这样就提高了对小目标物体的检测能力。 avod只使用了bev和 rgb图像,舍弃了mv3d中所有的fv(front view)和bev中的intensity feature,在保证性能的前提下减少了一个分支的计算量,在作者的实验中bev和rgb图像足够诠释物体在3d空间中的信息。另一个区别,相比mv3d中采用roipooiling进行特征采样,avod采用了crop-and-resize的策略.

此外avod尝试了三种不同的3d bounding box编码方式如下图所示,可以看到avod利用一个底面以及高度约束了3d bounding box的几何形状,即要求其为一个长方体,而mv3d只是给出了8个顶点,没有任何的几何约束关系。此外,mv3d中8个顶点需要一个24维(3x8)的向量表示,而avod只需要一个10维(2x4 1 1)的向量即可 , regression target : (∆x1…∆x4, ∆y1...∆y4, ∆h1, ∆h2)。

2. 基于voxel grid的方法:

 

基于体素的方法将整个场景的点云转换为体素网格(voxel grid),并使用3d cnn作为backbone进行proposal和后续物体bbox回归和分类。由于3d卷积由于多了一个深度/时间通道的存储和计算成本很高,以最基本的kernel size为例 3d (3x3x3) 参数量是2d (3x3) 的三倍, 在三维空间中进行卷积操作的扫描窗口数相比二维卷积也多了很多,所以通常基于3d卷积的方法计算成本通常相当高。目前基于voxel的检测/分割方法有3d-fcn[4] 和sparseconv[5]等

3d-fcn

 

该方法的主要工作是将densebox扩展到了3d voxel空间, 通过一个3d全卷积网络作为backbone进行encoding分别得到objectness map和 bounding box map, 然后通过对每一个区域进行分类和回归获取最终的结果.由于三维点云的天然稀疏性,所以对应的voxel grid也是稀疏的,作者在文中使用了额外的一个channel (0/1)去表达voxel是否是由点存在的.

sparseconv

 

3d卷积带来了计算和存储的大幅增加,尤其是当前网络深度变得越来越深这种计算变得非常昂贵. 针对点云的天然稀疏性特点(voxel化的结果也是具有稀疏性),卷积过程中有大量的操作可以省掉,稀疏卷积的目的就是减少无效的计算,提升卷机和池化的效率从而实现对稀疏特征图的加速计算.论文[5]中提出的submanifold sparse convolution network在保证精度不降低的前提下将计算量成倍降低同时存储量降低50%, 为了克服传统卷积active site扩张的问题, scnn通过引入active site的来保证卷积过程中特征图的稀疏.在具体实现上仍然使用传统卷积进行卷积,但是对于原input中为ground state(没有真值的grid)的部分,计算的时候直接丢弃,按照0来进行计算,从而使计算量减少。

暂时没有内容信息显示
请先在网站后台添加数据记录。