字幕组双语原文:CVPR 2020 目标检测论文精选
英语原文:CVPR 2020: The Top Object Detection Papers
翻译:雷锋字幕组(李珺毅、沫年惜雪)
一、基于在点云上的3D目标检测的分层图形网络
原文标题:A Hierarchical Graph Network for 3D Object Detection on Point Clouds
这篇论文提出了一种基于图卷积(gconv)的三维目标检测层次图网络(hgnet)。这个网络通过处理原始点云,直接预测目标的3 d边界框。对于检测目标,HGNet能够捕捉这些点之间的关系并且使用多层次语义。
HGNet包含三个主要组件:
一个基于U型图卷积的网络(gu-net)
一个方案生成器
一个方案推理模块(ProRe Module) ----使用一个全连接层图表来推理方案
作者提出一个注意形态的图卷积 (SA-GConv)去捕捉原始的形状特征。这是通过建立模型的相对几何位置来描述物体的形状。
SA-GConv 基于u型网络捕捉多层次特征。然后映射到相同的特征空间的投票模块并且用于生成建议。在下一步中,GConv基于建议推理模块,利用方案来预测边框。
这里是在sun rgb-d v1数据集上获得的一些性能结果。
二、HVNET:基于激光雷达的3D目标检测的混合体素网络原文标题:HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection
这篇文章中使用的体素特征编码(VFE)包含3步:
体素化——将点云分配给2D体素网络
体素特征提取——计算和网络相关的点的特征,馈送到PointNet样式的功能编码器
投影——将逐点特征聚合到体素级特征并投影到其原始网格。这就形成了一个伪图像特征映射
体素的大小在VFE方法中非常重要。较小的体素尺寸可以捕获更精细的几何特征。它们也更擅长对象本地化,但推理时间更长。使用较粗的体素可以获得更快的推理速度,因为这会导致较小的特征图。但是,它的性能较差。
作者提出了混合体素网络(HVNet),以实现细粒度体素功能的利用。它由三个步骤组成:
多尺度体素化-创建一组特征体素尺度并将它们分配给多个体素。
混合体素特征提取-计算每个比例的体素相关特征,并将其输入到关注特征编码器(AVFE)中。每个体素比例尺上的要素都是逐点连接的。
动态要素投影-通过创建一组多比例项目体素将要素投影回伪图像。
这是在KITTI数据集上的实验结果
三、Point-GNN:用于3D目标检测的点云图神经网络原文标题:Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud
本文作者提供了图神将网络---Point-GNN---在LiDAR点云中检测物体。该网络预测了图中每个顶点所属对象的类别和形状。Point-GNN有一个自动回归机制,可以在一个输入中检测多个对象。
该方法由三个部分组成:
图构造:使用体素下采样点云进行图构造
一种T迭代的图形神经网络
边界框合并和得分
以下是在KITTI数据集上获得的结果:
代码:WeijingShi/Point-GNN
四、伪装目标检测原文标题:Camouflaged Object Detection
本文针对伪装对象检测(COD)所面临的挑战,对嵌入在其周围环境中的目标进行检测。作者还提供了一个名为COD10K的新数据集。它包含10,000张图片,覆盖了许多自然场景中伪装的物体。它具有78个对象类别。 图像带有类别标签,边界框,实例级别和消光级别的标签。
作者开发了一个称为搜索识别网络(SINet)的COD框架。代码可以在这里找到:DengPingFan/SINet
该网络有两个主要模块:
用于搜寻伪装物体的搜索模块
识别模块(IM)用于检测对象
以下是在各个数据集上得到的结果:
五、基于注意力- RPN和多关系检测器的少目目标检测原文标题:Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector
本文提出了一种少镜头目标检测网络,其目标是检测含有少量注释示例的不可见类别目标。
他们的方法包括注意力- RPN、多关系检测器和对比训练策略。该方法利用少镜头支持集和查询集之间的相似性来识别新对象,同时减少了误识别。作者还提供了一个包含1000个类别的新数据集,其中的对象具有高质量的注释。
fanq15/Few-Shot-Object-Detection-Dataset
该网络体系结构由一个具有多个分支的权重共享框架组成,一个分支是查询集,其他分支是支持集。权重共享框架的查询分支是一个更快的R-CNN网络。
介绍了一种带有多关系模块的注意- rpn和检测器,用于在支持和查询中可能出现的框之间精确解析。
下面是在ImageNet数据集上获得的一些结果。
以下是一些在一些数据集上获得的观察结果。
六、D2Det:面向高质量的对象检测和实例分割原文标题:D2Det: Towards High-Quality Object Detection and Instance Segmentation
本文作者提出了D2Det,一种既能精确定位又能精确分类的方法。他们引入了一个稠密的局部回归来预测一个目标建议区域的多个稠密盒偏移量。这使他们能够实现精确的定位。
为了实现准确的分类,本文还引入了一种有区别的RoI pooling方案。pooling方案从该方案的多个子区域中抽取样本,并进行自适应加权以获得识别特征。
代码:JialeCao001/D2Det
该方法基于标准的Faster R-CNN框架。在该方法中,传统的Faster R-CNN的盒偏置回归被提出的密集局部回归所代替。在该方法中,通过区分性的RoI pooling来增强分类能力。
在两阶段方法中,第一阶段使用区域建议网络(RPN),第二阶段使用单独的分类和回归分支。分类分支是基于区分池的。局部回归分支的目标是对象的精确定位。
以下是MS COCO数据集的结果:
思考CVPR 2020提供了更多关于目标检测和其他计算机视觉任务的探索和思考,如果您想进一步研究,这里的开源仓库包含所有的会议论文。
CVPR 2020 Open Access Repository
雷锋字幕组是一个由 AI 爱好者组成的翻译团队,汇聚五百多位志愿者的力量,分享最新的海外AI资讯,交流关于人工智能技术领域的行业变革与技术创新的见解。
团队成员有大数据专家、算法工程师、图像处理工程师、产品经理、产品运营、IT咨询人、在校师生;志愿者们来自IBM、AVL、Adobe、阿里、百度等知名企业,北大、清华、港大、中科院、南卡罗莱纳大学、早稻田大学等海内外高校研究所。
如果,你也是位热爱分享的AI爱好者。欢迎与雷锋字幕组一起,学习新知,分享成长。
雷锋网雷锋网