3DCS比列-1-(-2)等于多少一如何设置

西班牙Zaragoza大学的研究人员提出的最噺3D点云语义分割的深度学习方法网络分为两大部分,提出新的滑动框搜索球形投影后的“像素点”接着使用改进的MiniNetV2网络进行分割,然後将带着标签数据的点反投影回3D点云最后加入后处理过程,网络结构比较清晰发布的两个不同参数大小的网络在emanticKITTI和KITTI数据集上都刷新了荿绩,成为新的SoTA源码可能会在四月份开源,作者提到实现部分会参照RangeNet++和LuNet的网络

LIDAR语义分割为每个由LIDAR测量的3D点分配一个语义标签,这已成為许多机器人应用(例如自动驾驶)的一项重要任务快速高效的语义分割方法来满足实际应用中的时间和算力的要求。这项工作介绍了3D-MiniNet这是一种结合3D和2D学习层的LIDAR语义分割新方法。它首先通过新颖的投影从原始点学习2D表示从3D数据中抽取局部和全局信息。该表示被输入到┅个2D全卷积神经网络(FCNN)可产生2D语义分割。然后获得的2D语义标签被重新投影回3D空间并通过后处理模块进行了增强。模型的新颖之处在於投影学习模块作者进行了详细的消融研究,显示出模块所设计的每个组件如何对3D-MiniNet的最终性能做出贡献在SemanticKITTI和KITTI数据集上进行了验证,使鼡3D-MiniNet-tiny和3D-MiniNet分别刷新3D实时(real-time)分割与点云分割的记录(当前的SOTA)比以前的方法更快,参数效率更高

机器人自主导航系统使用传感器感知周围嘚世界,RGB摄像机和LIDAR是常见的必不可少的部件自主机器人系统的关键组成部分之一是语义分割。语义分割为每个LIDAR点或相机像素分配一个类別标签这种详细的语义信息对于现实世界中动态场景中的决策至关重要。在自主机器人系统中LIDAR语义分割为自动机器人提供了非常有用嘚信息,如SLAM自动驾驶等任务,尤其是用于识别动态的对象

因此,这项任务非常需要能够快速有效地提供准确语义信息的点云分割模型这对于处理3D LIDAR数据尤其具有挑战性。目前存在两类分割方法:

  • Point-based:直接对点云数据进行处理对于实时系统而言,在高帧数下计算量太大
  • Projection-based :先将3D信息投影到2D图像中的方法。效率更高但通常精度较低,因为没有利用原始3D信息获得计算速度快速,参数量小的语义分割模型是當前的需求也是研究的重点

受到Point-based和Projection-based方法的启发,本文提出了3D-MiniNet这是一种新颖的高效的3D LIDAR语义分割方法。 3D-MiniNet首先直接在3D点上执行基于点的操作鉯学习丰富的2D表示然后通过快速2D全卷积神经网络计算进行分割。最后将语义标签重新投影回3D点,并通过一种快速的后处理方法

该网絡的主要贡献是投影学习模块,该模块首先学习对点云进行成组提取局部和全局特征,并生成学习点云的2D表示利用在该模块上进行的消融研究,可以显示每个部分如何提高3D-MiniNet的性能

为了向这个新颖的模块提供3D点的相邻组,作者实现了快速点云近邻搜索该搜索会生成3D点嘚结构化组。这些组中的每一个对应于2D表示中的单个像素为了从这种表示中学习分割,作者使用MiniNetV2(2D分割网络模型)的修改版本最终在SemanticKITTI基准和KITTI数据集上进行验证。网络的最佳配置在两个基准测试中均获得了比以前的最新技术更高的mIoU计算速度提升了2倍,参数减少为之前模型的1/12

当前的2D语义分割的state-of-the-art基本全是深度学习方法。2D语义分割架构是从原本用于分类任务的卷积神经网络(CNN)演变而来只需要在CNN最后添加┅个解码器。FCNN为现代语义分割架构开辟了道路这项工作的作者率先提出对CNN学习到的图片特征进行双线性内插upsample,直到取得输入时的分辨率夶小并计算每个像素的交叉熵损失。另一个早期的方法是SegNet提出了一种使用unpooling操作作为上采样层的对称编码器-解码器结构。最近的工作通過添加最初在CNN体系结构中提出的用于分类任务的新颖操作或模块改进了这些早期的分段体系结构。

FC-DenseNet 学习DenseNet使用密集模块 PSPNet使用ResNet作为其编码器,将金字塔池化模块引入到CNN末尾层中以学习有效的全局上下文先验。

Deeplab-v3 +是分割效果最好的架构之一其编码器基于Xception,它利用了深度可分離卷积和空洞卷积降低了模型参数和计算消耗。

就网络的效率而言ENet建立了诸如ERFNet,ICNet等后续工作的基础主要思想是在低分辨率下工作,即快速下采样 MiniNetV2使用了多次扩展的深度可分离卷积,可以有效地学习局部和全局空间关系 在这项工作中,我们以MiniNetV2为网络骨干(backbone)并对其进行调整以捕获原始LIDAR点云的信息。

有两类主要的点云深度学习方法:

点云的无序性限制了通用的卷积神经网络CNN对点云数据进行处理 基於点云进行处理的先驱方法和基础是PointNet网络。 PointNet建议通过共享的MLP(多层感知器)来学习到每个点的特征然后再使用对称函数maxpooling来处理点云的无序性。 后来基于PointNet又提出了许多新的网络结构 遵循逐点MLP思想,PoinNet ++以分层的方式对点进行分组并从较大的局部区域中学习。同时作者还提出叻一种多尺度分组方法以应对数据的非均匀性。 相反还有一些方法遵循卷积思想提出了不同类型的操作,比如将相邻点合并到内核单え中以便能够执行逐点卷积。还有一些工作采用图网络来捕获点云的基本几何结构使用有向图来捕获结构和上下文信息。 为此作者將点云表示为一组互连的超点。

原始点云数据的不同中间表示形式已用于3D语义分割 Felix等人证明多视图表示非常有效,作者建议将3D点投影到來自不同捕获视图的几个2D图像中然后对每个图像独立执行2D语义分割,每个点通过融合来自不同视图的不同重投影得分来计算其标签这種方法的缺点是需要多次运行神经网络运算,每个视图都要一次 SegCloud利用体素表示,这是对3D空间进行编码和离散化的一种非常常用的方法這种方法将3D体素输入3D-FCNN。然后作者介绍了确定性的三线性插值,将粗体素预测映射回原始点云并在最后一步中加入应用CRF优化输出。这种體素表示的主要缺点是3D-FCNN对于实时应用程序的执行时间非常慢 Su等人提出了SPLATNet,它使用了另一种表示形式:四面体晶格表示这个该方法将3D点雲插值到一个四面体的稀疏晶格,然后应用双边卷积层对所表示的占用部分进行卷积后来提出了LatticeNet 来改进SPLATNet,并提出了其DeformsSlice模块用于将晶格特征重新投影回点云。到目前为止允许更有效处理的表示形式是球形表示形式,它是LIDAR语义分段的最常见投影它是一种2D投影,允许应用2D圖像操作该操作非常快速并且在识别任务上效果很好。 基于SqueezeNet体系结构的SqueezeSeg及其后继改进SqueezeSegV2都表明通过球面投影,可以完成非常有效的语义汾割任务 Milioto等人的最新工作,将DarkNet架构与基于GPU的后处理方法相结合与之相比,对于实时语义分割而言该方法比CRF可获得更好的结果。

与基於投影的方法相反基于点的方法是直接对原始数据进行操作而不会丢失任何信息。 但基于投影的方法往往更快更适合于数据的非结构囮性质,尤其是对于像LIDAR扫描这样的大型输入会生成数十万个点。LuNet是结合基于投影的方法和基于点的方法的第一篇著作 它依赖于离线的點近邻搜索,这使方法对实时应用程序不可行 此外,它只有一个MLP池操作只能从原始点学习局部信息。在3D-miniNet中通过实现基于GPU的快速近邻搜索并集成了一个从原始3D点中学习上下文信息的新颖投影模块,解决了LuNet的缺点
通过快速3D近邻搜索算法,输入的M个点(具有 C 1 C_1 C1?个特征)被汾为N个点的P组 每个点都有一个 C 1 C_1 C1?特征向量,该向量在此过程中使用相对于每个组的数据扩展到 C 2 C_2 C2? 3DMiniNet将对点云组进行处理并预测每个点一個语义标签。 最后加入后处理方法用于完善最终结果

上图总结了我们新颖,有效的LIDAR语义分割方法它由三个模块组成:

  • (B)3D-MiniNet,共输入P组每组N个点,并输出分割后的点云
  • (C)基于KNN的后处理可优化最终细分。

与基于投影的方法相比有两个主要问题限制了基于点的模型以實时性任务上的使用:

  • 3D点近邻搜索是必需的,但是使用3D点进行近邻搜索十分缓慢
  • 同样的在3D点云上进行MLP操作也较慢(如PointNet),特别是与2D卷积方法相比

这是点云的特性决定的,为了缓解这两个问题本文的方法包括使用一个快速点近邻搜索代理(见第 I I I . A III.A III.A介绍)和一个用于最小化基于点操作的计算模块,该模块使用原始3D点作为输入并输出可使用 2D CNN进行处理的2D表示(第 I I I . B . 1 III.B.1

u,v)中这部分是点云球面投影的通用操作,

使用滑动窗口方法在球面投影空间中执行点近邻搜索 与卷积层类似,通过滑动 k × k k×k k×k窗口来获得像素组即投影点。生成的点组没有交集即每個点仅属于一个组。 在为这些点组提供实际的分割模块3D-MiniNet之前必须增强每个点的特征。 对于得到的每个点组我们计算 C 1 C_1 C1?中五个特征的平均值以及每个点相所在组的各个特征平均值,得到相对应的

3D-MiniNet由两个模块组成如图3所示。对于论文所提出的投影模块它利用原始点云并計算2D表示,接着作者使用基于MiniNetV2的高效骨干网络来计算语义分割

此模块的目标是将原始3D点转换为可用于有效分割的2D表示。 该模块的输入是┅组3D点组( P × N × C 2 P×N×C_2 P×N×C2?)这些点组是通过在球形投影上进行滑动窗口搜索而收集的,如前面小节所述
从输入数据中提取以下三种類型的特征(参见图3的左部分),并在最后的模块步骤中将其融合:

  • 第一个特征是类似PointNet的局部特征提取(图3的投影学习模块的顶部) 它運行在组之间共享的四个线性层,然后是BatchNorm和LeakyRelu文中将线性层实现为跨张量的1x1卷积,从而实现了非常高效的计算

  • 第二个特征提取(图3的投影学习模块的中间部分)从这些点中学习上下文信息。该上下文特征提取器的输入是局部特征提取器的第二线性层的输出将该张量最大囮,然后运行快速近邻搜索以获取点组在这种情况下,使用3×3的滑动窗口分别以12,3的不同膨胀率执行三个不同的分组膨胀率与卷积核具有相同的含义。文中使用零填充和跨度为1来保持相同的大小每次分组后,执行一次线性化+BatchNorm+LeakyRelu将这两个特征提取器模块的输出连接起來,并在N维上应用maxpool操作此maxpool操作使特征沿近邻维度具有更高的响应,相对于近邻维度是阶数不变的 maxpool操作还使学习对于无点云信息(无点雲投影的球面投影坐标)的像素更健壮。

  • 最后的特征提取操作是内核1×N的卷积层(图3的投影学习模块的底部) 当存在底层空间结构时,卷积可以提取相对于相邻点的每个点的特征因为上一步的点组是从2D球形投影中提取的。

  • 最后应用了具有自注意模块的特征融合。 它学***将特征空间缩小为指定数量的特征从而了解哪些特征更为重要。 包括三个阶段:特征提取输出的级联将生成的张量reshape为( W / 4 × H / 4 × C 7 W / 4×H / 4×C_7 W/4×H/4×C7?)这是一种自注意操作,再乘以(均值池化+1×1卷积+Sigmid激活函数)具有与输入相同的串联张量,再经过一个1×1卷积层+BatchNorm+LeakyRelu这是将输出限制為 C 6 C_6 C6?个特征数。 所有实现细节例如每层的特征数量,均会在后文实验部分说明并展示了该学习模块的每个部分如何有助于提高3D-MiniNet的性能。

W/4×H/4×C6?张量便使用有效的CNN计算2D语义分割(有关详细的视觉描述,参见图3的MiniNet主干) 作者主要使用FCNN而不是多个MLP层的操作,原因是考虑相仳较而言多层MLPs使用卷积操作的计算更快。

W×H分辨率进行卷积以获得2D语义分割预测结果

本文参照MiniNetV2方法,在第二个卷积分支中提取细粒度信息即高分辨率的底层特征。 第二个分支的输入是球面投影具体细节在后文的Sect. IV-B部分指定。 作为最后一步必须将预测的2D语义分割再次偅新投影回3D空间。 对于已经投影到球面表示中的点这是一个简单的步骤,因为只需要分配在球面投影中预测的语义标签即可 但是,尚未投影到球面中的点(得到的2D坐标可能对应不止一个3D点)他们没有语义标签。 对于这些点分配了其相应2D坐标的语义标签。 此问题可能導致错误预测因此需要执行后处理方法以完善结果。

为应对非投影3D点的错误预测本文遵循Milioto等人的后处理方法。 所有3D点都将基于 K K K近邻(KNN)获得新的语义标签 选择K个最近点的标准不是基于相对的欧氏距离距离,而是基于相对深度值 此外,基于点的二维球坐标距离缩小搜索范围 Milioto等人方法的实现是基于GPU的,能够在7ms内运行从而保持较低的帧速率。

SemanticKITTI数据集是一个大规模数据集为整个KITTI里程表基准测试提供了密集的逐点注释。 数据集包含43000多次扫描从中可使用21000多个扫描数据(序列00到10)进行训练,其余的(序列11到21)用作测试集 数据集区分22种不哃的语义类别,通过基准的官方在线平台在测试集上评估了19种类别 由于这是当前最相关,最大的单扫描3D LIDAR语义分割数据集因此作者对该數据集进行了消融研究和更全面的评估。

SqueezeSeg的工作提供了从KITTI数据集的3D对象检测挑战中导出的语义分割标签 它是一个中等大小的数据集,分為8057个训练数据和2791个验证扫描

a)3D点近邻搜索参数:

对于SemanticKITTI数据集,作者将球面投影的分辨率设置为2048×64(注:2048是(360/水平分辨率)卷积网络中圖像大小是2的次数,故设置为204864为激光器的数量,这里是64路激光器故图像宽度为64),同样的对于KITTI则将分辨率设置为512×64(与以前的网络楿同,以便能够进行合理的比较)然后将4 x 4的窗口大小步幅设置为4,这是保证分组之间恰好没有交集进行快速点近邻搜索时不设置零填充导致,这样对于SemanticKITTI数据的产生8192组3D点和KITTI数据上产生的2048组我们的投影模块将接收这些组作为输入,并为SemanticKITTI配置生成学习的表示分辨率为512×16,對于KITTI生成分辨率为128×16

C3C4C5C6)特征层上对应不同的特征数分别为:

L1L2L3L4)的设计分别对应:

对于使用K近邻方法的后处理方法我们將2D分割时近邻搜索的窗口大小设置为7×7,并将 K K K值设为7

(由于内存限制而有所不同)。优化器使用随机梯度下降(SGD)其初始学习率为 4 ? 1 0 ? 3 4·10^{-3} 4?10?3,每个epoch的衰减率为0.99使用交叉熵损失函数作为模型损失的优化。

其中M是点的标签数量,C是类别数 y c , m y_{c, m} yc,m?是点m属于某类c的二进制指礻符(取值0或1), ft?是所有频率的中值,作者将i设置为0.25

在训练过程中,随机旋转和移动整个3D点云 作者将所有点云的X和Z值的符号随机反转,并且还删除了一些点

A.投影模块的消融研究


投影模块是该论文的新颖之处。本节展示其中的每个部分如何帮助改善学习的表示形式对於本实验,作者只使用3D-MiniNet-small配置进行消融研究的结果在表1中记录,测量了每种设置所对应的的mIoU速度和学习参数。第一行显示了在学习层中僅使用1×N卷积以及在RangeNet中使用的5通道输入( C 1 C_1 C1?)的性能将其建立为基线(即空间特征提取器)。第二行显示了如果将1×N卷积替换为基于点嘚操作(即局部特征提取器)的性能结果表明,MLP操作对于3D点效果更好但是需要更多的执行时间。第三行结合了卷积和本地MLP操作结果表明卷积和MLP运算的结合可提高性能,作者认为这是由于每种运算类型学习到的特征类型不同

注意力模块几乎无需额外的计算工作即可提高性能。它将特征空间缩小为指定数量的特征从而了解哪些特征更为重要。第五行显示添加上下文特征提取器的结果稍后也通过卷积通过FCNN学习上下文,但是这里上下文特征提取器通过MLP操作学习不同的上下文。背景信息通常在语义任务中非常有用例如,用于区分骑自荇车的人骑自行车的人和摩托车的人。与显示其相关性的其他特征提取器相比此上下文信息的提升更高。最后使用相对于点组( C 2 C_2 C2?)的特征来增加每个点的特征数量,也将获得更好的性能且没有计算时间和参数成本的增加。

本节介绍了3D-MiniNet的定量和定性结果并与其他楿关工作进行了比较。

表II将本文的方法与几种基于点的方法(第1-6行)和基于投影的方法(第7-12行)进行了比较 测量每种方法的mIoU,处理速度(FPS)和所需参数的数量 可以看到,基于点的LIDAR扫描语义分割方法比投影方法慢很难继续提升性能。 目前诸如Velodyne之类的LIDAR传感器通常以5-20 FPS的速度笁作 因此,当前仅基于投影的方法能够实时处理传感器提供的全部数据量

从3D-MiniNet的性能来看,它使用的参数减少了12倍而速度提高了2倍,洇此比以前的最新技术提高了近3% 有趣的是,3DMiniNet-small可以更高效更快地提供最新性能。 如果可以在效率与性能之间进行权衡则较小版本的Mininet還将以较高的帧速率获得更好的性能指标。 3D-MiniNet-tiny能够以98 fps的速度运行并且mIoU仅下降9%(与以90 本文中应用的后处理方法显示出其有效地改善分割结果。这一步对于正确处理球形投影中未包含的点至关重要如表III所示,对KITTI数据集的扫描具有较低的分辨率(64x512) 3D-MiniNet还在此数据集上获得了LIDAR语義分割方面的最新技术。与SqueezeSeg版本(+ 10-20 mIoU)相比我们的方法可获得更好的性能。 3D-MiniNet也比LuNet具有更好的性能请注意,在这种情况下我们没有评估KNN後处理,因为KITTI数据集上仅提供2D标签

图4显示了对测试数据进行3D-MiniNet推断的一些示例。由于没有为测试集提供测试依据(评估是在在线平台上外蔀进行的)因此我们只能显示视觉结果,而无需进行标签比较请注意,在汽车等相关类别中以及在交通标志等具有挑战性的类别中峩们的方法均获得了高质量的结果。可以预见最大的困难是区分在具有相似几何形状和结构(例如建筑物和围墙)的类之间进行切换。

夲文所提出的3D-MiniNet是一种快速高效的3D LIDAR语义分割的方法。3D-MiniNet先将3D点云投影到二维空间中然后使用全卷积神经网络学习语义分割。 与常规基于预萣义的投影方法不同3DMiniNet从原始3D点学习此投影,取得出非常出色结果 消融研究部分也说明该方法的每个部分如何有助于表征的学习。 3D-MiniNet也在SemanticKITTI囷KITTI数据集上成为新的SoTA在实时性和准确性的要求上,都比以往的方法更有效

点击上方“3D视觉工坊”选择“煋标”

本文转载自知乎,作者已授权未经许可请勿二次转载。

应用:目标识别、目标跟踪、超分辨率影像重建、视觉导航、图像拼接、彡维重建、视觉定位、场景深度计算

方法:基于深度学习的特征点匹配算法、实时匹配算法、3维点云匹配算法、共面线点不变量匹配算法以及基于深度学习的图像区域匹配等。

分类:局部不变特征点匹配、直线匹配、区域匹配

Part1:局部不变特征点匹配-2D

新线点投影不变量[61]

[陈方杰韩军,王祖武等. 基于改进 GMS 和加权 投影变换的图像配准算法[J]. 激光与光电子学进展,2018 55( 11) : 111006.]

[欧阳欢,范大昭纪松,等. 結合离散化描述与同名点约束 的线特征匹配[J]. 测绘学报2018,47( 10) : .] [DOI: 10. 11947 /j. AGCS. 2018. ]











重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会(ICRA/IROS/ROBIO/CVPR/ICCV/ECCV等)、顶刊(IJCV/TPAMI/TIP等)、SCI、EI等写作与投稿事宜

同时也可申请加叺我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群请扫描下面微信號加群,备注:”研究方向+学校/公司+昵称“例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注否则不予通过。添加成功后会根据研究方姠邀请进去相关微信群原创投稿也请联系。

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕更有各类大厂的算法工程人员进行技术指导。与此同时星球将联合知名企业发布3D视觉相关算法开发岗位以忣项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区近1000+星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

参考资料

 

随机推荐