智加科技崔迪潇：打磨安全的干线物流自动驾驶

雷锋网按，如今，无论是中国，还是美国，物流市场的规模都已达万亿级别，而且，市场规模都还在不断扩大。毫无疑问，这是一个拥有无限潜力的市场。

然而，这一市场正在面临尴尬的局面——巨大的就业缺口、高昂的运营成本、频发的驾驶安全事故，这些都成为当代物流行业亟待解决的痛点。

近日，雷锋网邀请了智加科技高级主任科学家崔迪潇来进行业内分享。以下为崔迪潇演讲内容，雷锋网进行了不改变原意的整理：

大家晚上好，我是来自智加科技的崔迪潇。

我今天分享的主题是打磨安全的干线物流自动驾驶，会分享智加过去在干线物流自动驾驶领域的实践，以及智加对技术落地的思考和推演。

主要的内容分为四个版块：

当前干线物流的现状和自动驾驶的机遇；
自动驾驶落地应用的 5 个阶段；
干线物流自动驾驶的关键技术和挑战；
L2 到 L4 级所面临的数据闭环问题。

一、当前干线物流的现状和自动驾驶的机遇

物流在国家经济的组成部分中占重要位置，尤其在中美两地，物流市场已形成万亿规模，公路运输长期占据国内整体货运量的 75% 左右。

然而，这一巨大市场面临着严峻的结构性人力供给短缺问题，主要表现为劳动力流失率高和未来劳动力补给不足——如今有超过半数的卡车司机计划未来不再做司机，而 96% 的卡车司机不希望自己的下一代成为司机。

此外，重卡的运营成本也很高，从燃油、司机、保险、车辆折旧等方面进行统计分析，在美国，人力和油耗占运营成本的 70%，在中国，这一比例也超过 50%。同时，长途运输中的驾驶安全问题也备受关注。

基于上述现状，利用自动驾驶技术来填补劳动力缺口、优化成本、提高重卡行驶过程中的安全性，已成为大势所趋。这也使得干线物流成为能够最早实现自动驾驶商业落地的场景之一。

经过几年的发展，产业界和学术界已经基本达成共识：随着自动驾驶技术的应用，重卡运营成本可以降低26%，事故率可降低 80%。

基于中美两地市场的现状，以及对自动驾驶技术光明前景的判断，智加科技从成立起便以落地应用为主导，以构建生态为核心，定位为全球最大的两个物流市场进行赋能。目前，智加在中美两地均设有办公室和研发中心，超过 25% 的员工有博士学位，超过 80% 的工程师毕业于中美两地排名前五的工科院校；拥有自动驾驶核心技术的全栈研发能力，包括感知、地图、定位、决策、规划、控制等。资本方面，智加也得到了红杉资本、金沙江资本、满帮集团等多方的支持。

智加在过去的几年里取得了不错的成绩：

2017 年 3 月，智加获得了加州交管局颁发的自动驾驶路测牌照，成为第一家获得路测牌照的中国初创公司；
随后，智加在硅谷的真实车流中完成了近2000公里的实际路测；
2018 年，智加和与中国市场份额最大车货匹配平台满帮集团达成了独家战略合作，并联合满帮、一汽解放和英伟达成立了四方同盟；
2018 年 11 月，智加获得了公安部、交通部、工信部和江苏省政府联合发布的中国首张营运自动驾驶测试牌照。
2019 年 1 月，在哥伦布智慧物流大会上，智加与一汽解放完成了首批智能重卡的交接仪式。

近期也有一些进展：

去年底，智加取得了全国首张跨区域的测试牌照，可在江苏、安徽、浙江、上海、三省一市的相关道路上进行测试和数据收集；
去年，智加联合一汽解放成立了苏州挚途科技有限公司，携手推进智能重卡的落地量产；
在美国，智加也在持续进行商业试运营。去年圣诞前夕，智加的重卡自动驾驶了三天三夜，横跨美国东西海岸完成了生鲜运输工作，行驶里程达 2800 英里。

二、自动驾驶落地应用的5个阶段

智加对自动驾驶技术落地的 5 个阶段有自己的见解：

在干线物流的场景下，第一个阶段叫作“原型期”。在这一阶段要做好三件事：确定 L4 级重卡自动驾驶的价值，制定大致的技术发展方向，同时寻找可靠的伙伴共同来推进。
第二个阶段叫作“工程验证期”。在这一阶段，最主要的工作是通过验证，证明自动驾驶的安全性和经济性。而且验证不仅仅是路测验证，还包括建立仿真系统来进行验证。
第三个阶段叫作“设计验证期”，此前工程验证期验证通过的自动驾驶系统，需要与量产车进行融合设计，从而设计出一款真正的自动驾驶的重卡。
第四个阶段叫作“生产验证期”，要进行流水线和生产方面的准备，包括把供应链打通、把工厂建设好，这是重卡主机厂擅长的事情。
第五个阶段就是“量产”，到了这个阶段，自动驾驶重卡已经开始大规模商业化落地，类似于满帮这样的角色将会在这个阶段发挥最大效果，推动自动驾驶重卡进行规模的商业化试运营。

基于以上的五个阶段，智加也分别做了相应的规划和准备，包括一些技术上的创新。

三、干线物流自动驾驶的关键技术和挑战

一辆时速为 120 公里每小时、带挂的重卡，它的制动距离通常在 180 米。如果有更大的重量，将会有 0.6 秒到 0.8 秒的制动延时，这会导致更长的制动距离。

此外，重卡在湿滑的路面上行驶的制动距离将进一步增加。为了安全起见，在湿滑路面下的重卡制动距离通常需要至少 300 米。另一方面，由于车身高带挂的特性，重卡司机的感知盲区远比乘用车大，因此也引发了大量的事故。

由此引出的自动驾驶乘用车和重卡在技术上的差异，包括感知、标定、地图、定位等内容，我接下来会为大家做拆解。

标定

首先是标定。多传感器同步和内外参数标定是所有智能驾驶系统必须解决的问题，其误差会通过感知层逐步递增到规划和控制，影响最终的自主行驶。

传感器的标定可以分为离线的静态标定和在线的动态标定。

针对静态标定，通常采用基于标记物的标定方法。这种标定方法需要选取和设计利于不同传感器能够同时进行准确观测的特殊标记物。为了上述目标，选取标记物时要考虑其几何结构和表面材质，比如相机对纹理和角点的观测精度、激光对深度（尤其是深度不连续位置）的观测精度、以及雷达对金属的强反射性等。

标定的整体流程分为两大类，一类是以 3D 的点集配准为主要方法，基于 3D 坐标之间的对应关系来实现标定。另一类是典型的 2D 和 3D 的对应点之间的标定问题，可以使用 PNP 的方式来求解。

重卡面临的另一个问题是在线标定。由于车身悬挂的抖动明显，可能会导致两个标定问题——第一个是不同传感器之间的相对位置会发生变化，比如相机和相机的相对位置、相机和激光的相对位置发生偏移。第二是传感器相对于大地的坐标系会发生变化。

针对第一个问题，可以利用左右双目的高区分度的特征点来进行在线校正。针对第二个问题，可以直接使用激光中深度不连续位置和图像中逆距离变换求取的边缘来实现对传感器外参数漂移的在线标定。

不过，值得注意的是，所有好的在线标定系统都对初值有着严格要求，所以首先还是要实现重复性高的离线标定，来提供相对准确的初值。

感知

感知方面。智加基于多个摄像头、激光雷达、毫米波雷达实现了车周无盲区，以及远距离的感知。在前向距离上，智加可以实现超过500米的静态和动态障碍物的检测和跟踪。这种传感方案与单纯地强调远距离感知不同，还兼顾了感知的视野范围，可以感知到路面的起伏情况。这是实现重卡安全运营的一大重要手段。

另外，在技术方案中，智加充分利用了多基线配置的双目视觉和来自于激光毫米波雷达的数据的深度融合。

如今，随着算法的迭代和优化，智加车顶传感器的数目不断减少，但始终保留了双目的配置。这是因为双目在传感器的自检、动态标定和深度估计上都给了感知模块和整体系统很多冗余，比如双目深度比单目准，点云密度比激光高，同时左右两侧相机可互为冗余，以防其中一个出现故障。同时，双目本身也利于在线标定。

而且，由于双目点云的天然特性，它的几何结构的信息稳定性高于纹理信息，使得它和激光雷达的数据融合可以在深度层面上展开。

车道线检测和障碍物感知

车道线检测的方法层出不穷，但实际上，大多数时候，对车道线的检测和改进都是基于二维空间，关于高度的信息估计几乎是缺失的。在一些特殊的场景下，车道线的准确性会大打折扣。以高速公路收费处的匝道为例，其路面并不是一个典型的平面，而是高度逐渐升高/降低的曲面。

智加用基于立体视觉估计的曲面来实现路面点云的稠密化，从而实现图像像素和激光的点和点对齐；且这种方式使得感知结果可以和车体坐标系建立清晰的物理对应关系。

有了准确的路面估计以后，则需要考虑障碍物的感知问题，尤其是针对重卡的远距离障碍物感知。有了来自于双目的颜色和深度信息以后，多传感融合则有更多的操作空间，实现对障碍物的类别、位置、朝向的检测和跟踪。

建图和定位

智加的建图和定位依然是多传感融合的方式。智加高精地图创建包含了 3D 点云和 2D 图像作为地图数据的输入，然后通过离线完成几何度量信息的生成和优化，并在最终使用前进行人工的确认；尤其是要对不同时间和不同车辆采集后生成的地图之间的建图精度、一致性和重复性进行可视化显示，最终地图的采集会随着车辆的测试运营不断进行增量式的更新。

特别在高速公路这种具有结构化特点的场景下，创建地图会有一些便利，比如可以预先采集、建立一套典型的适合高速公路环境的几何模板，并基于此来完成检测重建。

不过建图中有一个容易被大家忽略的问题。未来商用地图采集车大部分都会是乘用车，然而它的传感器配置类型和安装位置都与重卡有很大不同，比如激光数据的测距精度、返回强度等都有可能出现较大差异。现在行业内许多公司在测试时或 demo 使用的采集车是同一款车，甚至是同一辆车。这就导致地图精度和传感器类型、安装位置、甚至多传感的标定误差严重耦合。

智加较早意识到这点，所以目前用来进行地图数据采集的是乘用车，用来定位验证的是重卡；同时，智加内部也会实行类似的交叉验证，完善建图方法，以及定位算法。

系统冗余设计/系统架构设计

最终的 L4 级系统是不需要安全员的，所以需要从系统设计方面考虑可靠和冗余。智加对系统的可靠冗余设计包含五个维度，分别是可靠硬件平台、传感器的冗余、功能算法的冗余、系统架构的设计以及测试验证。

可靠的硬件平台，主要是指车辆平台，尤其是执行机构以及计算平台的可靠性。对车辆平台来说，它的可靠性体现在转向、制动、动力的冗余。

计算平台则要满足功能安全。 L4 级对于算力的要求会比 L2 系统或者 ADAS 系统有显著的提升，计算架构也逐步从分布式向中央集成式过渡。但这种中央集成式的 ADU 的大功耗也存在着安全隐患，所以智加采用的混合结构，部分计算任务在传感器端做，部分计算任务在中央 ADU 端做，平衡了算力和功耗。而且，这样的架构也方便之后的冗余系统的设计与实现。

传感器的可靠性主要是体现满足车规，以摄像头为例，性能上满足算法对图像质量的要求。除了传感器本身的连接稳定性，传感器的灵敏度动态范围也要有显著提升。

传感器的冗余，即在传感器故障时有硬件备份，更重要的是，同一类型的传感器可以用来做相互校验，检测系统里的软失效，如立体视觉。相应的还有功能算法冗余，即通过功能算法的冗余来判断传感器是否失效。

重点是智加现在正在采用的 simplex 的架构设计，其中包括抽象的传感器、抽象的执行单元，还有一个 safe landing 系统。这是一套包含了硬件传感、软件算法、失效质检、硬件（问题硬件）自隔离的系统。

最后，还需要一系列高效的测试验证把整套研发环节跑通，在一些常规测试的基础上加大难度，对系统的性能边界进行验证。同时，还要有一套高效运作的测试或研发数据管理体系，来对信息进行筛选、整理、分类，从而反哺模型的提升和系统的迭代。

建立数据管理系统，要解决三个问题：第一、怎么收集数据？第二、怎么筛选数据？第三、怎么使用数据？

围绕这三个问题，智加已经打通和完善了一整套的数据管理系统。这个系统可以用来跟踪所有路测车辆的状况，包括自动驾驶比例、车辆所在位置、油耗里程等等信息，然后通过人工或者自动化的方式来标注和筛选出有价值的场景数据。

这些数据一部分会进入智加的内部平台，依据场景分类信息来进行自适应的采样，形成二级或者三级的标注数据，用于模型的训练、测试和评测。另一部分则用于生成仿真测试场景。

经过感知团队和标注团队的努力，智加已经围绕困难场景的车道线标定收敛出来一套标准。以车道线检测为例，这套标准大体上包含两个方向：

第一，关心数据的分布，要建立一个完备的场景，以及定的多层次分类体系。也就是说，不仅要评估模型在比如天气、光照、道路、场景、交通流等某个一级分类维度的性能，还要分析它对应的某个二级分类维度的性能，同时还要建立不同分类、不同维度之间的关联关系。

第二，要独立客观地去评测模块和跟踪模块，即检测和跟踪要分开。目前，常见的车道线模块的评测采用两种方式，只评测车道线模块；或者把车道线模块评测和跟踪同时进行，做最终结果的评测。上面两种方式操作起来确实简单，但基于这些方式的评测结果十分宽泛，并没有对检测模块和跟踪模块的性能边界有一个明晰的判断。类比现在传感器性能突飞猛进，但我们要清醒地知道，感知模块性能的提升，到底是得益于传感器厂商的进步，还是得益于自己处理数据能力的增强。所以，一定要做类似的独立客观冷静的测试。

具体方法为：首先给跟踪模块输入完美的感知数据/感知真值，然后不断增加噪声，降低感知输入的质量，模拟车道线的缺失、遮挡、丢帧、处理延时等，评测和确定跟踪模块的性能边界，以及对感知模块数据输入的要求。

有了一套分类体系和一套可以独立拆分模块的评价体系以后，就能够解决数据使用的问题。如何让系统在测试过程中自动化去识别一些不明物体，支撑采集数据和筛选数据两个环节，这个问题接下来会展开讲。

四、L2 与 L4 的数据闭环问题

前文提到了自动驾驶技术量产的五个阶段，在整个自动驾驶的演进中，从更高维度理解可以把一个 L2 系统等同于一个 L4 系统的设计验证阶段。然后，把 L2 系统里的量产、落地，以及在大量运营中积累的数据，转换为 L4 的系统的生产力。

然而，我们在讨论这个话题的时候，要考虑好两个核心问题：

数据的价值。比如特斯拉 Autopilot 是 L2 系统，Waymo Robotaxi 是 L4 级系统，但两者之间的数据闭环并没有太多价值，因为两者的数据特性不一样，配置也不一样。
收集数据的效率和成本。海量用户数据打通之后，安排标注员在后台翻看数据几乎不现实，效率也十分低下，这种情况根本无法支撑数据闭环。

针对第一个问题，有观点认为，特斯拉明确表示不需要激光，仅靠视觉就能实现无人驾驶。但同样在视觉领域颇有建树的 Mobileye 在其官网上对 EyeQ 系列芯片的发展介绍中写道，“EyeQ 4 支持 L3 级自动驾驶，EyeQ 5 支持 L4 级以上自动驾驶”。

然而，这并不代表靠视觉起家的 Mobileye 认为仅靠视觉就能实现高级别自动驾驶。其官网上同样用加粗的黑体字介绍道，“It has the capacity to process data from more than eight camera sensors，in addition to radars and LiDARs…more than sixteen multi-mega-pixel cameras and other sensors”。

至于上述“other sensors”是什么，目前未有明确的说法，但我大胆推测，这里面应该包含激光雷达。因而在绝大多数的、非特斯拉的自动驾驶公司的心里面，要实现 L4 就需要激光雷达来提供准确的深度信息。

L4 系统对场景理解的准确性提出了新的要求，因此对传感器数据的需求将从模态分裂走向模态融合。我们不再把数据按照激光、视觉、毫米波雷达来区分，而是按照纹理、色彩、深度甚至速度来理解。

因此我们要回答数据闭环的价值问题，本质上是要判断 L2 系统的传感器类型以及使用方式与 L4 级阶段的差异有多大？差异越小，它的数据闭环就越有价值。

乘用车作为生活资料，它在 L2 阶段无法省掉驾驶员，它的利润也只能通过载客服务来实现。因此，单车成本上，预留给传感器和计算平台的成本有限，可能无法负担起激光雷达的成本。同时它的算力也受限制，通常只能进行后融合。因此 L2 阶段的传感器针对乘用车来说，它的传感类型和使用方式与 L4 级阶段有着比较显著的差异。

商用车虽然在 L2 阶段也无法省掉驾驶员，但是它作为生产资料，本身就在持续创造营收。同时，还可以通过节油和提升车辆保值来进一步增大利润空间，从而使得单车成本上可以预留更多给传感器和计算平台。

这种情况下的 L2 级阶段传感器的类型和使用方式与 L4 阶段的差异较小。这也是为什么我们认为干线物流在这方面会优先落地的原因。

基于此，我也分享一下智加目前的相关工作。我们融合了立体视觉和低成本激光雷达，通过后处理来实现场景的三维重建，从而获得成本低、精度高且稠密的 RGBD 数据。未来我们可以从这种稠密的深度信息里抽样，泛化成在 L4 级阶段使用的激光雷达的点云数据。

数据的价值判断问题处理好了，再来看看收集或筛选这些有价值数据所要付出的成本，以及它的效率。

在大规模运营后的产生的海量数据，只有通过在线且自动化的方式才能保证数据收集和筛选的效率高、成本低。智加的数据来源目前主要有 4 个，包括在线人工标注、离线人工标注、离线自动标注和在线自动标注。

目前我们已经从前面的三个阶段逐步过渡到了第四个阶段，即在线自动化标注，意味着我们数据收集的成本会越来越低，效率会越来越高。

在线自动化的典型代表是大家津津乐道的影子模式，通过来比较人工驾驶的轨迹和系统规划的轨迹之间的偏差，比如说当路径上的横向位置、纵向速度和加速度偏差超过系统设定阈值时，就自动抓取当前场景的数据并回传。从这种设计上我们可以看出，它采集的数据本身是面向决策和规划端的，我个人认为这种设计有两个不足：

第一，采集的数据容易非平衡。影子模式基于人工驾驶的情况下、轨迹端结果触发，所以它没有办法直接反映出其他模块的问题，容易导致数据的非平衡性。
第二，数据采集成本比较高。由于它的触发条件在系统功能层面，粒度较粗，无法反映出上游模块的问题，只能采用事件触发点前后的全量数据采样，在数据存储空间和流量空间有限的情况下，极容易导致冗余数据，从而导致数据使用效率下降，数据采集成本攀升。

智加内部有一套 Plum 系统，它包含离线自动化标注和在线自动化标注两大部分，我们还针对感知、定位、决策、规划、控制等各个模块制定了相关指标，用于自动化筛选有价值场景数据。

对于需要强算力或者需要大存储空间、或者需要进行多帧数据关联的指标，我们采用离线计算。对于经过轻巧设计、对算力和存储要求低的指标，我们则采用在线自动化的方式，帮助我们更高效、更低成本的抓取数据。

今天的技术内容讲了很多，除此之外也谈到了现状、产业和数据闭环等内容。

自动驾驶还是一个新兴学科，它的标准和规范尚未健全，因此，我们大家都是这一领域的参与者、设计者和建设者，期待未来更多交流和碰撞。

以上就是今天分享的全部内容，大家再见。