发布时间:2026-02-22 00:42:43 点击量:
HASH GAME - Online Skill Game GET 300
自动驾驶面对的是一个3维的环境空间,甚至我们可以这么说,因为自动驾驶车辆要在环境空间中移动,且环境空间中其他的行人、车辆也会移动,可见自动驾驶面临的是一个4D时空系统(3D空间+1D时间)。自动驾驶汽车需要在三维空间中判断周围人、车、物之间的距离。在此基础上,还需要判断它们是静态的还是动态的,以及移动的方向和速度等信息,我们一般称之为3D目标检测任务。 3D物体检测任务可以看作是自动驾驶中的最核心感知任务。当然,除此之外,其他感知任务还包括识别红绿灯、交通标志、车道、斑马线等道路信息。
长期以来,激光雷达一直被认为是自动驾驶汽车不可或缺的部件之一,因为激光雷达可以提供车辆周围环境最准确的3D感知。激光雷达采集到的点云信息天然就存储着3D空间信息,因此对于基于点云信息的3D目标检测来说,算法设计就简单很多,也诞生了一系列的经典模型,如PointPillar、SECOND、SSSD等。然而,激光雷达的成本也成为了自动驾驶落地的最大瓶颈,激光雷达比汽车贵的问题,成为其上车和量产的最大障碍。虽然这些年激光雷达的价格随着技术的进步有了明显的下降,但是能够满足L4需求的激光雷达的价格还是偏高。
摄像头是自动驾驶汽车的另一个非常重要的传感器。由于激光雷达采集的点云信息没有颜色和纹理,无法识别红绿灯、交通标志、车道、斑马线等人类容易识别的道路信息。因此,仍然需要摄像头作为辅助传感器。但是,这会导致多模态的信息融合问题。简而言之,激光雷达主要擅长对车辆和行人的3D信息的感知,而摄像头擅长于对红绿灯、车道线等具有丰富视觉纹理特征的信息的感知。此外,相机在量产成本和价格方面也具有无可比拟的优势。例如,特斯拉搭载的单个单目摄像头成本仅为25美元,整车8个摄像头的价格仅为200美元。仅使用相机传感器,借助强大的人工智能算法, 可以实现精确的3D物体检测任务,这意味着不使用激光雷达传感器的自动驾驶成为可能。
在计算机视觉领域,近年来涌现了大量的分类、检测、分割模型,如ResNet、YOLO、Mask RCNN等,这些AI模型已广泛应用于安防、交通、和自动驾驶。然而,核心问题之一是这些模型是为 2D 图像设计的,不能直接应用于 3D 对象检测任务。基于图像的3D物体检测的核心问题是如何准确估计图像中物体的深度。由于相机拍摄的照片和视频将3D空间投影到2D平面,丢失了深度信息,如何恢复深度信息是一个“病态问题”。也就是说,问题的解决方案可能不是唯一的。因此,长期以来,基于图像的3D目标检测算法的性能一直远低于基于激光雷达的3D目标检测算法。
NuScenes 数据集提供了几个评估任务,包括 3D 对象检测、3D 对象跟踪、预测轨迹、激光雷达分割、全景分割和跟踪。 3D 物体检测任务的目标是检测 NuScenes 数据集中的 10 种不同类型的检测物体,包括汽车、卡车、自行车和行人。检测信息除了物体的三维位置外,还包括物体的大小、方向和速度。 NuScenes提出了一个综合的NDS指标,即NuScenes Detection Score(NDS),它由平均准确度(mAP)、平均平移误差(ATE)、平均尺度误差(ASE)、平均方向误差(AOE)、平均速度误差组成(AVE) 和平均属性误差 (AAE)。
除了NuScenes,业界还有Waymo、ONCE等开源数据集。然而,NuScenes 是目前使用最多的数据集。自发布以来,NuScenes 数据集已被 2000 多篇研究论文引用。 NuScenes Challenge也成为测试感知算法在自动驾驶相关任务中表现的试金石。它吸引了来自世界各地的研究团队提交的 220 多份论文。近期,PhiGent Robotics、纵目科技、ECARX等车企的研发团队也出现在了NuScenes的名单中。
另外,在纯视觉赛道,算法团队在2022年所提交的“DABNet4D”模型,综合检测精度NDS 0.624的检测效果也一举登顶届时该赛道的榜首。相比之下,2022年初排名第一的BEV3D算法的NDS精度是0.474,也就是说在不到一年的时间内,NuScenes 纯视觉3D目标检测的NDS指标提升了15个点。基于纯视觉算法和激光雷达算法的精度差距也从年初的45%缩小到17%,而这些,均得益于纯视觉3D检测算法优化带来的性能提升。