自动驾驶中的激光雷达vs单目深度vs双目深度

自动驾驶中的激光雷达vs单目深度vs双目深度

来源:Luxonis

作者:Brandon(Luxonis CEO)

自动驾驶靠什么赢得长久?特斯拉?Waymo?

注:Waymo是一家研发自动驾驶汽车的公司,为Alphabet公司旗下的子公司。

在这个问题上,我的观点基本上没有得到业界的支持。行业往往分为两个阵营:

  1. 激光雷达。“从来没有人因为买激光雷达而被解雇。”Waymo营地
  2. 单目深度。”激光雷达是一个拐杖,解决视觉问题才是真正重要的。”特斯拉营地。

而我实际上赞同秘密选项3,它说2大部分是正确的,只是忘记了更多的信息是如此有价值,3是一个拐杖,一旦我们有了成熟的AI/CV,就不够了。

为什么2大部分是正确的:

解决视觉是一切价值所在,那才是真正的背景所在。这就是补充性的货币化数据所在(例如,很难从激光雷达数据中发现儿童贩子)。

对于单目深度,信息从根本上来说是缺失的。因此,为了弥补丢失的信息,使用时域来代替。这使得单目深度更慢,性能更差,延迟更长,并且有根本不起作用的严重情况。其思想是,由于缺少对象的替代视图(其为神经网络提供了了解深度所必需的信息),相似场景和/或时域的先验知识被用于给出替代视图。但是在某些情况下,时域没有必要的信息,或者它将导致更差的深度或糟糕的延迟。

为什么1在打长局的时候会分心:

捷径是赢得短局的好办法,激光雷达就是一种捷径。在2006年的大学里,有一个机器人比赛,你必须通过一个迷宫,在这样做的同时避开障碍,捡起一个物体,然后重复所有这些,让它回到机器人开始的地方。和我竞争的人比我聪明得多,经验丰富得多。

我知道我无法与这些人竞争,正常的导航规划要求远远超过了我的能力。所以我找了一种捷径,使我跳过它,我试验了一下电机编码器的精确度。由于这是一个受控/室内环境,它们被证明是超级准确的。经过调整和一些试误,以了解他们何时出现问题,以及有多少问题,我和我的团队能够从字面上解决整个问题的硬编码。我们真的硬编码了所有需要的步骤,而电机控制器/编码器/轮子/手臂等都足以做到这一点。

所以我们的机器人看起来棒极了,第一次尝试就完成了所有的事情,完成了每一个挑战(你每通过一件事都会得到积分,如果没有人完成整个事情,就可以进行加时赛),相比之下,最好的竞争对手最多只能得到50%的解决方案。

现在这很酷,我们赢了,有奖品什么的——但是这一点用都没有。这是快速做出令人印象深刻的东西的捷径。那是一根拐杖。如果你想在此基础上发展,那是不可能的。你不得不重新开始。

我也是这样看待激光雷达的。因为你可以在短距离和长时间内获得精确的稀疏点测量,所以你可以轻松、快速地制造出在许多条件下都能很好行驶的东西。就像硬编码一样。问题是激光雷达与CV相比是稀疏的。它给出了足够的信息来“演示”。但是,当你从赢得这场看起来更远、更快的短期比赛(就像我对硬编码所做的那样),到实际尝试制作一个对世界有意义、可扩展的全面生产解决方案时,激光雷达没有必要的信息,但视觉有。

不要误会我的意思,CV +激光雷达非常适合超级安全关键的东西。但是CV才是真正的价值所在。激光雷达则是一个傻瓜式的硬停止备用系统,就像大多数升降机关键系统都有这些。

但是激光雷达备份系统仍然缺少很多信息。所以最终我认为冗余的CV系统会胜出。因为这样你就有2个系统,有足够的信息去“真正理解”。

这又引出了另一个问题:任何想要“认真对待”基于激光雷达的解决方案也需要CV,因为激光雷达没有足够的信息。因此,最终,大量使用激光雷达的团队不得不解决CV以赢得扩大规模。

然后从长期来看,忽略投资者的眼光、要求有进展等等。就技术层面而言,激光雷达实际上是一种干扰——因为没有CV,激光雷达解决方案就无法真正稳定运行。所以投入的时间越多,解决CV的时间就越少。

也就是说,试图让投资者惊叹的自动驾驶初创公司,激光雷达绝对是正确的选择。就像那次机器人比赛一样,使用快捷方式产生了巨大的轰动效应。这对于结束融资非常有用。这只是分散了技术堆栈开发的注意力。但如果你因此完成了一轮10亿美元的融资——这就是建立正确的技术堆栈的原因。

这就是为什么我现在认为,对于任何处于初创的自动驾驶公司来说,激光雷达都是正确的选择。但他们需要着眼于长远,通过使用激光雷达来推动他们转向CV。

注意,以上是纯粹地分析75英里/小时以上的自动驾驶移动中的人(例如,特斯拉,Waymo等)。对于自主移动机器人(AMRs叉车、送餐等。)还有类似的交易,但视觉变得更加“不费吹灰之力”,因为在人的移动中,速度是75英里/小时以上,这需要350米以上的深度视觉,这在DepthAI和OAK之前是 “困难的”。而对于自主移动机器人(通常< < 75英里/小时),深度感知需求“并不难”。所以激光雷达对于这种AMRs来说是一个更糟糕的选择。因为向视觉的过渡会更早发生,因此投资激光雷达的风险/失败概率明显更高,并且“惊喜因素”基本上不存在,相反,基于DepthAI/OAK的视觉在这种平台上具有疯狂的“惊喜因素”能力,这几乎不可能用激光雷达实现。当考虑到AMR时,尤其不可能,成本更敏感,因此使用的激光雷达必须更稀疏,性能甚至比视觉更差。

如果有人阅读这篇文章,很可能会指出“激光雷达并不稀疏”,然后(我)回应说,你可以用不到900美元的价格构建一个360立体深度CV解决方案,具有3680万个深度点和300多米的范围。实际上,你可以不用激光雷达来建造它。没有一家公司可以这样做,任何接近的东西都是$100,000。

因此,视觉不仅能提供长期价值,还能大幅降低成本。