人类可能是完全自主的车辆在城市街道上运行的最大障碍之一。如果机器人要引导车辆安全地通过波士顿市中心,它必须能够预测附近的司机、行人和骑自行车的人接下来会做什么。
然而,行为预测是一个艰难的问题,目前的人工智能解决方案要么过于简单,要么过于保守,要么只能预测一个道路使用者的下一步行动。
麻省理工学院(MIT)的研究人员为这个复杂的挑战设计了一个看似简单的解决方案。他们将多个道路使用者的行为预测问题分成小块,并单独解决每个问题,因此计算机可以实时解决这一复杂的任务。
他们的行为预测框架首先猜测两个道路使用者之间的关系,哪辆汽车、骑自行车的人或行人拥有通行权,哪个道路使用者会让路,并利用这些关系来预测多个道路使用者的未来轨迹。
与自动驾驶公司Waymo编制的巨大数据集中的真实交通流相比,这些估计的轨迹比其他机器学习模型的轨迹更准确。麻省理工学院的技术甚至超过了Waymo最近发布的模型。而且,由于研究人员将问题分解成更简单的部分,他们的技术使用的内存更少。
“这是一个非常直观的想法,但之前没有人充分探索过,而且效果相当好。简单性绝对是一个优点。”研究共同牵头人黄昕说,他是航空和航天系的研究生,也是航空和航天系教授、计算机科学和人工智能实验室(CSAIL)成员Brian Williams实验室的研究助理。
与黄昕和 Williams一起撰写论文的还有来自中国清华大学的三位研究人员:共同第一作者孙桥、顾俊如和资深作者赵行。该研究将在计算机视觉和模式识别会议上发表。
多个小模型
研究人员的机器学习方法被称为M2I,它需要两个输入:在交通环境(如四通八达的十字路口)中互动的汽车、自行车和行人的过去轨迹,以及一张包含街道位置、车道配置等的地图。
利用这些信息,一个关系预测器推断出两个道路使用者中哪一个先拥有路权,将一个人归类为通行者,一个人归类为让路者。然后,一个被称为边际预测器的预测模型猜测过路者的轨迹,因为这个代理人的行为是独立的。
第二个预测模型,被称为条件预测器,然后根据经过的代理人的行为,猜测屈服的代理人会做什么。该系统预测出让者和传递者的一些不同轨迹,单独计算每个轨迹的概率,然后选择发生可能性最大的六个联合结果。
M2I输出一个预测,即这些道路使用者在未来8秒内将如何在交通中移动。在一个例子中,他们的方法使一辆车减速,以便行人能够过马路,然后在他们清除了交叉路口后加速。在另一个例子中,车辆在从一条小街转入一条繁忙的主干道之前,一直等待几辆车通过。
虽然这项初步研究的重点是两个道路使用者之间的互动,但M2I可以推断出许多道路使用者之间的关系,然后通过连接多个边际和条件预测器来猜测他们的轨迹。
真实世界的驾驶测试
研究人员使用Waymo开放运动数据集训练模型,该数据集包含数百万个真实的交通场景,涉及车辆、行人和骑自行车的人,由安装在该公司自主车辆上的激光雷达传感器和摄像头记录。他们特别关注有多个代理人的情况。
为了确定准确性,他们将每种方法的六个预测样本与一个场景中的汽车、自行车和行人的实际轨迹进行了比较。他们的方法是最准确的。它在被称为重叠率的指标上也优于基线模型。M2I的重叠率最低。
“我们没有仅仅建立一个更复杂的模型来解决这个问题,而是采取了一种更像人类在推理与他人互动时的思维方式。人类不会对所有数百种未来行为的组合进行推理。我们做出决定的速度相当快。”黄昕说。
M2I的另一个优点是,由于它将问题分解成更小的部分,用户更容易理解模型的决策。黄昕说,从长远来看,这可能有助于用户对自动驾驶汽车给予更多信任。
但是,该框架无法解释两个代理人相互影响的情况,例如,当两辆汽车在一个四向停顿点上各自向前移动,因为司机不确定谁应该让路。
他们计划在未来的工作中解决这一限制。他们还想用他们的方法来模拟道路使用者之间的现实互动,这可以用来验证自动驾驶汽车的规划算法,或者创建大量的合成驾驶数据来提高模型性能。
“预测多个相互作用的道路使用者的未来轨迹,对于在复杂场景中实现完全自动驾驶来说,探索不足且极具挑战性。M2I提供了一个非常有前途的预测方法,它的关系预测器可以区分被预测为边缘或有条件的代理,这大大简化了问题。”两人没有参与这项研究。