aRXiv上传于2021年10月11日的论文 “AddReSSing cRash-iMMinent sITuations caused by huMan dRiven veHicle Errors in a Mixed tRaFFic stReaM: a Model-based REINfoRceMent learning apProach foR CAV“,作者来自普渡大学的网联自动化交通中心(CenteR foR Connected and AutoMated TRanspoRtation,CCAT),其中一个是从CMU的机器人研究所(RI)来的访问教授。
本文也是研究混合交通流,即网联自动驾驶车 (CAV)、人类驾驶汽车 (HDV) 和网联人类驾驶车辆 (CHDV)组成,最近这种研究方向的论文不常见。
本文开发一个简单的基于模型的强化学习 (RL) 系统,部署在 CAV上生成预测和避免HDV引起碰撞的轨迹。该模型涉及端到端的数据驱动方法,包含基于深度学习的运动预测模型和通过MPC的快速轨迹规划算法。
这个系统不需要车辆动力学的物理环境先验知识或假设,是一种可以部署在任何类型车辆的通用方法。在 CARLA 模拟器进行多个即将发生碰撞场景的训练和测试。
大家认为有车联网的网联自驾车(CAV) 是实现零事故的关键。不过,仍然需要很多安全紧要的场景数据,往往这个比较稀少缺乏。
基于模型的强化学习(RL)利用数据估计状态转换模型,然后根据估计模型进行规划。 这种组合方法从两种方法中获益:数据/训练的高效和模型不可知性。
一般来说,用于AV轨迹规划的基于模型RL方法包含2个模块:状态预测和路径规划。 状态预测作为对物理环境的估计,专门解决从先前信息推理未来状态的问题。 换句话说,它根据历史轨迹“告诉&Rdquo;周围目标在不久的将来(预测范围)将达到的状态。
这里状态预测模块是基于神经网络结构,实验中测试了三种模型,包括3-layeR fully connected neuRal netwoRk (FCN), single layeR long shoRt-teRM MeMoRy netwoRk (LSTM), single layeR FCN (lineaR RegReSSion)。因为周围车辆的变化,采用分散预测模式,而不是中心化模式,即每个智体有不同的状态预测模型。
路径规划建立在状态预测模型之上。由于状态预测不完美,规划模块应该稳健地输出安全路径来阻止错误传播。其次,规划模块应该适应高动态场景,特别是在新智体出现的情况下。
模型预测控制 (MPC) 是一种常见的控制方法,一种满足上述这两个标准的通用方法。关键思想是在每个时间步“重规划&Rdquo;,只执行当前最优轨迹的第一步。由于每个时间步评估动作的可行性,该方法能够处理快速变化的场景。
经典 MPC 试图将规划问题表述为具有“给定&Rdquo;物理环境模型的复杂优化问题。在基于模型RL 设置中,作者把MPC 与数据驱动的状态预测模块结合,用快速简单的规划算法代替复杂优化算法。所提出方法的优点包括:数据高效、模型可解释、稳定和跨场景迁移。
MPC的规划方法包括4个步骤:
(1) 每个时间步生成 序列,每个序列包含ℎ个动作,其中 是测试轨迹数,ℎ是规划范围。 (2) 每个轨迹,依次将总ℎ动作输入状态预测模型,计算每一步的未来状态和成本。 (3) 汇总每个轨迹的成本。 (4) 选取累积成本最低的轨迹,执行该轨迹的第一个动作。
整个端到端算法如下所示:
该端到端算法包含 3 个主要阶段:预热阶段(收集数据); 训练阶段(估计状态预测模型)和路径规划阶段(避免碰撞)。 这 3 个步骤遵循基于模型 RL 方法的过程:收集经验、估计模型和用估计模型进行规划。 测试(规划)阶段的经验可被加入重放内存,重新训练模型,保证部署之后仍然可以改进模型。
如图所示是2 种碰撞紧要情况:主要源于图中灰色车辆的非法或侵略性变道;红色车辆处于灰色车辆的盲点,这种情况在现实世界中会出现。
在CARLA中模拟4 辆车,如图所示:黄色车辆代表“有故障&Rdquo;的 HDV,而 CAV 为红色。
图中黄色 HDV 希望超车越过灰色车辆,但未能识别其盲点中的红色车辆 (CAV)。这种激进的变道可能会导致碰撞,尤其是在驾驶环境紧凑的情况下。需要 CAV 产生一系列机动,避免系统崩溃。在模拟中,还建立黄色 HDV 从左侧超车的场景,可能导致和右侧 CAV 的侧面碰撞。
模拟步长为0.05s/step(或20step/s),黄色HDV的激进超车动作是通过LoGitech G27 Racing Wheel手动驾驶生成。另外,作者开发了一个 Open AI gyM 与 Python API 的接口连接 CARLA 模拟器。