针对强化学习智能体对微观交通状态感知能力有限的问题,本文提出了一种基于混合域注意力的深度强化学习交叉口信号控制算法3DQN_MDAM。首先,为减少存储开销,设计了一种轻量的混合域注意力模块(Mixed Domain Attention Module, MDAM),仅使用少量的参数就能实现自适应地调整交通状态特征图中通道之间及空间位置之间权重的功能。然后,在现有基于双深度决斗Q网络(Double Dueling DQN, 3DQN)算法模型的基础上通过引入MDAM,使智能体自动地聚焦于对当前控制任务更为重要的交通状态信息,以增强智能体的状态感知能力。最后,利用仿真平台SUMO (Simulation of Urban Mobility)进行实验。实验结果显示,在低、中、高三种不同交通流条件下,3DQN_MDAM相比3DQN在各项指标上均得到改善,其中车辆平均等待时间分别缩短了20%、20%、17.6%。与其它常用的基准算法相比,3DQN_MDAM在各项指标上均得到最好的控制效果。
随着经济的发展,汽车需求量爆发,特别是新能源汽车的推广,让各城市的汽车数量越来越多,交通拥堵问题也随之成为诸多城市的老大难问题,制约着城市的发展。解决交通拥堵问题,一方面要从道路的规划整改入手,另一方面,交叉路口的信号调度控制至关重要。
传统的交通信号灯控制方案根据历史交通需求数据预先确定相位的持续时间[1] [2], 或根据当前交通状况制定一套信号控制规则[3], 这些方法往往缺乏实时性, 不能对交通需求的突发变化做出及时的响应。
强化学习(Reinforcement learning, RL)理论基于马尔可夫决策过程,非常适用于交通信号控制这样的序列决策问题。而传统的强化学习利用表格来记录每个状态–动作对的Q 值以进行策略搜索,需要为每个可能的状态分配存储空间,但过大的状态空间在实际应用中往往会面临存储和计算资源的问题。随着物联网、5G 通信、大数据等技术的发展及其在交通领域的应用,交通数据的采集速度更快、数据种类更丰富、数据量更庞大,合理利用各种交通数据是缓解交通拥堵的关键。利用人工神经网络的深度学习可以将原始批量数据中底层不同类型的特征融合并抽象成高层特征,从而能有效处理种类丰富、数量庞大的数据[4]。
深度强化学习(Deep Reinforcement Learning, DRL)是深度学习和强化学习的结合[5], 利用深度学习对环境进行状态感知,利用强化学习进行策略搜索和决策优化,在交通信号控制的研究领域得到广泛的应用。
现阶段,深度强化学习方法在单点交叉口信号控制问题上的研究已取得一定成果,但仍然存在研究的不足。现有研究多依赖于对交叉口的交通环境状态进行微观刻画,力图通过获得更加全面细致的环境状态信息以提升交通信号控制的效果。然而,一味地将这些高维的状态信息输入到神经网络中会让智能