未知环境下的多机器人区域覆盖是指多个机器人遍历环境中每个无障碍物的区域。机器人区域覆盖作为多机器人系统研究的重要组成部分,在灾后救援、野外勘测、森林防火等众多领域有着广泛的应用,具有十分重要的研究意义。传统的多机器人覆盖方法需要考虑区域分割、任务分配等问题,且没有协同策略的覆盖方法只是单个机器人方法的简单叠加。而在强化学习中机器人可以通过自主学习的方式求得问题可行解。本文将多机器人区域覆盖问题转换为多机器人强化学习中团队奖励值最大化的求解问题,搭建了基于Actor-Critic结构的多机器人强化学习网络,考虑到机器人个体行为对环境造成的不平稳问题,选择考虑了全局信息的QMIX网络作为多机器人行为的评价网络。最后设计了强化学习与仿真环境端到端的数据交互接口,简化了训练数据交互过程。算法训练结果表明本文提出的算法能达到较高的覆盖率,验证了该算法解决区域覆盖任务问题的有效性和可行性。
随着计算机技术的多元化发展以及硬件成本的低廉化, 机器人的智能化程度不断被提升, 正加速赋能人们的生产生活。单个机器人在执行任务时存在耗时长、鲁棒性差等缺点,且单个机器人的电池容量对于环境复杂、作业范围广的任务而言也是一个挑战,因此,研究者开始将目光集中于单机智能向多机智能转变的研究方向上,通过多个机器人共同工作来满足实际的生产需要。
由于多机器人团队在任务执行过程中表现出效率高、鲁棒性好等特点, 因此越来越多的研究者将其应用在不同领域,机器人区域覆盖任务便是其一。区域覆盖机器人的工作是集体实现一个目标——通过传感器感知周围环境,在避开障碍物的情况下遍历整个环境区域。区域覆盖技术已经被广泛应用于多种领域,比如灾后搜索和救援任务[1];敏感设施或重点区域环境监测[2]、安全监控;工业检查[3] [4];自然灾害监测[5]等场景。传统算法在解决非线性、特征复杂的问题时难以求得最优解,深度学习与强化学习技术的结合为多机器人解决复杂问题提供了新的研究方向,机器人可以通过自主学习来获得一个较好的策略,之后可直接应用于工作场景,这在很大程度上降低了传统方法中设计系统的复杂性。Heydari J 等人[6]对覆盖问题进行了系统的分析,并将其表述为一个最优停止时间问题,明确地考虑了覆盖性能与其代价之间的权衡,通过强化学习技术计算解决这个问题,但解决方法只是针对单个机器人的情况。
多机器人区域覆盖任务的目标是多个机器人共同完成一片未知区域的探索, 机器人之间属于合作式关系。对于单个机器人来说,以学习到最优策略为目标,其回报函数只与自身有关,但在多机器人系统中, 每个成员的动作都会影响整个系统的效果。本文以单元格的表示方式离散化整个场景,机器人覆盖每一个新单元格都会得到相应的奖励,对于多个机器人共同解决的覆盖任务而言,奖励值越大则覆盖率越高。
因此本文将多机器人区域覆盖问题转换为奖励值最大化求解问题。Rashid T 等人提出了考虑全局状态信息的混合式网络结构QMIX [7],其整合每个机器人的局部值函数得到联合动作值函数,并以最大回报值为优化目标。因此本文基于QMIX 设计了多机器人强化学习网络解决多机器人区域覆盖问题。