飞行自组网(FANETs,Flying Ad-Hoc Networks的缩写)是航空平台组建的自组网网络,不依赖固定通信设施,具备部署快,健壮性高等优势,可广泛应用于应急通信和军事等场景。然而,由于航空平台的移动速率更高,飞行自组网的网络拓扑动态性更高,现有的移动自组网路由协议无法直接适用。在现有的FANETs的路由协议中,基于地理位置的路由协议相较于其他路由协议具有很大的优势,它仅依靠于节点的地理坐标,不建立和维护端到端连接。但是,现有的基于地理位置的路由协议也存在最优转发节点选择困难和端到端延迟较高等问题。为此,本文提出了一种基于增强学习的地理路由协议,称为QEgr。该协议基于Q-Learning算法综合考虑了链路稳定性和延迟,并使用了ns3-gym模拟器与其他路由协议进行了比较。实验表明,与GPSR、Q-Grid、Q-Geo等经典地理路由协议相比,QEgr具有更低的端到端延迟和更高的数据包发送成功率。
飞行自组织网络FANETs (Flying Ad-Hoc Networks)因其多功能性、易于部署、高移动性和低运营成本而越来越受欢迎[1]。FANETs 通常由无人驾驶飞行器(UAV)组成,可以自主飞行或远程控制。自开始用于监视和救援以来,无人机已被全球各地的军队使用[2]。如今,随着技术的进步,无人机已广泛应用于各个领域的敏感任务,例如交通监控、灾害监控、其他自组织网络的中继、遥感和野火监测等等,在各个领域都发挥着越来越重要的作用。
由于无人机节点的高移动性而导致的拓扑频繁变化, 使得FANETs中的路由设计变得具有挑战性。
在现有的许多FANETs 的路由协议中,主动路由在转发数据包之前创建路由表,但是维护路由表信息会带来更大的控制开销。反应式路由会在转发数据包时创建路由,但由于存在发现交付路径这个过程, 它带来了更大的延迟。混合路由在主动路由和反应式路由之间进行了权衡,它结合了主动路由的低延迟和反应路由的低网络控制开销的优点,但是它主要适用于网络拓扑稳定的网络。基于地理位置的路由协议仅利用邻居的位置信息,尽管开销减少了,但是由于其无法感知整个网络拓扑的变化,会造成路由空洞,从而影响路由协议的性能。
针对这些由于拓扑结构频繁变化而引起的问题,我们考虑采用自适应和自治的路由协议来解决,这意味着FANETs 中的路由协议应该能够通过检测环境的变化来发现一个稳定可靠的邻居来发送数据。在这种情况下,我们提出了一种基于增强学习的飞行自组网地理路由协议QEgr。Q-Learning 是一种以环境反馈为输入的自适应机器学习技术,这有助于自适应的路由设计。在Q-Learning 中,智能体可以根据环境反馈的奖励不断调整自己的行动策略,以更好地适应动态和不可持续的拓扑结构[3]。为了克服网络拓扑频繁变化带来的高延迟和高丢包率的问题, 在提出的QEgr 路由协议中, 我们综合考虑了链路稳定性以及延迟,以此来优化拓扑频繁变化带来的限制。此外,针对现有的基于Q-Learning 的路由协议如Q-Grid [4]、Q-Geo [5]存在参数(学习率和折扣因子)固定等不足,在提出的QEgr 中,我们分别使用链路稳定性和