:本文提出了一种LCS 和LS-SVM 相结合的多机器人强化学习方法,LS-SVM 获得的最优学习策略作为LCS 的初始规则集。LCS 通过与环境的交互,能更快发现指导多机器人强化学习的规则,为强化学习系统的动作选择提供实时、动态的反馈,使多机器人自主地学习到相互协作的最优策略。算法的分析和仿真表明多机器人学习空间大、学习速度收敛慢、学习效果不确定等问题得到很大的改善。
机器人强化学习问题自提出至今已有众多学者做了多年的深入研究并产生了大量研究成果[1-4]。
Q 学习方法作为一典型的强化学习方法,且不需要建立环境和任务的精确数学模型,已被广泛地应用于机器人领域[5]。但在多机器人的学习过程中,经常出现由于学习空间大、造成学习速度慢、学习效果不确定等问题[6]。
基于上述分析,本文提出了将LCS 和LS-SVM结合用于解决多机器人的强化学习问题。LS-SVM 获得的最优学习策略作为LCS 的初始规则集。
LCS 通过与环境的交互,可以发现一组用于指导机器人学习的规则, 为LCS 系统的动作选择提供实时、动态的反馈, 使机器人自主地学习到最优路径规划策略。
*基金项目:河南省教育厅重点资助项目(12B520047)。
Copyright © 2013 Hanspub 24