基于分层学习的自适应动态规划

发布日期:2017年8月4日
基于分层学习的自适应动态规划 基于分层学习的自适应动态规划

本内容试读结束

下载后可阅读完整内容,立即下载

本文基于婴儿的认知发育模型LOC (Levels of Consciousness)提出了基于分层学习的自适应动态规划方法以改进学习和优化。根据LOC模型中感知的层次性以及工作目标的层次定义,为自适应动态规划设计了多层的目标网络结构及相应的分层学习方法。在自适应评价中引入多层的目标表征将引导系统做出好

理解大脑的智能,并开发出能模拟相应智能水平的自适应系统,一直是人类伟大的追求之一,也是未解的科学挑战[1]。随着脑研究和现代技术的发展,科学家和工程师们热切希望能找到一条有效的路径来构建高适应性和鲁棒性的复杂系统,且系统对非确定性和非结构化环境具有很好的容错能力。然而, 虽然许多重要的基础研究以及工程应用取得了成功,但要实现真正人类脑的全智能机器仍是任重道远。

一个基本的关键问题是如何设计智能系统,让其不断学习优化、学习预测以实现最终的目标。本文我们给出了基于分层学习的自适应动态规划来处理这个问题。

在近二十年来,工程和科学的不同研究分支都对机器智能研究广泛关注并取得了很多进展。其中自适应动态规划(ADP)被普遍认为是近似最优行为策略的唯一通用途径, 且在许多复杂系统应用中展示了其具有巨大潜能来达到一定的智能水平,在某一程度上近似于真正的智能。简而言之,ADP 的关键思想是建立在Bellman 等式[2]的基础上,依赖于与环境的不断交互最终得到最优。比如,给定一个系统的性能成本函数,动态规划的目标是选择控制序列u 使成本函数最小,即公式(1): ( )()( )( )( )()()(){}**min, 1u tJX tU X tu tJX tα=++ (1) 其中, ( )X t 是系统的状态向量,u 是控制行为,U 是效用函数,是折扣因子。为了实践可行ADP 使用函数来近似成本函数。比如,一种通用的近似器是使用BP 算法的神经网络(NN),其被研究者广泛研究, 并被应用于许多不同的领域,包括工业控制、直升机控制、交通信号控制、电力控制等等[3] [4] [5] [6]。

本文,我们提出了基于分层学习的自适应动态规划来改进学习和优化。设计思路主要受启于生物系统的多阶段多层目标表征,比如一个生物系统在不同发育阶段有不同的目标,或者在同一个阶段有不同的目标。最明显的是在婴儿的认知发育过程中所体现的阶段性和层次性。Levels of Consciousness (LOC)是关于幼儿认知发育过程的理论建模, 基于LOC 我们认为基于多层的强化信号表征有助于层次目标的形成与发育,并通过分层学习以及自顶向下或自底向上的方法来实现智能决策过程。

2. 层次自适应动态规划 LOC 认为婴儿的意识在三个维度上通过多个阶段进行发育,三个维度是:语义记忆、意识层次和工作记忆。语义记忆是客观信息的存储,比如事实和对象,语义记忆的发展促使意识层的发展,也就是联系语义记忆中的信息以完成工作记忆中的目标的能力。工作记忆是认知系统的行为部分,行为部分的发展促使婴儿完成更复杂的目标和任务。

Anderson 和Bothell 关于认知结构的假设称为理性思维的适用性控制ACT-R (Adaptive Control of



相关标签