人工智能与自动化学院青年教师叶林涛副教授近期以第一作者在国际权威期刊IEEE Transactions on Automatic Control (TAC)发表了两篇与强化学习理论和应用有关的长文,题目分别为“基于函数逼近的弹性多智能体强化学习”(Resilient Multiagent Reinforcement Learning With Function Approximation)、“面向未知系统模型的线性二次调节在线执行器选择与控制器设计”( Online Actuator Selection and Controller Design for Linear Quadratic Regulation with Unknown System Model),第一作者单位均为华中科技大学人工智能与自动化学院。
强化学习为人工智能领域的一个重要分支,能够有效解决环境不确定下的最优决策问题。智能体通过与环境进行交互,学习自身的控制策略,最大化累计的奖励函数值。多智能体强化学习(multi-agent reinforcement learning)为当今前沿研究方向,然而已有文献中缺乏考虑多智能体系统受到外界恶意攻击情况下的强化学习算法设计。论文“基于函数逼近的弹性多智能体强化学习”(Resilient Multiagent Reinforcement Learning With Function Approximation)考虑多智能体系统中部分智能体受到外界恶意攻击的情况,提出了基于函数逼近的弹性多智能体强化学习算法,该算法能够在多智能体系统中存在恶意信息的情况下,实现多智能体系统的弹性协同并最终收敛到一个有效的全局控制策略。本文的研究成果拓展了强化学习方法的理论体系与应用范围。

论文链接:https://ieeexplore.ieee.org/abstract/document/10549785
传统的强化学习通常基于马尔科夫决策过程(Markov decision process)建立系统模型。然而,由于马尔科夫决策过程的模型对应的行动(action)和状态(state)通常取离散的值,因此无法适用于行动和状态连续取值的情况。论文“面向未知系统模型的线性二次调节在线执行器选择与控制器设计”( Online Actuator Selection and Controller Design for Linear Quadratic Regulation with Unknown System Model)考虑了模型未知控制系统线性二次型调节器中的执行器调度与控制器设计一体化问题。在该问题中,任一行动包括执行器的调度策略和控制器的控制输入,因此为离散和连续的混合取值;而控制系统的状态为连续取值。本文基于强化学习中的bandit方法,提出了求解上述问题的算法,该算法能够在有限的系统时间内,设计出近似最优的执行器调度与控制器设计一体化方案。使用基于强化学习的算法求解模型未知控制系统中的各类问题为当今前沿研究方向,本文的研究成果在这一研究方向上取得了新的突破。

论文链接:https://ieeexplore.ieee.org/abstract/document/10582506