网站首页  词典首页

请输入您要查询的论文:

 

标题 逆向强化学习研究概述
范文

    刘旖菲

    摘要:深度强化学习在可以手动设计奖励函数的领域取得了优异的效果。逆向强化学习利用专家演示数据推断奖励函数,可以有效解决强化学习的奖励函数设计困难的问题。为了全面反映逆向强化学习的研究进展,本文对国内外公开发表的具有代表性的论文进行了概述。本文首先介绍了逆向强化学习的简介,然后概述了逆向强化学习的研究进展,最后提出了逆向强化学习存在的问题以及未来的研究方向。

    关键词:人工智能;深度学习;逆向强化学习

    中图分类号:TP311? ? ? 文献标识码:A

    文章编号:1009-3044(2021)15-0190-02

    近年来,强化学习在复杂问题的处理上取得了不错的效果。强化学习利用奖励函数表示优化目标,优化目标决定了智能体的所学策略的最终形式。但是,好的奖励函数的设计是困难的。一方面,奖励函数的设计具有主观性和经验性;另一方面,一些任务的奖励信号是稀疏的,无法用严格的理论知识推导奖励函数的设计。因此,奖励函数的设计是阻碍强化学习算法得到普遍应用的一个难点。

    Ng等人提出[1],专家在完成某项任务时,其决策往往是最优的或接近最优的,当所有的策略产生的累积回报函数期望都不比专家策略产生的累積回报期望大时,强化学习所对应的回报函数就是根据示例学到的回报函数。通过逆向强化学习算法,智能体从专家的演示数据中推断出奖励函数,并利用该奖励函数学习策略,使得在该奖励函数下所学习的最优策略与专家的执行策略接近。因此,逆向强化学习是解决强化学习的奖励函数设计困难的问题的一个解决方案。

    1 逆向强化学习的简介

    马尔可夫决策过程(Markov Decision Process, MDP)由一个四元组构成,[M={S,A,T,r}]。其中,S表示状态空间,A表示动作空间,T表示状态转移概率模型,r表示奖励函数。在已知MDP的前提下,[π*]是累计奖励值最大的最优策略。此外,考虑到未来对现在的影响,故引入了贴现系数[γ]。

    逆向强化学习考虑的情况是MDP的奖励函数未知,提供一组从专家的执行策略[π]中采样得到的演示数据[D={?1,?2,…,?N}],每个演示数据由一组状态动作对组成,[?i={(s0,a0),(s1,a1),…(sN,aN)}]。逆向强化学习的目标是利用演示数据学习隐藏的奖励函数。

    2 逆向强化学习的研究进展

    早期的研究假设奖励函数是特征向量的线性组合。Abbeel等人[2]利用线性函数表示奖励函数,虽然无法保证算法可以正确地学习专家所执行的策略产生的累计汇报函数,但是结果表明,该算法所学习的策略的表现效果与专家所执行的策略的表现效果相当。Ziebart等人[3]提出基于最大熵的逆向强化学习,它可以有效地模拟大规模用户的驾驶行为。在给定的起点和终点之间有多条行驶路径,专家在任意一条路径上行驶的概率与沿着该条路径行驶所获得的奖励的指数成比例关系,通过最大化专家的行驶轨迹的后验概率学习奖励函数。该算法能通过改变行驶轨迹的分布特征解决专家的演示数据的次优和随机的问题。

    Levine等人[4]使用扩展的高斯过程学习非线性化的奖励函数,同时还确定了每个特征与专家策略的相关性。该基于概率模型的算法可以从次优和随机的演示数据中学习复杂的行为,同时可以自动平衡智能体学到的奖励函数的简单性和观察到的动作的一致性。

    逆向强化学习有两个基本挑战,其一是奖励函数存在模糊性的问题,即智能体可以从一组专家演示数据中推断出不同的奖励函数,其二是控制任务所涉及的系统动力学的复杂性的问题,许多早期的方法都是在每次迭代优化的内循环中求解MDP,而这些方法需要完善的系统动力学知识体系和一个有效的离线解算器,因此限制了它们在复杂的现实场景中的应用,如机器人控制。Finn等人[5]提出引导成本学习,该方法可以学习复杂的非线性成本表示,如神经网络,这消除了对成本特征的手工设计的精细程度的要求。此外,它可以应用于具有未知动力学特征的高维系统。它是基于最大熵的逆向强化学习模型,且是一种基于样本的有效近似方法,其中,通过基于局部线性模型的策略学习算法生成样本。将该方法应用于各种真实世界的机器人操作任务,评估表明,在一组模拟基准上,该方法优于先前的逆向强化学习算法,并在多个真实世界的任务上取得了良好的结果。

    3 存在的问题与未来研究方向

    逆向强化学习学到的策略往往是次优的,其表现效果低于专家的表现效果。这主要是由于两个原因,一方面,样本不具有完整性,考虑到训练示例是由专家执行的参考策略抽样得到,从而导致用于训练奖励函数的训练集是按照专家策略执行时所访问的状态的子集,因此在大部分情况下,智能体的演示水平低于专家水平。此外,为智能体提供高质量的演示数据是困难的,因此,实际的最优水平有可能远高于专家水平。另一方面,逆向强化学习的目标仅仅是找到专家的执行策略的隐含的奖励函数,却没有对专家的执行策略的改进做进一步的探索。Brown等人[6]研究了传统的逆向强化学习的学习效果不能超越专家的原因,并提出了轨迹排名奖励外推(trajectory-ranked reward extrapolation, T-REX)。T-REX首先根据每个轨迹中的累积奖励对采样轨迹进行排序。然后,T-REX推断一个由深度神经网络参数化的奖励函数。最后,对该网络进行训练。该方法遵循最大似然法的模式,该模式通过推断的奖励函数来解释观测的和排序得到的轨迹。TREX探索潜在的奖励空间以推断高质量的奖励函数,从而学习有效的策略。仿真结果表明,T-REX在多个Atari和MuJoCo基准任务上优于最先进的模仿学习和逆向强化学习方法,且其性能往往可以达到最佳演示性能的两倍以上。此外,即使在存在显著的排名噪声的情况下,T-REX也表现良好。

    大多数逆向强化学习算法是两阶段的,即首先推断一个奖励函数,然后通过强化学习学习策略。由于采用了两个独立的过程,从而导致两阶段的逆向强化学习算法的计算复杂度高,鲁棒性差。与两阶段算法相比,单阶段算法具有更高的效率和鲁棒性。Justin等人[7]提出了对抗性逆强化学习,它在推断奖励函数的同时学习策略。对抗性逆强化学习将逆强化学习问题转化为生成对抗方式,即策略产生轨迹,并由判别器判别轨迹是否来自专家。同时,将判别器的评判分数设置为策略的奖励函数。为了使累计回报最大化,策略应与专家的执行策略高度匹配,从而获得更高的分数。训练结束后,智能体同时学会了奖励函数和策略。对抗性逆强化学习算法是一种特殊的单阶段算法,它基于推断的奖励函数学习策略。此外,奖励函数的推断与策略的学习密切相关,实现了相互监督,并有效地减小了方差。

    4 结语

    综上所述,强化学习的目标是使智能体学习决策过程以产生行为,并使某些预定义的累计奖励最大化。但是设计一个可以有效优化并表征所学策略的最终形式的奖励函数是困难的,因此奖励函数的设计是阻碍强化学习算法得到普遍应用的一大障碍。逆向强化学习的目标是从专家的演示数据中提取奖励函数,它可以有效解决手动设定奖励函数存在困难的问题。在已知奖励函数的情况下,问题可以简化为利用强化学习方法使智能体学习最优策略。由于演示数据的不完整性和质量较低,可能导致逆向强化学习学到的策略是次优的,其表现效果低于专家的表现效果。此外,两阶段的逆向强化学习算法的计算复杂度高,鲁棒性差。因此,超越演示的逆向强化学习算法和單阶段的逆向强化学习算法将是未来的一大发展趋势。

    参考文献:

    [1]? Ng A Y, Russell S J. Algorithms for inverse reinforcement learning[C]//Icml. 2000(1): 2.

    [2] Abbeel P,Ng A Y.Apprenticeship learning via inverse reinforcement learning[C]//Twenty-first international conference on Machine learning - ICML '04.July 4-8,2004.Banff,Alberta,Canada.New York:ACM Press,2004:1.

    [3]? Ziebart B D, Maas A L, Bagnell J A, et al. Maximum entropy inverse reinforcement learning[C]//Aaai,2008(8):1433-1438.

    [4] Levine S, Popovic Z, Koltun V. Nonlinear inverse reinforcement learning with gaussian processes[J]. Advances in neural information processing systems, 2011, 24: 19-27.

    [5]? Finn C, Levine S, Abbeel P. Guided cost learning: Deep inverse optimal control via policy optimization[C]//International conference on machine learning. PMLR, 2016: 49-58.

    [6]? Brown D, Goo W, Nagarajan P, et al. Extrapolating beyond suboptimal demonstrations via inverse reinforcement learning from observations[C]//International Conference on Machine Learning. PMLR, 2019: 783-792.

    [7]? Fu J, Luo K, Levine S. Learning robust rewards with adversarial inverse reinforcement learning[J]. arXiv preprint arXiv:1710.11248, 2017.

    【通联编辑:李雅琪】

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/3/10 15:19:14