Understanding of Hierarchical Reinforcement Learning

misunderstanding of on-policy and off-policy

  • reference: on-policy and off-policy RL
  • definition
    1. on-policy: the learning is from the data on the target policy
    2. off-policy: the learning is from the data off the target policy
  • 之所以有这个问题是因为我自己没有很好的区分行为策略和目标策略
    1. 行为策略:行为策略是专门负责学习数据的获取,具有一定的随机性,总是有一定的概率选出潜在的最优动作
    2. 目标策略:目标策略借助行为策略收集到的样本以及策略提升方法提升自身性能,并最终成为最优策略
  • 异策略有时候需要重要性采样,而同策略不需要重要性采样
    这是因为需要估计一个策略的价值,而这个策略的价值是由另一个策略的价值估计出来的,所以需要重要性采样

分层强化学习

一些曾经出现的HRL-frame

  1. 封建强化学习框架
  • [Peter Dayan and Geoffrey E Hinton. Feudal reinforcement learning. In Advances in neural information processing systems, pages 271–278, 1993.]
  1. Options框架
  • 通过将多个action进行组合,形成一个子技能,然后在这个子技能上进行学习,上层策略求解一个semi-MDP问题,来获得对下层Option的调用
  • Option由三元组<I, π,β>定义。分别表示:能够进入该option的初始状态集合;该option代表的子策略;终止该option的概率(从状态到[0,1]的mapping)
  • [Richard S Sutton, Doina Precup, and Satinder Singh. Between mdps and semi-mdps: A framework for temporal abstraction in reinforcement learning. Artificial intelligence, 112(1-2):181–211, 1999.]
  1. HAM框架(Hierarchical of abstraction machine)
    1
    2
    3
    4
    5
    原本的MDP问题,直接使用先验知识,来建立一个状态转换机,分为四种状态,如下
    行为状态:执行action;
    调用状态:调用其它的状态机。
    选择状态:则选择下一个状态;
    停止状态:中止当前的状态机,然后返回到之前的调用状态。
  • 但HAM的问题是设计起来过于复杂,需要对任务本身有足够多的理解
  1. MAXQ框架
  • 不同于options框架是从action的视角来进行分层,MAXQ是从任务分解的角度出发的。每个子任务,定义为一个三元组,分别包含了可选的动作、终止状态、以及专属的奖赏函数
  • [Dietterich T G. Hierarchical reinforcement learning with the MAXQ value function decomposition[J]. Journal of artificial intelligence research, 2000, 13: 227-303]