2 spinup-VPG

策略梯度算法的关键思想是: 提高高回报操作的动作的概率, 减少低回报动作的概率.

VPG算法:

  • on-plocy算法
  • 可用于离散或连续动作空间
  • 支持使用MPI接口并行化

公式定义

πθ\pi_{\theta} 代表策略, 则性能函数的梯度是

(1)

则随机梯度上升算法更新公式为

(2)

伪代码

VPG使用on-policy训练. 意味着它基于最新随机策略抽样动作进行探索. 动作选择的随机性取决于初始条件和训练过程.

但是更新规则鼓励exploit rewards, 所以动作随机性会降低.

这使得算法收敛速度比较快, 但是容易陷入局部最优.

参考文献

create By cicoa            此页面修订于: 2022-06-28 03:15:43

results matching ""

    No results matching ""