0.2 强化学习-DDPG

核心:

DQN:

1. 背景

贝尔曼方程:

(2)

当使用确定性策略时,

(3)

Q-learning, 使用贪婪策略

(4, 5)

DPG算法使用AC架构, Actor使用确定性策略把状态映射到动作, critic使用Q-learning相同的贝尔曼方程计算Q值. 然后对初始分布的期望回报使用链式法则, 更新参数,

(6)

下面说如何用DQN对其进行改进:

首先使用经验缓冲池机制, 达到数据独立同分布要求;
使用target网络, 但是目标网络的参数使用sotf更新, , 这种方法使得目标网络参数更新放缓, 提高稳定性.
actor和critic都使用了目标网络, 这会减慢学习速度, 但是明显提升稳定性.
对状态输入, $\mu$ 和 $Q$ 网络的所有层都使用BN层．使用低维特征向量作为输入时, 不同部分有不同的物理意义, 本文使用batch normalization. BN层可以减少训练时的协方差偏移.
使用随机噪声进行探索. off-policy可以把探索和学习过程分开, 本文在actor策略中加入噪声进行抽样
伪代码如下


fig 1

同时使用低维状态信息(如关节角度和位置), 和高维图片;
action repeats. 每个时间步都重复执行一个动作3次. 这样每一次环境返回9个feature map(3张rgb图像);
每一帧都被下采样为64*64, 8位RGB值转换为[0, 1]的浮点值.
使用Adam学习网络参数, Actor和critic的学习率分别是 $10^{-4}$ 和 $10^{-3}$ ;
对于Q, 使用 $10^{-2}$ 的L2权重衰减, 折扣因子 $\gamma=0.99$ ;
软目标网络, 使用 $\tau=0.001$ ;
神经网络的所有隐藏层使用非线性整流器. Actor的最终输出层是一个tanh层, 用于限制动作;
低维输入问题:2个隐层, 分别300, 400神经元(约130000个参数); 直到Q的第二个隐藏层才开始包含动作;
像素输入问题, 3个conv(32filter, 无pooling), +200FC层(约430000个参数).
Actor和critic网络最后一层的 $w$ 和 $b$ 都是从均匀分布初始化的, 低维情况和像素情况分别是 . 这是为了保证策略和值估计的初始输出接近0. 其他层从均匀分布中初始化, 其中f是相应层的扇入(fan-in输入端数).
全连接层输出动作.
低维 Minibatch size=64, 像素minibatch=16;
Replay buffer=10**6
对于探索噪声, 使用时间相关的噪声, 以便在具有动量的物理环境中很好地探索. 我们使用Ornstein-Uhlenbeck过程, $\theta=0.15, \delta=0.2$ .

对于Torcs环境, 我们使用回报函数是: 在每个步骤中, 沿轨道方向的汽车加速度有正的奖励, 对于碰撞惩罚为-1. 如果在500帧之后没有沿着轨道前进, 则回合结束.

该任务每一步都有环境奖励信息, 每一步都包含动作耗费.