4 周博磊RL-7-model_based

model-based方法样本效率高, (而不是真实事件)

1. Table Lookup Model

1.1 model-based

之后,可以通过估计出的模型进行planing, MC或TD
但是当模型出错的时候,学习到的值函数也是错的
- 当模型准确率低的时候, 使用model-model
- 解释模型的不确定性或置信度: 使用高斯过程或者贝叶斯模型等概率模型.

1.2 整合planning和learning

2. Model-based policy optimization

纯PG从trajectory中学习, 是model-free的, 但是其推到的时候假设状态转移函数和性能函数无关. 但真实情况不一定
Model-based policy optimization与最优控制理论联系密切. 最优控制理论中一般把system dynamics (model)作为约束项, 最小化cost函数
- cost函数可以看作RL中的负奖励函数
- 最优解可以通过 Linear-Quadratic Regulator (LQR) and iterative LQR (iLQR)求解.

2.1 算法1--整合model learning and trajectory optimization

2.2 算法2

解决planning 偏移问题

2.3 算法3-MPC

上述算法在拟合新model之前, 执行所有了planned actions, 还是无法解决一开始就有偏移的问题.
使用Model Predictive Control (MPC)
- 同样是优化整个trajectory, 但是执行的时候只往下执行一步, 然后进行replan

2.4 算法4--将MPC与policy learning结合起来

2.5 环境模型的参数化:

Global model: f使用大型神经网络参数化
- 拟合能力强但是需要大量数据
Local model: 把transition建模为时变线性高斯函数
- 数据效率高
- 但是对于非平滑函数表现不好,
- 在数据量大的时候很慢

3 具体应用的算法

3.1 机械臂搭积木--PILCO

论文: A model-based and data-efficient approach to policy search. Deisenroth and Rasmussen. ICML 2011
Demo link: http://mlg.eng.cam.ac.uk/pilco/

3.2 机械抓取

results matching ""

No results matching ""