1.3 协作MARL：Qatten (Q-value Attention network

论文及翻译：3 Qatten

Motivation

使用集中式学习分布式执行框架，本质还是值函数逼近算法；

考虑只通过全局的奖励信息R指导学习

只适合协作式的POMDP问题
考虑如何通过局部值函数构造联合值函数，借由全局状态信息提升算法
考虑保证联合值函数与局部值函数单调性相同
VDN $\rightarrow$ QMIX $\rightarrow$ Qatten

如何学习联合Q值函数？

如何从联合Q函数提取好的分布式策略？

基本概念

算法演变

IQL（independent Q-learning）
- 简单地给每个智能体执行一个Q-learning；
DRQN：用RNN替换DQN的CNN，解POMDP问题；
VDN（value decomposition networks）
- 行动策略通过对每个𝑄^𝑖 求ragmax得到；
- VDN直接对局部Q函数求和，没有利用状态信息，且是线性表示。

算法框架

实验

环境：星际争霸2挑战环境，（easy , hard, super hard）
baseline：COMA、VDN、QMIX、QTRAN
总训练步数约为200万；经验缓冲池：5000回合数据。
GPU:RTX2080，
训练：8小时至18小时。

讨论

用多头注意力机制进行值分解，考虑了个体对整体的影响；
这个实验中H=4，智能体多了不稳，H增大计算复杂度升高
这个系列的算法都是基于值函数

results matching ""

No results matching ""