1.4 协作MARL:MAVEN
论文及翻译:MAVEN
首先了解一些概念,Dec-POMDP, centralised training with decentralised execution(CTDE), QMIX, QTRAN, IGM,这些在之前的内容中讲过。
然后确定一些前提知识:
- 中心化训练时要使用每个智能体的动作-观察历史、以及全局状态;在分布式执行时,每个智能体只是用自己的局部动作-观察历史。
- QMIX使用单调性约束,可以保证在去中心化执行时,只使用的时间
- QTRAN使用线性约束,但是因为约束太松,表现不好。并且计算复杂度很高,在连续任务上状态任务空间中无法求解。
- 对于部分可观察环境来说,IGM限制很严格;但是对于完全可观察话环境,在Q值模型有足够表示能力时,所有的任务都是可分解的。
MAVEN算法思想:关注在去中心化MARL中不充分的探索引起的问题。
- 使得单个智能体样本效率降低,去中心化必要的表示性约束,是算法趋于次优。单智能体可以通过增大探索或策略方差来促进探索;但是在MARL中这些方法不可以。
- committed探索可以用来解决上述问题。在committed exploration中,探索行为通过沿时间步扩展以协作方式执行。在MARL包括长期合作,需要探索行为发现最大化奖励的暂时性联合策略。现有CTDE算法没有考虑committed exploration。
- MAVEN:通过引入分层控制隐空间,混合基于值与基于策略的方法。智能体基于值方法,通过共享隐变量(由分层策略控制)限制其行为。因此固定隐变量,每个联合动作值函数可以看作整个episode里的一个联合探索行为模式。
- 然后,MAVEN最大化trajectories和隐变量之间的互信息,学习上述探索行为的多种集合。
- 这使得MAVEN可以在遵循表示性限制的同时,实现committed exploration。