通过交流最小化学习近似可分解价值函数

论文及翻译:基于交流最小化的近似可分解价值函数

Motivation:MARL面临困难:可扩展性和非稳定性。目前值函数分解方法在解决协作多智能体系统很有效,但是现存方法过于关注完全去中心化值函数,使其在交流场景中效率不高。本文提出近似可分解值函数,使智能体在大多数情况下自己行动,但是偶尔给其他智能体发送消息提高协作效率。该框架通过引入两个信息论的正则化项混合值函数分解学习和交流学习。这些正则化项最大化去中心化Q函数和交流信息之间的互信息,同时最小化智能体之间消息的信息熵。该框架可以很简单和已有的值函数分解方法结合。并可以在不牺牲性能的情况下切断80%的通信。

6. 结论

  1. 提出一种CTDE范式下的多智能体交流协作框架,将值分解方法和交流学习方法结合,高效学习近似可分解值函数;
  2. 引入两种正则化项尽量减少全体沟通,同时最大化信息的协调;
  3. 实验结果展示,本文方法性能很好,并且在截断消息80%的情况下也能达到很好的效果。

7. 评论

这个方法的实验部分,把视野变成2,相当于把智能体变成了瞎子,然后肯定有交流的比没有交流的表现好。

没有很好地分析他加入正则化项的效果,分析不足。消融实验也不好。

TarMAC为什么完全没有效果。

消息截断的问题,为什么要截断消息。其他方法权重减少80%?

create By cicoa            此页面修订于: 2022-06-28 03:15:43

results matching ""

    No results matching ""