如何讓AI適應兼具競爭及合作的混合環境?

還記得上次介紹Alibaba利用AI打Starcraft的文章嗎?近期 OpenAI 也在 Multi-Agent Reinforcement Learning 這部分提出了一個新架構,該篇論文也就是今天要介紹的 Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments 。而本篇的特色是不需要一個可導函數來作為環境的Model,也不需要設計一個特殊的溝通管道,因此更加泛用,除了合作導向的任務,也同時適用於兼具合作與競爭的情境。實際模型的表現OpenAI也釋出了Demo影片如下以供參考:

他們在文中將模型取名為Multi-Agent Deep Deterministic Policy Gradient (MADDPG)。巧妙的延伸了近期主流的連續控制Actor-Critic模型 - Deep Deterministic Policy Gradient (DDPG),將 Centralized Training and Decentralized Execution的架構引入其中。簡單來說,就是Actor在決定Action的時候只參考個人的Observation,但Critic在評價的時候則會參考所有人的Observation及Action。示意圖、相關式子及演算法如下:

  • 示意圖

  • Policy Gradient
    *x為state information,例如所有Agent的Obeservation。

  • Critic and Loss Function

  • MADDPG

其中在Centralized Training部分,每個Actor還會建立一系列的Approximation Policy,以用來推測其他Agent的行動。如此可將式(6)中得 “y” 改以Approximation Policy來推測其他Agent的Action並帶入。另外,本篇還應用了Policy Ensembles的方式來提升模型的強健性。

實驗部分的測試環境如下(有些部分可參考影片的介紹,細節不在此贅述,建議參考論文原文):
- Cooperative Communication
- Cooperative Navigation
- Keep-away
- Physical Deception
- Predator-prey
- Covert Communication

從數據結果能發現MADDPG顯然優於DDPG,而Ensemble也能提高模型的表現。而影片提供的Case能讓我們一窺模型具體的行為模式,可以看到DDPG在許多任務中行為模式較為呆板,例如在Speaker-Listener的任務中Speaker只會重複發出一樣的指式,而MADDPG則大多能產生明顯的合作策略。實驗數據結果可參考下圖:

更多內容細節建議參考論文原文

Share the joy
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

近期文章

近期迴響

彙整

分類

其它

leoyang Written by:

Be First to Comment

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *