不需要外部Reward的增強式學習: Curiosity-driven Exploration by Self-supervised Prediction

(下面會直接使用RL的術語,需要對RL有基本的理解可能比較容易看得懂。若之前沒有接觸過RL讀者可以先參考[註1])

今天要來介紹由UC Berkeley  在ICML 2017最新提出的論文:Curiosity-driven Exploration by Self-supervised Prediction。這篇論文的重點在於它挑戰了傳統增強式學習(Reinforcement Learning,RL)框架裡的重要元素:External Reward。傳統的RL的學習方式是需要Environment提供一個Reward來衡量Agent在現階的狀況採取某的動作到底好不好。舉例來說,今天要教機器人端水,如果他打翻了Reward就是-1,如果他端好就是+1。這篇論文定義了一個agent 本身的intrinsic reward來做的RL。意思是今天機器人不需要像上述例子由Environment給的Reward,只要把agent本身的intrinsic reward最大化就能做到RL[註2]

 

這篇論文的核心思想如下:假設agent看到的是一張張遊戲的畫面(image pixel),我們希望去預測哪些state的變化是由agent的action造成或著是會影響agent的,如果說那些變化不會影響agent,我們就不理他。

 

為了做到這件事,作者提出需要把原本的屬於pixel space的遊戲畫面mapping到另一feature space去,而這個feature mapping是可以透過一個NN的模型從任一environment學出來的。原因是如果我們用原本的pixel space來表示state可能會發生以下狀況:今天遊戲中有隨風飄落的落葉,這些落葉既不是由agent的action造成且不會影響agent因此作者希望能夠忽略,但是如果用原本的pixel space就無法避免這個狀況。這個模型包含兩部分如下圖:

source:paper

第一個部分是右邊的inverse model:先將原本的state map到一個feature space去,接著由前後兩個時間點的state去預測從state t到t+1的action,這部分cost為取softmax後算cross-entropy

第二個部分是用t時間點的state和action去預測t+1的state,cost為兩個state差的L2-norm。

接著是intrinsic reward signal,定義為第二部分的cost乘上一個常數,這樣定義可以鼓勵model去探索一些不同的state(注意這一項是要maximize),最後把三個部份相加做minimize求解。

 

作者有在兩個Environment(VisDoom,Super Mario)做實驗都得到很好的效果,以下僅貼出在Super Mario的結果,更多細節和討論請參考Paper

source:paper

重點在最右邊,在幾乎完全沒有外界Reward下A3C[註3]幾乎學不到東西,此外,作者提出把原本pixel space map到另一個feature space也在這個scenaio下達到非常好的效果(最上面的是有mapping,中間的是沒做mapping)。

 

 

註1:陳縕儂老師關於Deep Reinforcement Learning的slide

註2:這裡作者其實還是有考慮有External Reward的情況,只是非常的sparse。

註3:2016年由DeepMind提出的一個RL算法,是現在很流行的一個Baseline。請參考Mnih et.al"Asynchronous Method For Deep Reinforcement Learning",ICML 2016(arxiv)

Share the joy
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

近期文章

近期迴響

彙整

分類

其它

kuanchen Written by:

Be First to Comment

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *