文章太長懶得讀嗎?Salesforce最新論文應用Reinforcement Learning幫你作摘要

暨上次介紹的Standford NLP group的Get To the Point:Summarization of Pointer Generation Netowrk後,Stanford Deep NLP講師Socher的又有最新力作!結合了監督式學習的ML Loss以及強化學習的RL Loss,在CNN新聞資料集上作抽象摘要 (Abstract Summarization),ROUGE score達到了state-of-the-art!

所謂的「抽象摘要」指的是利用文字「生成」的方式來產生摘要;有別於萃取摘要 (Extractive Summarization) 藉由複製原始文章的重要段落來達到摘要的效果。所以抽象摘要會使用到的語彙就不限於原始文章中的字詞。

作者應用Encoder-decoder Network以及Intra-attention機制來生成摘要,其中為了避免生成文句的重複性太高,若一個Input Token在某一時刻有較高的Attention score,後續則連帶會有較高的Penalty。而本篇的一個特色就是在Decoding階段的Hidden State也會用上Attention。這部分架構可以參考下圖:

 

而文字生成部分則會在Token-generation Softmax Layer 與 Pointer Mechanism之間切換,也就是同時兼併自行生成以及複製原文來做到抽象摘要。

要生成這種長句型的摘要其實是很有挑戰性的,其中一種使用監督式學習法會遇到的問題叫「Exposure Bias」,意思是RNN在Training時有Ground Truth當作Input來生成,但在Testing階段就只能利用自己的前一個Output來生成,因此當句子變長時累積的誤差也會更明顯。另一個問題則是當句子變長時,雖然資料及有提供一個固定Ground Truth,但其實透過不同的排列順序,也有可能是洽當的結果。

基於上述問題的啟發,作者認為用ROUGE score當作Metric,再配合Reinforcement Learning的方法來學習是合適的。本文使用的學習架構是Self-critic Policy Gradient,這個架構的特色是不需要另外設計一個Critic模型,而是直接利用Greedy Policy來當作Baseline。而最後的Loss Function考量先前的監督學習Loss (Lml) 能增加文字的可讀性,再結合強化學習Loss (Lrl) ,最終混合形的Loss如下:

 

實驗結果顯示運用RL在ROUGE score可以達到state-of-the-art;而純RL Loss所訓練的模型雖然ROUGE score較佳,但由真人判讀的結果並不如純ML Loss,而結合兩者的ML+RL模型則能達到最好的表現 (真人判讀)。

更多細節請參考下列連結,其中部落格的部分還有許多精美的Demo:

 

Share the joy
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

近期文章

近期迴響

彙整

分類

其它

leoyang Written by:

Be First to Comment

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *