控制自然語言生成風格:讓機器人寫出 “專業感” 或 “情緒化” 的電影評論

還記得先前跟LeCun及MILA有許多"意見交換"的NLP專家Yoav Goldberg嗎? 今天要介紹的是他被ACL Stylistic Variation Workshop 2017接受的一篇文章:Controlling Linguistic Style Aspects in Neural Language Generation

開始介紹前,先來看看這篇自然語言生成的結果與風格吧:

Example 1.

  • 風格設定
    • Sentiment: Negative
    • Professional: False
    • Personal: True
    • Length: 11-20 words
    • Descriptive: True
    • Theme: Other
  • 生成範例

    “My biggest problem with the whole movie though is that there is nothing new or original or great in this film.”
    “Good but a little bit slow and boring, I was looking forward to seeing this movie with my parents.”

Example 2.

  • 風格設定
    • Sentiment: Positive
    • Professional: True
    • Personal: False
    • Length: 11-20 words
    • Descriptive: False
    • Theme: Other
  • 生成範例

    “The film’s ultimate pleasure if you want to fall in love with the ending, you won’t be disappointed”
    “ The film’s simple, and a refreshing take on the complex family drama of the regions of human intelligence.”

有別於近期在自然語言生成的模型大多引入了不同的進階架構,本篇所使用的模型是較單純的LSTM Language Model,不過在學習時會多引入一個脈絡(Context)條件,可參考下面的論文節圖:

而這個脈絡c就是風格參數的表示向量,包含了像上面範例提到的:情緒、專業性、個人化、長度、描述性及主題,共六種風格參數。因此在學習語言模型時就會多考慮到風格條件。更詳細的參數介紹可以參考下面的論文截圖:

而作者也有提到,本篇的一個挑戰就落在句子標記(Annotation)上。雖然本篇只用了很多簡單的標記原則,也確實在人工檢驗時發現部分雜訊(尤其是在情緒標記工作上),但從實驗成果來看效果還是相當不錯的。文章後半段詳述了標記的作法以及他們為檢驗模型成效而設計的許多實驗。例如他們發現加入了脈絡條件之後,一般而言都可以改善語言模型的Perplexity;而將他們的模型與特定風格專用的模型(Dedicated Language Model)作比較,發現雖然在風格參數較少的時候專用模型能有較好的表現,但當增加更多風格參數來形成更複雜的風格組合時,可用來訓練的語句減少,專用模型的泛化能力不足,此時就不及本篇所提出來的條件機率模型了。

更多細節可以參考論文

Share the joy
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

近期文章

近期迴響

彙整

分類

其它

leoyang Written by:

Be First to Comment

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *