對偶監督式學習: Dual Supervised Learning

今天要介紹的是來自微軟亞洲研究院(MSRA)在ICML2017提出的新的機器學習框架:對偶式監督學習(Dual Supervised Learning)。Dual Supervised learning(DSL)概念可以追溯到MSRA在2016 NIPS的"Dual Learning for Machine Translation"[1]。在這篇文章中作者首度提出用Dual learning的概念來做Unsupervised Machine Translation。而DSL是把前者延伸到監督式學習的任務中,並測試在更多不同的任務上。

在介紹DSL前我們需要先了解什麼是Machine Learning中的具有對偶性質(duality)的任務。以影像方面的應用上來說,我們有影像分類(Image Classification)和影像生成(Image Generation)兩個問題如下圖:

像這樣的問題我們就稱為一個Dual。其中作者在這裡設定Primal Task為給定一的圖像X 我們要透過Model(P(Y|X))預測其label Y如上圖的上半部,而Dual Task就圖的下半部,基本上就是把X和Y反過來。同樣類型的任務像是機器翻譯(英翻法vs 法翻英),或是情感分析(給定一個句子預測其情感vs給定一個情感產生對應的句子)。

根據條件機率的定義,我們可以從上圖得到以下等式:

其中\theta_{xy}\theta_{yx}分別是Primal和Dual task模型的參數。 而這個等式就是就這篇論文的核心,作者在最佳化Primal和Dual task的過程中多加了這個限制,寫成數學如下

之後用Lagarange Multiplier把這個限制引入目標函數中當作Regularizer。而在論文的後續實驗證明這個Regularizer能有效地改善Model的表現。此外,在文末附錄也有理論證明(rademacher complexity)DSL有比只考慮Primal或Dual的Supervised Learning較小的Generalization Error。

以下列出影像辨識vs影像生成這組dual的實驗結果供讀者參考,更多實驗請見原始論文。這裡的影像分類的Model是用ResNet32和ResNet110[2],而影像生成用的是PixelCNN++[3],使用的DataSet是CIFAR10[4]

影像分類

從上表可以看到如果加入DSL引入的Regularizer就可以直接改善baseline的performance

影像生成

在這部分作者加入DSL的Regularizer達到了在CIFAR 10影像生成的量化指標的SOTA。 Baseline和DSL生成的影像分別為下圖左和下圖右:

作者聲稱DSL在一些情況下可以產生較具特徵的圖像,像是第3,4,6行右邊產生的圖像就比左邊更具鳥類的特徵。

最後作者也強調了這個新的學習框架Dual Learning和過去幾個方法的不同:

  • vs Co- training
    Co-training專注在處理一個任務且假設在feature Set上有不同的feature set帶有互補的資訊,Dual Learning則專注在多種不同的任務,且沒有對feature的假設
  • vs Multi Task Learning
    Multi-Task Learning通常要兩個Task間共同具有一些相同的Feature representation; Dual Learning則假設Primal -> Dual, Dual -> Primal這個封閉路徑存在即可。
  • vs Transfer learning
    Transfer Learning用輔助的任務來提升目標任務(Ex 用Pretraind CNN 來transfer到其他的影像分類任務上),Dual Learning則是兩個Task同步提升表現。

更多細節請參考

  • 原始論文(arxiv)
  • 作者團隊之一微軟亞洲研究院Principal Scientist劉鐵岩博士對Dual Learning的訪談報導(MSRA Blog)

Reference
[1]He et.al. "Dual Learning for Machine Translation" NIPS 2016
[2]He et.al. "Deep residual learning for image recognition" CVPR 2016b
[3]Salimans et.al."Pixelcnn++: A pixelcnn implementation
with discretized logistic mixture likelihood and other modifications" ICLR 2017
[4] Krizhevsky & Hinton "Learning Multiple Layers of Features from Tiny Images"

Share the joy
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

近期文章

近期迴響

彙整

分類

其它

kuanchen Written by:

Be First to Comment

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *