讓電腦同時具有視覺、聽覺、與閱讀的能力:See, Hear, and Read: Deep Aligned Representations

還記得上次小編分享有關打開神經網路黑箱,觀察神經元的語義表達的文章嗎?最近來自同一個實驗室MIT Vision Lab,又在Arxiv上發表了一篇很酷的論文,探討如何把視覺、聽覺、與閱讀的能力融合在同一個神經網路中,讓完全不同來源與結構的資料(圖片、聲音、文章段落)能夠共享具有語義的高層神經元(Semantic High-Level Hidden Units)。如他們的Project Page中所展示的Demo,每一個神經元都有對應的高度相關圖片、聲音、與文句:
作者Yusuf Aytar已經在Cross-Modality相關的題目研究多年,有許多關於圖片、聲音、文句不同樣態(Modality)的資料交互協作學習的研究,去年的NIPS已經有發表關於如何在影片中學習出聲音的Pattern,今年的CVPR他也參與發表了一篇如何讓神經網路學習食譜文章與食物圖片之間的Embedding,非常的有趣。在這篇論文中,他設計了一個網路架構(如下圖),讓不同樣態的資料可以共享上層神經元,並做了實驗證明這樣的架構所學習到的模式,更具有通用性與不變性(Generalization and Invariance),使得跨樣態檢索(Cross-Modal Retrieval)與跨樣態分類問題(Cross-Modal Classification)可以有更好的Performance。
在這邊的網路訓練過程中,作者引入了兩個Alignment Constraint當作Loss:Alignment by Model Transfer、Alignment by Ranking。前一個概念是借鑑於先前做Cross-Modal Transfer Learning很有名的方法Distillation,利用ImageNet訓練好的網路當作老師(Teacher Network),用以訓練出有好的Representation的學生(Student Network)。後一個概念Ranking Loss,也很常用於先前Image、Text之間Embedding的訓練架構中, 有助於讓配對好的跨樣態資料能夠在Representation Space中越加接近,也盡可能拉遠非成對的資料在Space中的距離。
有了更加一致的語義表達神經元,可以很容易地做到Cross-Modal Retrieval,實驗表格也證明了這樣的方法比其他Baseline的方法要好上不少,另一個特別的地方在於,即使原本並沒有聲音(Sound)和文句(Text)之間配對好的資料可以訓練,但是在這部分的檢索表現還是很好的。在Project Page關於Retrieval的Demo有很多有趣的例子,有興趣可以去玩玩看:
Share the joy
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

近期文章

近期迴響

彙整

分類

其它

Chien-Yi Wang Written by:

Be First to Comment

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *