2017 ImageNet Classfication 冠軍:Squeeze-and-Excitation Networks

Introduction

今年是ImageNet比賽的最後一年,這兩年的競賽結果比較沒有像2015年微軟研究院ResNet的橫空出世,一舉拿下多個項目的比賽冠軍那麼驚艷,但是也都基於前人的努力,有了些新的發現與結果。其中Classfication項目的冠軍,來自中國做自駕車的新創公司Momenta(公司中有多名高手包括曹旭東以及Faster R-CNN的作者任少卿),基於前人所提出的強力Backbone架構上,加上了一個精巧的Squeeze-and-Excitation分支,只多出一些Overhead就能比2016年比賽的第一名相對提升了25%。相較於其他比賽的組各種搭建串接網路的方法,這樣的分支網路更加有彈性,也能應用在不同的Backbone架構上。

Squeeze-and-Excitation Module

作者們觀察到一般的Convolution操作上,會將上一層的feature maps在一個local receptive field中做filter operation,但是沒有考慮更全局的訊息,或是每一個feature map應該給予多少權重。作者新提出的module,一方面借鑑了Inception-v3[1]網路的思想,考慮更多空間上的訊息(Multi-Scale Embedding),另一方面也直接從這個分支直接監督每一個feature map應該要有的權重。

下圖中可以看到整個module的詳細操作,第一步Squeeze先把feature map做global pooling得到全局的訊息(結果為1x1),第二步Excitation通過額外的fully connected layers與non-linear layer,算出每一個feature map的權重,最後再把權重與原本的feature maps相乘得到結果。

參考下圖,這邊在實作上Excitation是由兩層fully connected layers配合上sigmoid layer完成的,在第一層fully connected layer故意將feature depth縮減成1/16,下一層再還原成原來大小,類似於Inception-v3的bottleneck layer的效果,不僅是縮減了計算量,在實驗部分作者也證明了用較多的depth效果也未必較好。

Experiments

實做與實驗部分,Momenta用了自家的分散式系統ROCS,可以做到有效的large batch training,在32塊GPU同時使用下達到了巨大的batch size 1024。下面的表格顯示,這樣的module可以加到不同的backbone上都能在classification精度上有不錯的提升。

另一個表格中也可以看出,作者在ResNext中加上module的最終網路,classification上也勝過了最近很火紅的DenseNet與利用DenseNet的Dual-Path Network (DPN)。

作者另外也做了一些網路內部的視覺化實驗,挑選了差異較大的object classes,分析在不同的網路層中,這幾種class的excitation權重分布圖。在較淺層像是SE_2_3與SE_3_4,excitation的分佈基本上是一致的,只有在中間semantic含義較強的層像是SE_4_6與SE_5_1,才有較明顯的效果。最後接近classifier的層,也趨近飽和沒有太多的區別。

Comments

  • 這樣的操作乍看下,會以為其實多加一個1x1的convolution就可以得到一樣的效果,但這邊權重其實是由Squeeze步驟得到的全局訊息去計算出的,這些訊息可能才是網路有效的關鍵。
  • 這邊小編猜測在前面幾層module沒有發揮作用的原因,也有可能是前面的feature map太大,導致global pooling直接縮減變成1x1的大小之後,沒辦法有太多有用的訊息。
  • 這樣大型網路與大量資料的訓練,目前的趨勢可能都要借助於硬體的幫忙,達到更高的training batch size,才能達到較好的結果。

Reference

  • 原始論文
  • Slides
  • Source Code (作者的版本是在Caffe框架,但底下另外也有Tensorflow與MatConvNet的re-implementation)
  • [1] Szegedy, Christian, et al. "Rethinking the inception architecture for computer vision." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.
Share the joy
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

近期文章

近期迴響

彙整

分類

其它

Chien-Yi Wang Written by:

Be First to Comment

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *