可變形的卷積網路 Deformable Convolutional Networks

一般在Convolutional Neural Network中總是用預設的正方形filter去做convolution,導致在最後所得到的特徵activation unit,所對應的receptive field是對稱的正方形,無法反映檢測物體真正的形狀。微軟亞洲研究院MSRA最近發表的可變形卷積網路Deformable Convolutional Network (DCN),讓卷積層有了更多的可能性! 這篇與之前的一篇論文Spatial Transformation Network (STN) [1] 想法相似,但做得更深入一些。STN主要是學習global and sparse的空間變換特徵(旋轉、縮放)去作整張圖片的歸一化,DCN所引入學習的是更加local and dense的變換特徵,針對每一個filter都預測了offset,使其能更加有效地覆蓋target所在的區域。作者實作了兩個network module:Deformable Convolution和Deformable RoI Pooling。兩個module原始的版本功能類似,都是對一張feature map做sampling,並計算後產生新的feature map,因此都可以在sampling的階段加上learnable offset。如果要做圖片語義分割(Semantic Segmentation),只需要用Deformable Convolution即可,但如果要做物體檢測(Object Detection),則需要另外使用Deformable RoI Pooling,對有興趣的多個區域Region of Interest (ROI)進行處理,放縮成相同大小的feature map。
上圖顯示出deformable convolution有著空間變換的各種可能(旋轉、縮放等),在semantic segmentation中常用的dilated convolution可以視作deformable convolution的一種特例。
                                       
上圖可看出在deformable convolution與deformable RoI Pooling所多加入的綠色部分,包含用bilinear operation實作的learnable offset,可以back propagation與原本的網路一起學習。這裡要注意的實作細節是deformable RoI Pooling用了一層Fully Connected Layer (FC)當作中介產生normalized offsets,再根據RoI的長寬還原出真正的offset,作者實驗顯示這樣的操作會使學習更有效率。
由上圖可視化的結果,可以看出使用deformable module所學習出的特徵activation unit(綠色點),所對應出在原本圖片中的receptive field(紅色點),的確能夠有效去覆蓋物體所在的區域,從而增進物體檢測的效能。在最後的實驗部分,作者用deformable module在semantic segmentation與object detection都取得了比原始方法更好的結果。這裡作者們並沒有放上關於圖片分類的實驗,猜測可能是效能沒有像是這兩個task有明顯的提升。
Reference:
[1] M. Jaderberg, K. Simonyan, and A. Zisserman, "Spatial Transformer Networks" in NIPS 2015
Share the joy
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

近期文章

近期迴響

彙整

分類

其它

Chien-Yi Wang Written by:

Be First to Comment

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *