如何有效解決Object Detection所需要的Scale Invariance?

CVPR 2018正在美國鹽湖城如火如荼地舉辦中,其中關於研究許久的基本問題Object Detection,也有許多paper嘗試繼續提升模型的效能。其中有一篇被選為CVPR oral的文章 ”An Analysis of Scale Invariance in Object Detection - SNIP“,嘗試從最根本的問題出發,找出現今這些state-of-the-art的模型訓練不好的原因。現今的CNN模型本身就帶有Translation Invariance,可以很好的處理Classification的問題,但是針對Object Detection所需要的Scale Invariance(可以偵測到不同大小的物體)只能用一些模型上的改動與延伸來匹配,現在最有效的方案大概有幾個:Multi-Scale Training/Testing、Feature Pyramid Network、或是Image Pyramid等等。作者首先做了許多實驗,來探討這些方法的侷限,也有了些有趣的發現,並提出相應的解決方案:
- 其中一個實驗指出即使用相對大的圖片來做training,可以增加偵測到小物體的性能,但是造成大物體訓練不易,因此整體的平均性能就無法有太多的提升。
- 另一個實驗指出,就算用Multi-Scale Training,去增加不同scale樣本的數目,但是證明CNN model還是無法有效的去fit所有scale的物體,最後只能用更多的capacity去memorize不同scale的物體。
- 作者提出Scale Normalization for Image Pyramid (SNIP)的Training策略,依據所使用的圖片大小指定bounding box的大小範圍,在Image Pyramid的每個Image上,只做指定範圍內(接近pertained ImageNet 224x224的大小)的ROI相對應的back-propagation,忽略其他太大或太小的ground truth。既可以減低訓練的難度,也讓CNN用更多的capacity去學習high-level semantic information。
- 最終實驗比較不同的網路設計表明,用Image Pyramid雖然所需的運算與時間都會消耗比較多,但SNIP的策略的確能有效的幫助Object Detector提升性能,在COCO dataset上提升了可觀的3% mAP。

Resource
- Paper: https://www.cs.umd.edu/~bharat/snip.pdf
- Code will be available at: https://github.com/bharatsingh430/snip
- Another Good Review Article: https://zhuanlan.zhihu.com/p/36431183

Share the joy
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

近期文章

近期迴響

彙整

分類

其它

Chien-Yi Wang Written by:

Be First to Comment

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *