完全無監督從影片中學習自身姿態與場景結構的關聯 Unsupervised Learning of Depth and Ego-Motion From Video

今年CVPR 2017的Oral Paper中,有許多與3D Vision有關的有趣問題,其中一篇來自Berkeley與Google Research合作的論文中,探討如何透過一連串影片的無監督學習,讓機器學會從單張圖片預測深度 (Depth Estimation)與在場景中的自身姿態 (Pose or Ego-motion Estimation)。

這篇論文的發想動機很單純,人類可以透過觀察一段影片,就能大概想像出鏡頭在場景中的位置,也能從影片中相對位置變化明確指出各個物體的距離與相對關係,機器應該也能夠從影片中提取出類似的資訊與判斷能力。先前已經有論文[1]探討如何只用單張圖片預測深度,但在訓練過程中都需要在場景中的姿態(Pose)的Ground Truth,並不能夠稱為是完全無監督學習。這篇論文的方法,不僅不需要任何與姿態有關的資訊,還能同時預測深度與姿態,其設計架構如下:

其中要預測的禎 I_{t} 會通過Depth CNN預測出深度圖,影片中其他的鄰近禎 I_{t+2}, I_{t+1}, I_{t-1}, I_{t-2}... 則會作為參考來源,通過Pose CNN,預測與 I_{t} 間的轉換矩陣T。有了深度圖以及轉換矩陣之後,就能用每一張鄰近禎I_{s} 的像素來還原預測禎 I_{t},其像素轉換公式與示意圖如下:

這裡每一個預測禎的Pixel位置座標對應到鄰近禎的位置座標不會是整數,因此需要用bilinear sampling來interpolate鄰近四個像素。這邊由於需要把這樣的sampling mechanism放在整個神經網路架構中,因此使用了在Spatial Transformer Network[2]中以實作好的differentiable bilinear sampling layer做warping。

無監督學習架構的訓練,通常都透過其中各個來源(Input Signal)與預測(Prediction)間的一致性來達成。這篇論文如此設計的架構會促使Input Frames、Pose、Depth之間有一致性,如此一來透過每一個鄰近禎I_{s}所重建出的預測禎\hat{I}_{s},其與原始預測禎的差距L_{vs}就能作為一致性的Suvpervisory Signal來訓練神經網路:

雖然乍看之下這樣的無監督設計架構十分簡潔,但是真的實作訓練上還是需要一些技巧。作者先點出了原本的projection formulation只能在靜止場景部分使用,所以影片中時常出現的會移動的物體(如車子或行人)或遮擋會導致訓練上的不穩定,這邊作者引入了explainability network,預測哪些像素是來自於移動物體或是遮擋並加以排除;另外也引入了smoothness loss,增加深度預測的平滑穩定性。Depth CNN與Pose CNN網路設計的架構上,也採用了DispNet[3]的架構,有了多尺度的預測,也增加訓練的穩定性。

以下為在KITTI dataset上與其他Supervised方法結果的比較圖,可以明顯看出這樣Unsupervised的方法,可以達到與Supervised方法差不多甚至更好的結果:

更多細節請參考原始論文與程式碼:
- Paper: https://arxiv.org/abs/1704.07813
- Code: https://github.com/tinghuiz/SfMLearner

Reference:
[1] Garg, Ravi, Gustavo Carneiro, and Ian Reid. "Unsupervised CNN for single view depth estimation: Geometry to the rescue." European Conference on Computer Vision. Springer International Publishing, 2016.
[2] Jaderberg, Max, Karen Simonyan, and Andrew Zisserman. "Spatial transformer networks." Advances in Neural Information Processing Systems. 2015.
[3] Mayer, Nikolaus, et al. "A large dataset to train convolutional networks for disparity, optical flow, and scene flow estimation." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.

Share the joy
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

近期文章

近期迴響

彙整

分類

其它

Chien-Yi Wang Written by:

Be First to Comment

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *