Learning by Hacking Posts

June 26, 2017 / / Deep Learning

今天小編要介紹這個月初DeepMind提出的Relation Network(以下簡稱RN)。RN在Relational Reasoning的一些相關任務上達到了SOTA,且模型架構本身簡潔且具備相當大彈性,使其能像插件一樣整合在不同基本模型(Ex CNN)應用在不同任務上。在介紹RN之前首先要介紹什麼是Relational Reasoning。 Source:BAIR 和一般的單純影像辨識不同的是:要回答上面這個問題需要多重的推理。首先找到藍色柱子,再來比較其他物件和藍色柱子的大小,最後辨識出這個物體的顏色。一般來說,這種需要透過多重推理才能達到結果的過程我們把它稱為Relational Reasoning。 在DeepMind之前解決這種問題通常是用Neural Module Network(NMN)[1]及其延伸[2],NMN的主要概念如下圖:   Source:BAIR 上圖中每一個藍色的方框都是一個NN的Network,每一個有負責其中一部份的推理。但在訓練的過程中不會把每一個sub nn…

June 25, 2017 / / 3D Computer Vision

自從CNN在Image相關的task取得巨大突破之後,大家也開始嘗試著用類似方法處理3D Computer Vision相關的問題,今年的CVPR也特別開個一個3D Computer Vision的Track,可見這一塊越來越火熱。3D Computer Vision在Robotics或是自駕車領域十分重要,如何重建3D場景與物體、或是在3D空間中辨識物體樣態甚至追蹤,都是機器人或是自駕車做決策的重要模塊。一般提到3D相關的資料來源,目前常用的有RGB-D與Point Cloud:RGB-D是在原本的Image中加上一個Depth的channel,因此可以用常用的CNN架構做處理與學習;至於Point Cloud的Data,不論是用電腦自動Render產生的,或是用LiDAR sensor所採集的,所得到的資料都具有無序(Unordered Set)的特性,只是一群具有(x,y,z)座標的點所構成的。以下可以看到由自駕車的LiDAR Sensor所採集到的單一禎Point Cloud: 以上是用64環的LiDAR Sensor所採集的Data呈現的樣子,可以看出這樣的Data相較於Image非常的稀疏,若是想要用3D…

June 23, 2017 / / Computer Vision

今天要介紹的是Google Research提出的關於Computer Vision經典語義分割問題(Semantic Segmentation)的最新進展,在常用的PASCAL VOC 2012取得了State-of-the-art的成果。第一作者Liang-Chieh Chen之前在UCLA PhD時期就已經提出了經典的DeepLab方法,利用 Atrous Convolution(或稱Dilated Convolution),讓Feature Map可以同時取得更大的Field of View,並保持較高的Resolution,藉此讓每個pixel的prediction都可以有更多的context信息,使得語義分割預測更加準確。語義分割問題在這一兩年也有了許多不同的方法被提出,其中 Atrous…

June 22, 2017 / / Computer Vision
June 12, 2017 / / Computer Vision

還記得上次小編分享有關打開神經網路黑箱,觀察神經元的語義表達的文章嗎?最近來自同一個實驗室MIT Vision Lab,又在Arxiv上發表了一篇很酷的論文,探討如何把視覺、聽覺、與閱讀的能力融合在同一個神經網路中,讓完全不同來源與結構的資料(圖片、聲音、文章段落)能夠共享具有語義的高層神經元(Semantic High-Level Hidden Units)。如他們的Project Page中所展示的Demo,每一個神經元都有對應的高度相關圖片、聲音、與文句: 作者Yusuf Aytar已經在Cross-Modality相關的題目研究多年,有許多關於圖片、聲音、文句不同樣態(Modality)的資料交互協作學習的研究,去年的NIPS已經有發表關於如何在影片中學習出聲音的Pattern,今年的CVPR他也參與發表了一篇如何讓神經網路學習食譜文章與食物圖片之間的Embedding,非常的有趣。在這篇論文中,他設計了一個網路架構(如下圖),讓不同樣態的資料可以共享上層神經元,並做了實驗證明這樣的架構所學習到的模式,更具有通用性與不變性(Generalization and Invariance),使得跨樣態檢索(Cross-Modal Retrieval)與跨樣態分類問題(Cross-Modal Classification)可以有更好的Performance。 在這邊的網路訓練過程中,作者引入了兩個Alignment Constraint當作Loss:Alignment…

June 11, 2017 / / Deep Learning

今天小編要介紹一篇重要的論文:Self-Normalization Neural Network。講結論就是作者設計出一個會自動把輸入資料正規化(Normalization)到mean =0, variance =1的激活神經元(Activation Neuron),這到底改善了什麼問題呢,其重要性又在哪呢? 讓小編娓娓道來。   首先我們要知道對神經網路的每個輸入層normalization後到底有什麼好處。第一個好處就是更好的收斂性質。以下我引用Andrew Ng 在其Machine Learning課程上比較直覺的解釋,假設我們的Loss Function只有兩個變數: 如果我們把Loss…

June 8, 2017 / / Newsletters

刊物緣起: 由於 Deep Learning 近期的發展,處於一個超展開的知識爆炸時期,每天隨處可見隨手可得的各種 Deep Learning 資源, 有給初學者的,給進階者的,來自業界的實做經驗分享,來自學界的研究前緣論文與理論 … 等等。 木刻思作為一間長期投入數學與尖端科技研究的顧問公司,也觀察到了我們自己內部的合作夥伴們,也都常常朝遇到類似的問題 … (1) 東西太多,分不太出來哪些是真正有價值的?哪些是看看就好的?…

June 6, 2017 / / Codes & Projects

今天介紹的來自AI新創通司Explosion所釋出的一個文本處理開源工具包,其速度比Standford NLP(CoreNLP)還快,而且是Python API。以下附上部分數據: Source: spaCy   更多細節請參考官方網站  

June 4, 2017 / / Actor-Critic
June 2, 2017 / / Deep Learning

多目標學習(Multi-Task Learning)是一個在機器學習領域存在許久的課題,我們總希望能夠訓練出一個精簡優雅的模型,同時預測多個目標,而不是對於每一個目標都設計單獨一套模型。舉個例子來說:想要訓練電腦判斷一張圖片是否有包含人的同時,我們也想要電腦順便給我們更多的資訊,像是人的姿態、四肢的位置、實際的身高跟距離。在現今資訊爆炸以及AI不斷進化的時代,未來這樣的多目標學習只會越來越普及,人類的大腦很厲害一下子就能做到舉一反三,但想要設計並有效訓練機器達成多目標預測並不容易。 來自AYLIEN的研究員Sebastian Ruder寫了一篇關於多目標學習框架的文獻與概念整理(An Overview of Multi-Task Learning in Deep Neural Networks),一次把所有到目前為止相關的文獻做了整理,給了許多發人深省的見解,讀完會對Transfer Learning以及Representation Learning都有更深一層的了解! 作者Sebastian指出從以前的機器學習時代(1998),多目標學習就已經被持續關注中了,統計到目前應用Deep…