Learning by Hacking Posts

May 27, 2017 / / Actor-Critic

不知道大家小時候有沒有玩過Starcraft呢?今天小編要介紹的是Alibaba與UCL合作的一篇Multi-Agent Reinforcement Learning的論文,而測試的環境就是打Starcraft!這個環境之所以有研究價值主要是希望AI也能跟人類一樣學會利用群體智慧跟彼此合作,而這也是走向通用AI的重要關鍵之一。事實上在Deepmind攻克圍棋這個遊戲之後,無論是Facebook、Deepmind,還有Alibaba都宣布將Starcraft當作下一個研究的主力。我們就先來看看這次UCL+Alibaba提出的BiCNet的實測影片吧: 從影片中我們可以看到透過BiCNet這個架構同時控制每一個士兵,並且自己揣摩出了各種戰術,像是能做到Hit and Run跟Focus Fire without Overkil (Figure 6) 這樣的神控兵,甚至是不同兵種(Heterogeneous Units)之間的配合,如運輸機搭坦克玩死雷獸 (Figure 7)…

May 25, 2017 / / Berkeley

談到最近最火熱的GAN相關圖像應用,CycleGAN絕對榜上有名:一發表沒多久就在github得到三千顆星星,作者論文首頁所展示的,完美的“斑馬”與“棕馬”之間的轉換影片(下圖)真的是超酷! 這篇來自Berkeley CV Lab的Paper繼承了先前也是同一個實驗室產出,很火的圖像翻譯(Image-to-Image Translation)pix2pix。不同之處是,pix2pix利用Conditional GAN去訓練一個已經配對好(Paired)的數據集,來達到Cross Domain Image轉換的效果(如下圖的輪廓線條與圖像的轉換);但是在許多情況下,要產生配對好的圖像通常不是很容易,CycleGAN打破了這個限制,做到了在非配對好的圖像集之間的轉換(如下圖在真實照片與油畫間的轉換)。 如果沒有配對好的圖像,用一般的Conditional GAN架構,訓練好的網路Generator(X->Y)在target domain所產生的圖像只會是target distribution中的其中一個圖像,無法限制其與原圖像的對應關係。 (以上圖片取自李宏毅老師的MLDS上課投影片) 作者在此巧妙地引進了Cycle Consistency的概念,在原本的架構上再加上了另一個Generator(Y->X),將產生的target…

May 18, 2017 / / Newsletters

刊物緣起:   由於 Deep Learning 近期的發展,處於一個超展開的知識爆炸時期,每天隨處可見隨手可得的各種 Deep Learning 資源, 有給初學者的,給進階者的,來自業界的實做經驗分享,來自學界的研究前緣論文與理論 … 等等。 木刻思作為一間長期投入數學與尖端科技研究的顧問公司,也觀察到了我們自己內部的合作夥伴們,也都常常朝遇到類似的問題 … (1)…

May 18, 2017 / / Chatbot

ParlAI號稱是一站購足(one-stop shop)的對話研究,它是一個可用來訓練及測試對話模型的統一框架,也能一次利用許多資料集來進行多種任務的訓練,且無縫整合了Amazon的眾包市集Mechanical Turk,以進行資料蒐集與徵求真人評估。更多內容請參考連結。

May 18, 2017 / / CNN

Picasso是一個視覺化DL Model的Flask Application,能配合Keras或Tensorflow的checkpoint做出Partial Occlusion及Saliency Maps,幫助我們更理解模型訓練所學習到的面貌。更多內容請參考連結。  

May 18, 2017 / / Deep Learning

這是一篇由微軟出的關於資訊檢索(Information Retrival)這個領域的回顧。在深度學習的蓬勃發展下,過去三年發表在ACM SIGIR中用NN做IR的論文數從1%成長到21%。有鑑於此,作者整理了長達52頁的文獻回顧,從傳統方法走到現在,非常適合想要了解IR近幾年發展的讀者。 這份回顧主要涵蓋六個部分: IR所要處理的問題、面對的挑戰、衡量方式及傳統的非NN方法 簡單介紹NN做IR的方法和模型 介紹用NN和非NN做term embedding的方法並著重在何謂term彼此間”相似“這個概念的討論 回顧一些用NN和非NN的方式這些term embedding套入IR 介紹今天深度學習在IR領域的基本方法,包含其架構和相關套件 介紹一些應用在IR的中比較特別的深度學習方法 更多細節,請參考原始論文

May 16, 2017 / / Berkeley

(下面會直接使用RL的術語,需要對RL有基本的理解可能比較容易看得懂。若之前沒有接觸過RL讀者可以先參考[註1]) 今天要來介紹由UC Berkeley  在ICML 2017最新提出的論文:Curiosity-driven Exploration by Self-supervised Prediction。這篇論文的重點在於它挑戰了傳統增強式學習(Reinforcement Learning,RL)框架裡的重要元素:External Reward。傳統的RL的學習方式是需要Environment提供一個Reward來衡量Agent在現階的狀況採取某的動作到底好不好。舉例來說,今天要教機器人端水,如果他打翻了Reward就是-1,如果他端好就是+1。這篇論文定義了一個agent 本身的intrinsic reward來做的RL。意思是今天機器人不需要像上述例子由Environment給的Reward,只要把agent本身的intrinsic reward最大化就能做到RL[註2]  …

May 16, 2017 / / Deep Learning

今天介紹的是Kullback-Leibler Divergence (KL-divergence), 這和之前介紹的Variational Inference都是在Machine Learning中重要且基礎的概念。KL-Divergence在需要比較兩個分配的相似性時經常會用到,也常被設計為ML/DL的Objective Function。但他背後的意義到底是什麼呢?今天小編要介紹的這篇文章給KL-divergence作了相當活潑具體的介紹: 假設今天有個太空任務需要觀察與紀錄外星蟲蟲有幾顆牙齒,但礙於技術問題,我們僅能以機率分配的形式(Uniform or Binomial., etc.)與參數回傳資訊給地球,我們該如何選擇一個分配與最適參數呢?是不是有個方法能評價我們的選擇?嗯,KL-divergence可能可以給我們一個參考答案! 首先,根據觀察我們發現蟲蟲的牙齒顆數分配如下圖:   而我們目前有兩個方案,第一個是Uniform Distribution,參數(a=0,…

May 16, 2017 / / Computer Vision

一般在Convolutional Neural Network中總是用預設的正方形filter去做convolution,導致在最後所得到的特徵activation unit,所對應的receptive field是對稱的正方形,無法反映檢測物體真正的形狀。微軟亞洲研究院MSRA最近發表的可變形卷積網路Deformable Convolutional Network (DCN),讓卷積層有了更多的可能性! 這篇與之前的一篇論文Spatial Transformation Network (STN) [1] 想法相似,但做得更深入一些。STN主要是學習global and…

May 12, 2017 / / CNN

微軟研究院在圖片風格遷移的最新突破:Deep Image Analogy,該篇論文在reddit上討論相當熱烈。此算法在風格遷移時能更好的保留圖片結構,並且在遇到兩張圖的風格或質地差異較大時,Deep Image Analogy相較於過去的方法能有更好的表現。這個技術會建立出兩張圖之間語意對應關係,藉此能更有效地進行圖形特徵的轉換。在圖形類比方面也有別於傳統方法,而是利用預訓練的CNN(VGG-19)來建立起特徵空間以作類比,並應用PatchMatch作最近鄰搜尋的加速。更多細節請參考論文連結及補充資料: [Paper] https://arxiv.org/pdf/1705.01088v1.pdf [Supplemental Material] https://liaojing.github.io/html/data/analogy_supplemental.pdf