Category: 木刻思專欄

April 27, 2017 / / Deep Learning

ICLR2017正在法國土倫如火如荼的進行當中,這次大會中有一篇Oral Presentation來自Google Brain團隊,探討如何用Reinforcement Learning來協助搜索最佳的神經網路架構。對於一個全新的Domain Data,往往需要靠暴力搜索不斷測試,才能找出較好的Neural Network架構,用以提取有用的特徵。這篇論文將Neural Network中的每一層的各種參數(Number of Filters、Filter Size、Stride)轉換成字符串Sequence Data,就可以用RNN網路架構來處理生成。最外面包上一個Reinforcement Learning的架構,將RNN生成的網路架構拿去做訓練學習,並且把測試後的效能拿來做Reward,就可以不斷更新RNN控制器。作者用這樣的架構來尋找在CIFAR-10(數字圖像)與Penn Treebank(英文文句中的文法架構)兩個數據集上最優的網路架構,實際測試結果都比人工生成的網路架構還要好。詳細內容可參考: ICLR 2017…

April 27, 2017 / / Codes & Projects

Visual Dialog是一個Computer Vision的Chatbot,針對一張使用者輸入的圖片,電腦可以理解圖片中的細節,並回答使用者所輸入的各種問題(例如:圖片的地點、圖片中有幾個人、人們穿的衣服顏色、天氣狀況等等)。更特別的是,除了一般Chatbot具有應對當下問題的功能之外,他也能根據先前的對話,更精確的回答使用者的following question。為此研究主題,Georgia Tech和VirginiaTech團隊合作設計了一個在Amazon Mechanical Terk(AMT)的介面,讓兩個AMT的工作者可以針對某一張圖片進行對話,藉此來收集龐大的VisDial Dataset用來做訓練使用;VisDial Dataset共涵蓋了14萬張來自COCO Dataset中的圖片,每一張圖片都有一個對話庫,以及十個問題以及對應的答案。有興趣的人們也可以親自上他們的網站,上傳自己的圖片玩玩Demo! 官方網站:https://visualdialog.org/ Paper:https://arxiv.org/abs/1611.08669 (CVPR 2017 Spotlight) VisDial…

April 27, 2017 / / Berkeley

這是Berkeley第二次開Deep Reinforcement Learning的課程,相較於過去(2015)僅有4部Video,本次的錄影品質及Resource都相當完整!講師陣容依舊有OpenAI的John Schulman,再加上Berkeley做Policy Search的大牛Sergey Levine及其女徒弟Chelsea Finn。內容除了知名的DQN、A3C等,還會介紹到Imitation Learning跟Inverse Reinforcement Learning的最前沿研究。隨著最近課程內容進入尾聲,所有課程影片也都上傳了,小編在此為各位做整理,並附上DeepMind在UCL開的Reinforcement Learning課程,給剛接觸的朋友藉此做先修課程,也可再配合Sutton的聖經課本一起服用: CS 294 [Videos] https://www.youtube.com/playlist?list=PLkFD6_40KJIwTmSbCv9OVJB3YaO4sFwkX [課程首頁] http://rll.berkeley.edu/deeprlcourse/…

April 27, 2017 / / Deep Learning

這篇是試圖從根本解決GAN的穩定性的經典代表作之一,是WGAN的理論基礎。雖然之前已經介紹過比WGAN更強的WGAN2(導讀更新!),WGAN畢竟是突破性的經典之作,小編還是整了一系列的導讀文以利讀者瞭解背後的奧妙:   WGAN論文本身相關 1.Toward Principle of Generative Adversarial Network(ICLR 2017) 2. Wasserstein GAN (arxiv)(code) WGAN相關導讀…

April 26, 2017 / / Computer Vision

“華大”戰”谷哥”:華盛頓大學網路安全實驗室研究發現目前Google Cloud Vision API的強健性(Robustness)欠佳,對於加入雜訊的圖片其分類結果並不理想。他們表示依賴此API的應用很可能遭有心人士攻擊,只需要加入些許雜訊就能讓不當內容通過此API的判定。 [Article] https://thestack.com/cloud/2017/04/19/testing-google-cloud-vision-api-noise/ [Paper] https://arxiv.org/pdf/1704.05051.pdf    

April 25, 2017 / / Deep Learning

今天要介紹的是來自世界上另一個DeepLearning重鎮蒙特婁的新創團隊Lyrebird,團隊成員主要來自世界頂尖Deep Learning團隊之一MILA。這家公司開發了一個語音合成API,主打只要一分鐘的錄音,就可以根據這段錄音的特徵合成具備此特徵的任何聲音。此外,他還可以選擇性地加入各種情緒到聲音裡。 Lybrebird表示這個API將有助於開發者在製作對話系統中快速使用不同種的聲音,或是開發一些個人化的AI助理,以及一些在遊戲和動畫產業中的應用。 更多關於這家Startup的細節請參考官方網站  

April 24, 2017 / / Deep Learning

這是今年ICLR 2017的最佳論文之一,作者在這篇論文裡用了一系列的實驗來挑戰了統計機器學習的學習理論(Learning Theory)中關於模型泛化(Generalization)[1]的基礎。他們認為傳統的學習理論無法解釋為什麼神經網路有時候能具備相當好的泛化能力,並且有一些良好的神經網路架構(如Inception)能夠徹底Shatter掉所有的Training data,這個情況對泛化理論構成了挑戰。 這篇論文在去年一出便引發相當大的討論,大到另一組人馬(MILA)馬上也發了一篇論文到ICLR 2017 Workshop裡反駁這篇論文中所做的一些結論。 由於這篇文章討論度非常高,小編在此為大家整理原始的討論連結和一些說法供大家參考 1.原始論文: Understand Deep Learning Requires Rethink of…

April 24, 2017 / / Codes & Projects

上個禮拜DL界掀起了一大波瀾,因為Facebook在4/19的F8開發者大會上正式發佈了一款全新的DL框架Caffe2,宣稱其擴展性十足、並更好的支援移動端及分佈式雲端運算。在大家都在質問為什麼在已經有眾多開源DL框架下,Facebook還要自閉門戶發佈這樣的一個框架,Caffe與Caffe2的主要開發作者賈揚清也在各大論壇(Reddit、知乎)詳細解答了大家的各個疑問,甚至也示範了如何用15行代碼就輕鬆支援Apple WatchOS的開發。有興趣深入研究的人們可以參考以下資源: Caffe2 官方網站  https://caffe2.ai/ NVIDIA 部落格(賈揚清親自撰文的入門教程) Caffe2: Portable High-Performance Deep Learning Framework from Facebook…

April 23, 2017 / / Deep Learning

Deep Learning相關的課程五花八門,但是用中文授課的影片資源還是比較屈指可數。今年2017春季台灣大學電機系的李宏毅老師,又開了Machine Learning and having it deep and structured(MLDS) 課程,增加了很多新的內容(STN、Grid LSTM、GAN…),也很佛心的把所有的投影片跟影片都放在網站上了。李老師的投影片一直以來都很簡潔易懂,傳達知識的功力也是小編見過數一數二的,昨天看了老師最新的GAN教學,有種豁然開朗的感覺。有興趣想要看中文影片學習,不論是ML或是DL相關的知識,很推薦可以去李老師的網站逛逛:http://speech.ee.ntu.edu.tw/~tlkagk/courses.html

April 22, 2017 / / Computer Vision

想知道最新的自動車Computer Vision研究,了解各個相關領域發展的歷史,看這篇就夠了!來自德國的Max Planck Institute的Autonomous Vision Group(推出知名的KITTI Dataset貢獻團隊之一),最近上傳了一篇Review Paper:“Computer Vision for Autonomous Vehicles: Problems, Datasets and…