Learning by Hacking Posts

August 17, 2017 / / Attention

情緒分類器的應用非常多,例如在分析網路輿情的時候我們常會想要了解留言的評價是偏向正面或是負面。然而像這樣的NLP問題往往需要大量的標記資料,使得從成本的角度來看是不可行的。因此延伸出了一些其他的技巧,例如針對文本伴隨的表情符號或是hashtag來當作情緒標記,再訓練模型理解與情緒相關的語意。 本篇要介紹的DeepMoji即是利用表情符號預訓練(Pretrain)一個情緒語意理解模型,這雖然並不是一種嶄新的作法,但本篇提出的架構以及遷移學習(Transfer Learning)的技巧使其表現在Emotion, Sentiment及Sarcasm Detection等任務上都達到了State-of-the-art。 在繼續介紹下去之前,讀者可以先玩玩看本篇釋出的demo唷。 本篇在訓練資料上是利用Twitter資料集,針對 “word” level 進行斷詞,而當文章中有多個表情符號時,則重複拆成多個相同文章但各自對應其中一個表情符號的形式,因此訓練時僅會是一個Single-label Classification Problem,而非Multi-label。在模型部分則主要採用兩層Bidirectional LSTM Layer,再加上Attension及Skip-connection的機制,如下圖所示: 而作者表示加入Attension及Skip-connection對於最終結果是格外重要的,他們將fasttext類比做缺少上述機制的純Embedding版本,並比較增加更多LSTM神經元的版本。從下表中看到從fasttext到DeepMoji有一個較大的上升幅度,因此可以說明架構的影響是較為明顯的。除此之外,作者也認為這樣的架構在後續做遷移學習時有助於模型在任意時間調用Low-level的資訊。…

August 10, 2017 / / Computer Vision

Introduction 目前基於Convolutional Neural Network的物體檢測演算法,有兩種主流作法:One-Stage Detector (eg. SSD[1])和Two-Stage Detector (eg. Faster-RCNN[2]),各自有其優缺點。One-Stage Detector的速度較快但精確度較低,而Two-Stage Detector則速度較慢但精確度較高。此篇文章作者從One-Stage Detector的根本毛病下去探討,找出了精確度較低的真正原因:正負樣本比例極度不平衡,以及損失函數(Loss Function)的來源大多數被容易歸類的負樣本所佔據,導致訓練上的不穩定。作者因此巧妙的設計了一個新的損失函數稱為Focal Loss,大大降低那些負樣本的Loss…

August 8, 2017 / / Deep Learning
August 4, 2017 / / Deep Learning

刊物緣起: 由於 Deep Learning 近期的發展,處於一個超展開的知識爆炸時期,每天隨處可見隨手可得的各種 Deep Learning 資源, 有給初學者的,給進階者的,來自業界的實做經驗分享,來自學界的研究前緣論文與理論 … 等等。 木刻思作為一間長期投入數學與尖端科技研究的顧問公司,也觀察到了我們自己內部的合作夥伴們,也都常常朝遇到類似的問題 … (1) 東西太多,分不太出來哪些是真正有價值的?哪些是看看就好的?…

Synthesizing Obama: Learning Lip Sync from Audio,這篇來自SIGGRAPH 2017的paper,利用過去歐巴馬的演說與現有的影片素材,合成了一段高畫質且逼真的假演說。 以往的技術常是找來許多不同的人重複講同樣一句話,試圖拼湊出特定聲音與嘴型的關聯性,非常的昂貴又費時。來自華盛頓大學的圖學與影像實驗室提出了新的方法,並利用網路上大量且免費的歐巴馬演說影片,讓這項技術在歐巴馬身上顯得自然且逼真許多。 如圖,大致步驟如下: 1. 提取聲音特徵作為input並利用time-delayed RNN轉換為隨時間變化的稀疏嘴型 2. 藉由稀疏嘴型與3D…

August 2, 2017 / / Berkeley

今年CVPR 2017的Oral Paper中,有許多與3D Vision有關的有趣問題,其中一篇來自Berkeley與Google Research合作的論文中,探討如何透過一連串影片的無監督學習,讓機器學會從單張圖片預測深度 (Depth Estimation)與在場景中的自身姿態 (Pose or Ego-motion Estimation)。 這篇論文的發想動機很單純,人類可以透過觀察一段影片,就能大概想像出鏡頭在場景中的位置,也能從影片中相對位置變化明確指出各個物體的距離與相對關係,機器應該也能夠從影片中提取出類似的資訊與判斷能力。先前已經有論文[1]探討如何只用單張圖片預測深度,但在訓練過程中都需要在場景中的姿態(Pose)的Ground Truth,並不能夠稱為是完全無監督學習。這篇論文的方法,不僅不需要任何與姿態有關的資訊,還能同時預測深度與姿態,其設計架構如下: 其中要預測的禎 會通過Depth…

August 2, 2017 / / Computer Vision

Mask R-CNN 為 Faster R-CNN 的延伸應用, 主要作為 實例分割 (instance segmentation) 的方法, 實例分割的目的是要將每個物件標上 label 並且切割出每個標記 label…

July 31, 2017 / / CNN

現在有愈來愈多運動賽事或是電競都有直播,而觀眾可以同步在文字視窗中發訊息參與比賽。其中較為人熟知的就是LOL的比賽直播。在這樣新興的即時視賽事和文字互動的場域,會和機器學習擦出什麼有趣火花呢? 今天要介紹來自UNC Chapel Hill 在EMNLP2017的一篇Paper: Video Highlight Prediction Using Audience Chat Reactions。這篇Paper的主要貢獻在於他開創了一個新的研究方向:同時利用視頻和觀眾的文字互動來預測視頻的哪些部分會變成精彩回顧(highlight)的橋段。-而作者也將在不久後開源這份新的資料[註],讓有興趣的人可以繼續相關研究。 這種任務我們一般稱為Video Highlight,近幾年相同的研究其實並沒有很多。作者的任務是給定一串video frame…

July 27, 2017 / / IMAGENET

IMAGENET可以說是點燃近幾年AI熱潮和應用的最重要火種之一,其影響改變了過往研究機器學習的觀點,並在2012年引爆了深度學習的威力,其威力造成許多領域都有前所未有的突破(Ex 語音辨識),也間接催生了AlphaGo達成了打敗世界最強人類棋手的里程碑–一個過去往往被視為不可能的任務。 而2017年是這個比賽的最後一年,這個計畫的幾個重要核心人物在甫落幕的CVPR2017大會上分享了這個計畫從開始到現在的點滴及影響。 在這裡推薦Quartz這篇深入的報導以及當天CVPR大會的投影片

July 26, 2017 / / Actor-Critic

還記得上次介紹Alibaba利用AI打Starcraft的文章嗎?近期 OpenAI 也在 Multi-Agent Reinforcement Learning 這部分提出了一個新架構,該篇論文也就是今天要介紹的 Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments 。而本篇的特色是不需要一個可導函數來作為環境的Model,也不需要設計一個特殊的溝通管道,因此更加泛用,除了合作導向的任務,也同時適用於兼具合作與競爭的情境。實際模型的表現OpenAI也釋出了Demo影片如下以供參考: 他們在文中將模型取名為Multi-Agent…