Learning by Hacking Posts

May 11, 2017 / / CNN in NLP

今天小編要介紹的是來自FAIR團隊這幾天出的基於純CNN架構翻譯機:Convolutional Sequence to Sequence Learning. 其結果跟Google最新的方法比較後重點結果如下: 英翻法產生翻譯(WMT English->French)速度的表現: 在GPU產生翻譯的速度上,FAIR用K40(比較爛的GPU)是Google用K80(比較好的GPU)的9.3倍。 在CPU產生翻譯速度上,FAIR(48 cores)就已經是Google(88 cores)的17(per cpu core basis)倍,且還是Google自家用TPU的2.7倍。…

May 10, 2017 / / Deep Learning

這篇文章主要介紹了除則在相對傳統的神經網路中(Ex LeNet, AlexNet),另一波最新的前向神經網路的的最新發展。這波新的前向神經網路主要有兩個特質: 具備生成網路分支:這種分之也稱為Decoder,主要是用來將資料在高維度的representation映射回原本資料。 具備遞回的神經網路層:這種網路架構可以讓神經網路利用前幾個時間點輸入的representation來做下一個時間點的預測(類似RNN但有不同種變形) 作者在文章中做了詳盡的前者和後者的優缺點比較,並從數十篇論文中擷取幾個比較重要的大架構用圖形來說明。在文末,作者也將這種新型態的前向神經網路和近幾年很熱門的GAN做優缺點比較,非常適合想了解近幾年神經網路架構發展的讀者。 更多細節請參考下面的連結: A new kind of deep neural network  

May 9, 2017 / / Autoencoder

Berkeley AI/CV Lab最近一篇入選CVPR 2017的論文,提出了一個新的Unsupervised Learning架構,學習到的特徵取得了state-of-the-art的結果。作者Richard Zhang在之前的Unsupervised Colorization的研究中(幫黑白的圖片上色),將圖片的L channel與AB channel分開,用L channel的特徵去預測AB channel[註],實驗證明確實可以從黑白照片的特徵中預測出適合的顏色。這篇研究上,巧妙的加上了另一條分支,反用AB channel的特徵去預測L channel,兩條監督式學習的分支預測出來的結果正好可以再組成完成的LAB Image。這樣的架構恰好就是一個標準的Autoencoder,在分支預測中學習到的兩組特徵,可以作為圖片的主要特徵使用,來做Transfer Learning在其他的目標上(Classification)。除了LAB…

May 9, 2017 / / Autoencoder

「如果AI是一塊蛋糕,那非監督式學習是那蛋糕本身,監督式學習則是外頭的糖霜…」LeCun曾經用此比喻強調非監督式學習的重要性。今天要分享的這篇文章對非監督式學習的類型與一些新發展做了很不錯的整理,從Autoencoder、Clustering到Generative Adversarial Networks。另外還搜羅很多有趣作法,例如將圖片切成一塊塊的拼圖,再叫機器學會把拼圖拼回去;或是基於人類視覺系統而啟發的算法等等。更多詳細內容請參考連結: [Link] Navigating the Unsupervised Learning Landscape

May 8, 2017 / / Deep Learning

今天要介紹的文章主要在討論Deep Learning一個基礎但重要的工具:Variational Inference。相信應該有一些初學Deep Leaning讀者常常在看Deep Learning的Paper會看到Variational Inference這個詞,想要深入了解一Google下去就發現一堆嚇人的積分式和Bound就暫時跳過不讀了。 如果是這樣,這篇最近發表的Variational Inferecne教學可能會很適合剛入門的你。作者在這邊用一個可以直接求解的簡單硬幣實驗,套用Variational Inference一步一步把Prior等各種抽象的符號用具體的例子(文中用Beta Distribution)代入手算,且附上程式碼讓讀者可以實際執行,透過這樣的方式相信會比單純只看數學推導更有感覺!  如果這部分沒問題就可以開始研究Deep Learning的經典Paper之一: Autoencoding Variational Bayes,也就是大家可能比較熟悉的Varialtional…

May 6, 2017 / / Deep Learning

當收到Mail只需要簡單的回覆時,GMail的Smart Reply服務能夠給予適當的回應推薦。過去推薦的演算法主要應用了seq2seq的架構,然而對於這樣的任務,就效率面來說seq2seq可能不是一個最有效率的途徑。新的演算法類似Deep Structured Semantic Model,搭配上n-gram embedding以及Multi-loss的架構。最終線上實測結果顯示,除了能達到seq2seq的推薦品質,延遲時間更只有原先的1%。 [Paper] https://arxiv.org/abs/1705.00652

May 5, 2017 / / Deep Learning

人類經過訓練後可以學會抓重點閱讀,那麼機器是否也可以做到類似的事呢?最近由Google資深研究員Quoc Viet Le及其團隊發表一篇Learning to Skim Text來試圖回答這個問題。實驗結果證明這個提出的方法可以在五個任務中達到比傳統LSTM快2~6倍且維持差不多甚至更好的表現。 這個模型的架構如下: 首先,這個模型有三個基本的參數N,R,K分別為最多可以跳躍的上限、兩次跳躍間所讀的字數以及一次最多可以跳幾個字。 其訓練方式如上圖:先讀R個字後輸出一個決定接下來要跳幾個字的Softmax,從中取樣[註]一個後(圖中一開始是跳3個),跳過去後再讀R個字後再輸出一個softmax並取樣後決定跳幾個(接下是跳2個)[註]。重複這樣的過程直到滿足下列條件後停止: 從決定跳幾個字的softmax中取樣出跳0個字 超過最多允許跳躍次數 抵達最後一個字 停止後,最後一個hidden state就被拿來用來做相關任務的預測。更多細節請參考原始論文: 原始論文:Learning…

May 3, 2017 / / Deep Learning

刊物緣起:   由於 Deep Learning 近期的發展,處於一個超展開的知識爆炸時期,每天隨處可見隨手可得的各種 Deep Learning 資源, 有給初學者的,給進階者的,來自業界的實做經驗分享,來自學界的研究前緣論文與理論 … 等等。 木刻思作為一間長期投入數學與尖端科技研究的顧問公司,也觀察到了我們自己內部的合作夥伴們,也都常常朝遇到類似的問題 … (1)…

May 2, 2017 / / Deep Learning

近年來深度學習異軍突起帶動各研究領域研究突破當前紀錄,並挑戰了傳統研究方向的地位。Stanford NLP Group 的大師 Chris Manning 為此撰文,針對 DL 對 NLP 的影響、貢獻、以及 NLP 的未來發展方向等層面表達看法。以下做簡單摘要: DL 在 NLP…

May 2, 2017 / / Deep Learning

推薦系統是機器學習的重要應用之一,Google提出Wide&Deep Learning是近幾年Deep Learning在推薦系統應用上的一個方法。所謂的Wide&Deep的意思是前者負責做Memorization後者做Generalization 簡單來說,假設現在是要做一個食物推薦的App,今天如果使用者輸入fried chicken而我們推薦的chicken fried rice被使用者買單,而chicken and waffle使用者不愛,我們會希望把這一個配對記下來如下圖: Wide(Memorization): 我們的系統首先利用這樣的Wide Network中的Weight來記錄每個配對被使用者喜好的程度(+表示喜歡、-表示不喜歡) 久了以後,使用者厭倦死板的推薦,想要探索一些和他從前喜歡的東西類似的商品。這時候就需要用Deep Network來將商品映射到高維的Embedding Space,並在這個空間中找尋跟使用者之前喜歡最相近的商品,如下圖…