用即時文字和視頻來預測精彩回顧橋段:Video Highlight Prediction Using Audience Chat Reactions

現在有愈來愈多運動賽事或是電競都有直播,而觀眾可以同步在文字視窗中發訊息參與比賽。其中較為人熟知的就是LOL的比賽直播。在這樣新興的即時視賽事和文字互動的場域,會和機器學習擦出什麼有趣火花呢?

今天要介紹來自UNC Chapel Hill 在EMNLP2017的一篇Paper: Video Highlight Prediction Using Audience Chat Reactions。這篇Paper的主要貢獻在於他開創了一個新的研究方向:同時利用視頻和觀眾的文字互動來預測視頻的哪些部分會變成精彩回顧(highlight)的橋段。-而作者也將在不久後開源這份新的資料[註],讓有興趣的人可以繼續相關研究。

這種任務我們一般稱為Video Highlight,近幾年相同的研究其實並沒有很多。作者的任務是給定一串video frame X = \left\{ x_{1},x_{2},..,x_{t} \right\}及文字 \left\{\left(c_{1},ts_{1} \right),...,\left(c_{n},ts_{n} \right)  \right\},模型要預測是這個frame是否為highlight中的一部份,每個video frame都有一個binary的標籤來說明是否為在highlight裡,及 Y = \left\{ y_{1},y_{2},..,y_{t} \right\}

作者的模型架構如下圖

概念上來說,上半部Visual feature的部分:所有Video資料都是30FPS,作者每10個frame取一個sample放入LSTM CELL,共用了16個cells。最後cell的特徵就是這段區間(約5秒)的特徵。再來是Text Feature,這裡作者把發生在一個sample frame後W_{t}秒的所有文字全部算進來。把每個sample frame的文字接起來後透過one-hot展開每個字元後分別丟入LSTM,最後一個cell的特徵就是文字的特徵。最後透把visual 和 text的特徵接起來透過MLP來做預測。更多參數的細節請參考原始論文。

實驗結果如下表:

Method的部分由上到下分別是只用Visual、只用Textual及兩個一起用的模型。NACL和LMS分別是LOL的比賽影片,其中前者為英文後者為繁體中文。使用的Metricˋ是 F1-Score。我們可以發現其實Textual Feature普遍做得不好,用Visual Feature就已經很夠,兩個一起用只會有一點點進步。在中文的表現都比英文還差。

這份研究算是第一份利用直播的視頻和觀眾的互動文字來做multimodal viedo highlight prediction,未來的還有許多進步的空間(Ex 引入Attenion, MemNN..etc),就留待有興趣的人們繼續研究吧!

參考連結:

  • 原始論文 (arxiv

註:這份資料是由作者從兩個賽事平台(NALCS,LMS)爬下來的。前者爬了218個視頻後者爬了103個視頻。另外作者還有爬了每場比賽的由該社群提供的賽事回顧作,透過一些處理作為該場比賽highlight的true label。更多有關資料的細節請參考原始論文。

Share the joy
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

近期文章

近期迴響

彙整

分類

其它

kuanchen Written by:

Be First to Comment

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *