以假亂真的歐巴馬演說-Synthesizing Obama: Learning Lip Sync from Audio

Synthesizing Obama: Learning Lip Sync from Audio,這篇來自SIGGRAPH 2017的paper,利用過去歐巴馬的演說與現有的影片素材,合成了一段高畫質且逼真的假演說。

以往的技術常是找來許多不同的人重複講同樣一句話,試圖拼湊出特定聲音與嘴型的關聯性,非常的昂貴又費時。來自華盛頓大學的圖學與影像實驗室提出了新的方法,並利用網路上大量且免費的歐巴馬演說影片,讓這項技術在歐巴馬身上顯得自然且逼真許多。

如圖,大致步驟如下:
1. 提取聲音特徵作為input並利用time-delayed RNN轉換為隨時間變化的稀疏嘴型
2. 藉由稀疏嘴型與3D model合成嘴巴與附近例如下巴、脖子、鼻子等的結構,並針對牙齒部分做了改進

3. 研究人員發現若歐巴馬若不講話的時候仍會搖動頭或挑眉會顯得很不自然,於是他們便針對這點做video retiming
4. 將不同部位的構造結合並放到target video上

即便結果看起來非常成功,但這項實驗還是受到了許許多多的限制,例如他們挑選歐巴馬作為主角的原因:
1. 大量的資料: 總共17小時的影片、近兩萬個frames
2. 影片畫質高,臉部佔了影片大部分的面積,通常在正中央且面對鏡頭
3. 更重要的是,歐巴馬在影片中的口氣幾乎是一致的,即向大眾演說嚴肅的議題,故少出現不合時宜的表情與語氣
事實上他們是無法模仿表情和情緒的,假若今天放入歐巴馬講笑話的audio,整部影片則會顯得很可笑。

作者希望未來能夠將此種技術運用在Skype, Facetime此種通訊軟體上。雖然相較於以往的技術的確是自然了許多,但是在實驗設定如此侷限情況下,離實際運用還有好一段進步空間。
(例如若今天的實驗對象的川普的話,也許就要加上手勢的特徵提取了呢)

Source paper: http://grail.cs.washington.edu/projects/AudioToObama/siggraph17_obama.pdf
參考影片:
https://www.youtube.com/watch?v=9Yq67CjDqvw

Share the joy
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

近期文章

近期迴響

彙整

分類

其它

tzuchanchuang Written by:

Be First to Comment

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *