You are currently at: ejtech.hkej.com
Skip This Ads
Don't Miss

AI圖像生成影片|Google VLOGGER 人像配聲添動作

By on March 20, 2024

原文刊於信報財經新聞「EJ Tech 創科鬥室

阿里巴巴(09988)智能計算研究所早前發布生成式人工智能(Generative AI)模型EMO,只需輸入一張照片及音檔,即可自動生成逼真的表情。谷歌(Google)研究人員近日不甘後人,亦發表新圖像生成影片AI系統VLOGGER,標榜做出對應聲音的面部表情、頭部動作及手勢,畫面中人物同樣懂得搖頭眨眼,呈現更完整的肢體語言。

Google VLOGGER
VLOGGER模型除了應用於短片翻譯,亦適合報告、教育及旁白等場景。(GitHub影片擷圖)

適用於靜態背景

VLOGGER模型建立在擴散架構上,以超過80萬名人物分身及2200小時影片訓練而成,能夠生成多元種族,不同年齡、服裝及環境,擺着各種姿勢的人物影片。模型主要應用之一是短片翻譯,亦可用於報告、教育及旁白等場景,限制是生成影片不會太長,人物不會在3D環境移動,靜態背景恍如視像會議畫面,但所有影片看起來都很逼真。

支持EJ Tech

如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們