Don't Miss
AI圖像生成影片|Google VLOGGER 人像配聲添動作
By 信報財經新聞 on March 20, 2024
原文刊於信報財經新聞「EJ Tech 創科鬥室」
阿里巴巴(09988)智能計算研究所早前發布生成式人工智能(Generative AI)模型EMO,只需輸入一張照片及音檔,即可自動生成逼真的表情。谷歌(Google)研究人員近日不甘後人,亦發表新圖像生成影片AI系統VLOGGER,標榜做出對應聲音的面部表情、頭部動作及手勢,畫面中人物同樣懂得搖頭眨眼,呈現更完整的肢體語言。
適用於靜態背景
VLOGGER模型建立在擴散架構上,以超過80萬名人物分身及2200小時影片訓練而成,能夠生成多元種族,不同年齡、服裝及環境,擺着各種姿勢的人物影片。模型主要應用之一是短片翻譯,亦可用於報告、教育及旁白等場景,限制是生成影片不會太長,人物不會在3D環境移動,靜態背景恍如視像會議畫面,但所有影片看起來都很逼真。