You are currently at: ejtech.hkej.com
Skip This Ads
Don't Miss

AI引領多媒體創作新力量 (林國誠)

By on July 14, 2023

本文作者林國誠,為香港電訊個人業務行政總裁,為《信報》撰寫專欄「五次元」。

近期在社交媒體出現大量由人工智能(AI)生成的作品,包括把經典電影截圖透過AI把畫面拉闊,利用音色替換程式模擬歌手聲音的翻唱歌曲,甚至以深偽技術(Deepfake)輕易地把圖像或影片「移花接木」,同時亦能生成語音內容。儘管這些生成內容多數以搞笑為主,但不能忽視AI已廣泛應用在傳統的影音媒體上,對圖像及影音處理的貢獻,超乎讀者過去對修圖及修片的認知。

AI已廣泛應用在傳統的影音媒體上,對圖像及影音處理的貢獻,超乎讀者過去對修圖及修片的認知。(路透資料圖片)

以「拉闊」經典電影截圖為例,按過往做法,首先要思考圖片以外的背景是什麼,找相關素材,利用修圖工具提供的功能慢慢地逐部分加插背景,繼而調色,使之與原來的畫面融合,就算是有經驗的高手,都需要數小時才能完成。現在有了生成式人工智能(Generative AI),運用修圖工具的生成式填充功能,在圖片中畫出要修改的部分並輸入文字指令,修圖軟件便會自動按要求製作,還有多個款式選擇;使用延伸影像可選取一部分現有圖像,讓AI參考來作延伸,令效果更完美。

AI能提供極速修圖,與AI生成模型有莫大關係,透過學習大量的圖像資料,然後利用這些資料來生成新的圖像。用家只須提供一張基本圖片作為藍本,AI就能把圖片中的物件移形換影,例如把樹林變成沙漠,又或者創造出美麗的風景照。AI圖像生成優點是速度快,通常不用1分鐘即弄妥,憑空生成或移除物件亦可一鍵完成。

AI圖像生成優點是速度快,通常不用1分鐘即弄妥,憑空生成或移除物件亦可一鍵完成。(法新社資料圖片)

此外,AI透過音色替換程式,亦可模擬歌手聲音翻唱歌曲,但並非簡單輸入指令便可,背後須經過大量處理。簡單來說,首先找出你想模擬的歌手聲音作為訓練數據,使用神經網絡對AI訓練,最後通過使用Sovits替換人聲進行生成。同時,於後期處理中,要加入一些該歌手的獨特元素,例如獨特情感和唱歌風格,方能模擬歌手聲音翻唱歌曲。

這些以AI創造的「好聲音」,除可應用在翻唱歌曲外,筆者預期未來會有歌曲以AI生成,甚至有AI歌手的出現,好處是AI可根據需要修改和調整,後期處理較有彈性,製作成本會比現時低。

另一方面,讀者也不能忽視AI生成影片,現在已有大量工具協助製作。與AI生成圖片一樣,選好影片模板及使用時輸入文字指令,便能一鍵讓AI生成整條影片,想影片更貼近現實,還可自己預備影片供訓練AI之用。不過,AI生成影片目前仍處於初步階段,當訓練模型愈來愈豐富,產生專業級影片指日可待。

有了出神入化的AI功能,只要懂得輸入指令,任何人都是修圖大師。不論是DALL.E、Midjourney、Stable Diffusion或Adobe Firefly等AI工具的製作成本均甚低,可以無限次修改作品,不用受氣。誠然,不斷學習及嘗試仍是十分重要的。

更多林國誠文章:

支持EJ Tech

如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們