Sora降內容創作門檻(車品覺)
本文作者車品覺,為香港科技園有限公司董事、香港大學中國商學院客座副教授、阿里雲資深顧問,為《信報》撰寫專欄「全民大數據」。
早前美企OpenAI發布首個文字生成視頻模型Sora,把文字生成技術應用於視覺媒體創作上。官網已上傳了示範影片,影片長達60秒。示例中,Sora不僅能準確呈現高度細緻的背景、複雜多角度鏡頭,還能理解物體在物理世界的存在,並生成具有豐富情感的角色。Sora似乎是一個創新的突破,此類模型對影視製作、遊戲開發、虛擬實境等領域來說,都是一個巨大飛躍。這樣的技術能大幅降低創建精細視覺內容的門檻,並可能開啟未來全新的創意表達方式。
其中一個情節中,模型能夠解讀文本中對場景的描述,當輸入提示「東京街頭」、「充滿溫暖霓虹燈光和動感城市標誌的街道」、「時髦的女士」、「黑色皮褸」和「紅色裙子」,Sora便能夠把這些描述轉化為視覺效果,創造出合適的角色及環境。在生成的影片中,主角(女士)行走的動作連貫和穩定,這需要高度的動作捕捉和渲染能力。
模型能夠提供從不同角度捕捉場景,包括全景和特寫等,這樣的切換可為視頻添加敍事深度。模型亦能反映細節,例如「潮濕的街道地面反射霓虹燈的光影效果」,顯示出模型在處理光線和材質方面的進階能力。這種技術能大幅度提升影視製作的效率,尤其是在預視(Previsualization)、概念藝術創作和動畫製作等方面。此外,還可以為廣告、遊戲場景設計和虛擬現實創造更加豐富和互動的體驗。
有專家發表對Sora的感想,他表示內容創作行業已徹底改變,並且毫不誇張地說入行20年了,這次真的讓他無言,動畫藝術家們有麻煩了。技術壁壘大大移除,反而內容背後的「構思」和故事,將變得更為重要。
Sora模型當前亦存在弱點,它可能難以準確地模擬和類比複雜場景的物理原理,例如物體如何在不同條件下相互作用、運動和反應。在影片內容製作中,這可能導致生成的敍事,在邏輯上不連貫或缺乏說服力。
舉例來說,假設要創作一個玻璃杯從桌子上滾落並破裂的場景,現時的模型生成一個看似合理的場景,但在處理杯子破裂時的碎片飛散、液體溢出和玻璃碎裂次序、聲音效果,以及與其他物體的互動等,可能會顯得不自然或不準確。當然,通過用戶反饋,相信很快會迭代改善,這亦是該類模型最巧妙之處。
(編者按:車品覺著作《覺悟.大數據》現已發售)
歡迎訂購:實體書、電子書