You are currently at: ejtech.hkej.com
Skip This Ads
Don't Miss

AI新能源時代(黃岳永)

By on May 24, 2024

本文作者黃岳永為香港科技大學副教授兼高級顧問(創業),為《信報》撰寫專欄「科網人語

OpenAI剛剛推出的最新人工智能(AI)模型GPT-4o,令市場驚嘆AI技術進步之神速。以代表着全能的o(Omni)為名的GPT-4o果然一如其名,在處理文本、影像和音頻上都有顯著提升,不僅能解讀文字、圖片,還整合了語音功能,在手機上一撳即可通話,兼且有多種協作模式選擇,方便易用,人與AI之間變得愈來愈近。

GPT-4o其中一個突破是能在232毫秒內對音頻輸入作出反應,平均反應時間為320毫秒,這與人類在對話中的反應時間相近,實現「即時對話」;還可因應用戶的回應,辨識對方情緒及給予意見、開玩笑、稱讚對方等實時對話,這也是當年蘋果公司的Siri曾經承諾要做,但至今尚未兌現的功能。

GPT-4o能在232毫秒內對音頻輸入作出反應,平均反應時間為320毫秒,這與人類在對話中的反應時間相近。(路透資料圖片)

除了非英語語言文本能力大幅提高,GPT-4o另一重點是視覺和音頻理解方面進一步突破,甚至可以充當生活助手,在OpenAI的「Be My Eyes」示範影片中,GPT-4o能作為視障者的眼睛,除了形容及講解四周環境,還可以幫忙「看」有沒有的士,並提示何時可以舉手叫車。

值得留意的是,OpenAI對科技的態度一直相當「Open」,所指的不是開源,而是讓所有人都可以使用AI的服務。是次GPT-4o也是開放給所有人免費使用,當然,作為VIP的付費用戶將繼續擁有免費用戶5倍的容量。可以預期AI科技會進一步普及化,人們生活也出現重大改變。

至於Google開發的AI,無論是Bard(2023年推出時的名字)還是Gemini(今年2月的新名字),筆者都不大清楚名字背後的意義。不過,作為Google應對AI時代的重要產品,Gemini可說是集大成之作,把Google和Android所有服務共冶一爐。另一邊廂,同樣改過名的Microsoft Copilot(原名Bing Chat AI),亦努力地搶佔AI市場。在這個「AI戰國」大環境下,短短18個月已經見到生成式AI的快速進化,變得更為強大、易用及快速,其對人類生活的影響也愈趨普及。

作為Google應對AI時代的重要產品,Gemini可說是集大成之作,把Google和Android所有服務共冶一爐。(路透資料圖片)

仔細想想,AI就像一種新能源模式,包括筆者在內,現今不少新項目或更新現有項目,都無可避免會利用AI。AI已成為項目不可或缺的「能源」,當未來AI使用量愈多,需要支付的費用自然愈高。

也許幾年後,大多數企業或我們生活中使用的應用程式,都需要向AI開發者支付費用,就如電力和石油,屆時AI代幣會成為項目必須的成本支出。好像OpenAI或Google這些搶佔AI市場的企業,也許還會有多一兩家公司(因應不同地區或政治需要),將成為AI這種新「能源」經濟的掌控者。當AI戰國時代結束,最終勝利者在一定程度上已掌控我們未來的發展方向及步伐。

更多黃岳永文章:

支持EJ Tech

如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們