You are currently at: ejtech.hkej.com
Skip This Ads
Don't Miss

谷歌新AI勝GPT-4V 測試首超人類專家

By on December 8, 2023

原文刊於信報財經新聞「EJ Tech 創科鬥室

谷歌(Google)在人工智能(AI)競賽急起直追,周三(6日)發表多模態AI模型Gemini(中譯「雙子座」),提供Ultra、Pro、Nano大中小3個版本,能同時理解文字、程式碼、聲音、圖片、影片等內容。Ultra供少量企業與開發者試用,明年初將以Bard Advanced形式推出;Pro供英文版Google Bard試用,將在170多個國家及地區提供;Nano即將在Pixel 8 Pro智能手機運行。

Gemini提供Ultra、Pro、Nano大三個版本。(Google網上圖片)

作為谷歌性能最強、規模最大的大型語言模型(LLM),Gemini Ultra特別擅長解釋數學、物理等複雜學科的推理,在32項AI測試之中,有30項評分超越OpenAI的GPT-4V。在大規模多任務語言理解(MMLU),包括數學、物理、歷史、法律、醫學及倫理學等57項科目測試中,更以得分90%力壓GPT-4的86.4%,成為首個超越人類專家(得分89%)的模型。

Gemini擅長邏輯推理,如查詢哪條路較安全、哪架車下坡較快,AI即可準確回答。(YouTube影片擷圖)

命名Gemini將加入Chrome

Gemini以谷歌自家張量處理單元(TPU)v4及v5e訓練,從示範影片可見,AI能即時按照聲音、畫面,藉此歸納及邏輯推理,例如猜測杯中紙球位置、分析動物手勢、在世界地圖玩常識問答、手繪樂器播放音樂等,更能從兩張簡單手繪圖分析出哪架車輛下坡較快,答出「右邊比較快,因它較符合空氣力學」。

用戶可打開世界地圖,跟Gemini玩常識問答。(YouTube影片擷圖)

接下來幾個月,Gemini將在谷歌多款產品及服務亮相,包括搜尋、廣告、網頁瀏覽器Chrome,以及AI助理Duet AI。由於Gemini精通Python、Java、C++及Go等流行程式語言,谷歌為此創建程式碼產生系統AlphaCode 2,聲稱解決問題數量比上代AlphaCode多一倍,估計表現勝過85%人類對手,讓程式設計師節省更多時間。

Meta添生成圖像工具

正當谷歌Gemini搶盡風頭,Meta Platforms推出AI製圖工具Imagine with Meta AI,以簡單文字提示詞便能創建圖像,只需以Meta賬戶登入網站即可試用(香港要VPN連線),每次輸入會生成4張圖片(解像度1280乘1280像素)。為提高AI影像的透明度及追溯性,Meta透露未來幾周會為作品添加隱形浮水印,方便日後以相應模型檢測。

AI生成圖像有否著作權,一直備受外界爭議。美國版權局(USCO)今年9月已重申人類才享有版權。內地方面,據《南方都市報》提到,北京互聯網法院11月底作出一審判決,認為由人類給予提示詞並以Stable Diffusion軟件生成的圖像具備「獨創性」要素,體現了人的獨創性智力投入,應該認定為作品,並受著作權法保護。

支持EJ Tech

如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們