Google年度開發者大會|推AI搜尋 可拍片發問 美國下周先使用 年底全球開放
原文刊於信報財經新聞「EJ Tech 創科鬥室」
谷歌(Google)昨日召開年度開發者大會I/O,示範人工智能(AI)模型Gemini,如何以多模態形式結合搜尋引擎。Alphabet行政總裁皮采(Sundar Pichai)笑言,整場大會的演講至少122次提到AI字眼,足見其份量。至於下周在美國市場推出的AI Overview,利用生成式AI驅動Google搜尋,結果頁頂將顯示AI生成的延伸內容,簡單或深入的答案任君選擇,年底前會向全球逾10億用戶開放。
大會花了大量時間講解AI搜尋工具,以新增的Ask with Video影片搜尋為例,方法是用戶以手機拍片,輔以語音或文字詢問,搜尋引擎會自動分析畫面,例如看到黑膠唱片機唱針晃動,便回覆相應的維修辦法。此外,Google相簿將於數月內推出實驗功能Ask Photos,以AI分析相片庫的不同景物,分類後再貼上關鍵字標籤,並強調相簿的個人資料絕不會用於廣告。
Google DeepMind主管哈薩比斯(Demis Hassabis)在台上介紹多模式AI助手Project Astra,透過手機鏡頭對準各種物品,便可識別出來,例如喇叭某一指定部分的功能,又或解釋熒幕上的程式碼等,反應快速並有一定記憶力,在展示中更幫手尋回眼鏡。谷歌又宣布即將在Android手機推出以Gemini Nano為本的全新詐騙檢測工具,系統一旦偵測到可疑對話,手機會即時發出警報,提醒用戶小心。
Gemini家族又添成員
大型語言模型方面,谷歌發表家族新成員Gemini 1.5 Flash,其定位介乎1.5 Pro及1.5 Nano之間,上下文視窗支援100萬Tokens,可以分析1500頁文件或3萬行程式碼。今年2月亮相的Gemini 1.5 Pro,上下文視窗倍增至200萬Tokens,足以處理2小時影片、22小時音檔、6萬行程式碼或140萬字內容。以上兩款模型可在谷歌AI Studio及Vertex AI平台,作為公開預覽版本使用。
輸入及輸出收費方面,以每100萬Tokens為單位,Gemini 1.5 Flash價格低至0.35美元及0.53美元;Gemini 1.5 Pro,價格為3.5美元及10.5美元起。下一代開放模型Gemma 2將具備270億個參數,計劃今年6月推出。另一方面,為提供更個人化體驗,谷歌同時發布Gemini客製化版本Gems,讓用戶為聊天機械人自訂角色,例如健身拍檔、副主廚、編碼夥伴或創意寫作指南,近似OpenAI旗下的GPT商店。
生成一分鐘以上高清片
除了教育研究模式LearnLM及音樂AI沙盒,谷歌亦推出文字轉圖像模型Imagen 3,產出栩栩如生的圖像,視覺偽影相對較少;影像生成模型Veo方面,可以生成長度超過一分鐘、1080p解像度的高清影片,融入縮時拍攝手法之餘,更懂得電影及視覺藝術的術語。谷歌提到,由AI生成的媒體檔案,例如影像、聲音、文字及影片,已支援開源數碼水印SynthID。未來將與「內容出處和真實性聯盟」(C2PA)合作,與Adobe、微軟、英特爾、OpenAI、索尼等科企建立標準。