You are currently at: ejtech.hkej.com
Skip This Ads
Don't Miss

微軟多模態AI 懂看圖推理

By on March 3, 2023

原文刊於信報財經新聞「StartupBeat創科鬥室

人工智能(AI)技術再有新突破,微軟研究團隊周三發表多模態大型語言模型(MLLM)KOSMOS-1,據稱可以分析圖像內容、解決視覺難題、執行視覺文本識別、通過視覺智商測試,以及理解自然語言指令,程式碼發布在軟件代碼託管平台GitHub平台上。

KOSMOS-1可以從相片理解人物行為,即時推理及計數。(arXiv網上圖片)

微軟團隊認為,多模態AI集成不同輸入模式,包括文本、音頻、圖像及影片等,為構建「通用人工智能」(AGI)的關鍵步驟,足以處理複雜問題及推理任務。例如貼一張斑馬相片,KOSMOS-1懂得回答「牠在非洲居住」,曉得說「斑馬過馬路遇到麻煩」等笑話。不過,其推理能力不算太高,只能在Raven IQ智能測試,順利答中22%的問題。

若貼上一張斑馬相片(圖中),KOSMOS-1懂得回答居住地點,甚至說笑話。(arXiv網上圖片)

ChatGPT開放API一折搶客

此外,美企OpenAI昨宣布,開發人員現在可通過API(應用程式介面),將ChatGPTWhisper(語音轉文字)模型,集成到旗下應用程式及產品中,例如Snap旗下My AI for Snapchat+、Shopify旗下Shop等。最新版本的gpt-3.5-turbo模型,收費為每1000代幣(即大約700個英文字)0.002美元,相當於現有GPT-3.5模型的一折定價,相當具市場競爭力。

支持EJ Tech

如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們