Don't Miss

Votee AI｜粵語AI大模型港府採用初創Votee AI蒐10年數據開發

By 信報財經新聞 on August 19, 2024

原文刊於信報財經新聞「EJ Tech 創科鬥室」

廣東話博大精深，保留不少古漢語特徵，其聲調複雜之餘，亦有不少獨特俚語，例如「吊吊揈」、「虢礫緙嘞」（粵音：撠溺卡勒）等詞語，港人識聽識講卻未必個個識寫。數碼港培育人工智能（AI）初創Votee AI利用過去10年積累的數據，研發一款廣東話大型語言模型（LLM），產品獲本地多間銀行及生產力促進局採用，並為政府部門提供AI聊天機械人服務。

Votee AI, 廣東話, 俚語 — 廣東話聲調複雜之餘，亦收錄不少獨特俚語。（黃勁璋攝）

遣詞造句符合港人習慣

Votee AI技術總監陳豪傑表示，公司研發的廣東話LLM模型，設有個人及企業兩個版本。團隊可根據客戶具體業務，結合其內部資料、提供客製化服務。主打個人的Community Version為開源版本，相關程式碼及數據已上傳至AI協作平台Hugging Face。

從現場示範可見，Votee AI聊天機械人反應速度不錯，遣詞造句符合港人習慣。陳豪傑指出，在使用輝達（Nvidia）RTX A4500繪圖處理器（GPU）情況下，運算兩次對話大約耗時25秒，快過人眼的閱讀速度。

談到開發過程，陳豪傑稱，初時大家通常會用檢索增強（RAG）技術。即結合AI和數據庫搜尋的技術，在生成回答時即時檢索相關資訊。現時不少開發者都選擇為模型微調，但形容這種方法，「問題在於最多只能改動LLM的5%左右，通常甚至只有1%。」

Votee AI, 陳豪傑, 丁柏生, Meta, Llama, 廣東話 — 陳豪傑（右）稱，團隊採用Meta開源模型Llama，但強調「所有嘢都要改」；旁為Votee AI行政總裁丁柏生。（黃勁璋攝）

陳豪傑坦言，團隊經歷一番掙扎後，最終選擇基於Meta開源模型Llama，進行持續預訓練（Continual Pre-Training），他強調，Llama本身不具備廣東話能力，團隊相當於「所有嘢都要修改」。

即時翻譯準確率逾九成

要訓練大模型，採用大量及準確的數據是關鍵，陳豪傑說，這正是團隊遇到的技術挑戰之一。數據來源可以歸納為三類，一是俗語和網絡流行用語，第二是書面語，最後則是實際對話。他認為，廣東話屬於「資源稀缺型語言」。以維基百科文章為例，英文約有250萬篇文章，廣東話文章僅有9000篇左右。

Votee AI, 陳豪傑, 丁柏生, 維基百科, 廣東話 — 陳豪傑（右）以「維基百科」文章，廣東話屬於「資源稀缺型語言」；旁為Votee AI行政總裁丁柏生。（黃勁璋攝）

所幸Votee AI在過去10年間，一直從事市場研究、社群聆聽（Social Listening）等業務。過程中收集大量廣東話相關數據，有豐富資源。同時，有本地語言學系教授，以及粵語辭典計劃《粵典》團隊等支援大模型開發。

早前，團隊為虛擬經濟博覽及會議提供AI翻譯服務。陳豪傑憶述，當時有不少內地來賓到場，團隊提供的廣東話翻譯服務，準確率已超過九成。他表示，根據自己之前了解，坊間類似模型準確率在85%左右。現時隨着LLM不斷升級，相信90%將成為平均水準。

採訪、撰文：周泳彤

相關文章：Votee AI｜擬攻冷門語拓東南亞非洲 粵語 AI大模型

支持EJ Tech

如欲投稿、報料，發布新聞稿或採訪通知，按這裏聯絡我們。

AI feature Llama LLM Meta Votee AI 丁柏生廣東話陳豪傑

Tweet

Pin It

Related Posts

草莓專案鞏固OpenAI領導地位（車品覺）

草莓專案鞏固OpenAI領導地位（車品覺）

2024 ASA｜港企盡攬生活智能App三甲以國醫療監護程式「雙料冠軍」

2024 ASA｜港企盡攬生活智能App三甲以國醫療監護程式「雙料冠軍」

Apple華為對撼｜華為商用三摺機 AI功能分段推無驚喜 Mate XT賣2萬走高檔

Apple華為對撼｜華為商用三摺機 AI功能分段推無驚喜 Mate XT賣2萬走高檔

Apple 2024發布會｜新版Apple Watch偵測睡眠窒息

Apple 2024發布會｜新版Apple Watch偵測睡眠窒息

Latest News

Sony PS5 Pro｜遊戲提速45% 售5780元
索尼（Sony）發布升級版遊戲主機PlayStation 5 Pro（PS5 Pro），9月26日接受預訂，11月7日在歐美、日本及香港發售，本港建議售價5780元，比數碼版PS5 Slim主機貴93%。

Posted September 12, 2024

0

草莓專案鞏固OpenAI領導地位（車品覺）
最近美國科技初創企業OpenAI，據報即將推出新一代人工智能（AI）推理模型「草莓專案」，預計今年秋季面世。

Posted September 12, 2024

0

港青訪星洲探索「帶路」開眼界（廖錦興博士）
當本港青年規劃未來時，常常會考慮跳出香港，放眼世界。他們除了關注粵港澳大灣區的發展外，也把國家的「一帶一路」倡議，視為尋找發展機會的重要方向。

Posted September 12, 2024

0

2024 ASA｜港企盡攬生活智能App三甲以國醫療監護程式「雙料冠軍」
香港無線科技商會（WTIA）昨舉辦「2024亞洲智能應用程式大獎」（ASA）頒獎禮，是次大賽分為「公共事務及社會創新企業類」、「商業應用類」及「生活社交及娛樂類」三大組別，每個類別各設金、銀、銅獎。

Posted September 12, 2024

0

中美矛盾｜大疆(DJI)新無人機在美國恐禁售
內地近年積極發展低空經濟，但美國眾議院最新通過法案，其中一項為《對抗中共無人機法案》，禁止中國無人機公司大疆創新（DJI）在美國營運，理由是會對美國國家安全構成不可接受的風險。

Posted September 11, 2024

0

Apple華為對撼｜華為商用三摺機 AI功能分段推無驚喜 Mate XT賣2萬走高檔
全球兩大智能手機廠商香港時間同日發布新品對撼，蘋果（Apple）一如預期推出首部具備AI功能的iPhone，全新登場的iPhone 16系列將支持Apple Intelligence運行。

Posted September 11, 2024

0

萬億美元俱樂部｜馬斯克三年後料擁萬億美元身家
英富曼（Informa）跨國集團旗下研究院Informa Connect Academy發表的《2024萬億美元俱樂部》報告顯示，億萬富豪馬斯克（Elon Musk）的財富，過去每年平均增幅達1.1倍。

Posted September 11, 2024

0

EJ Tech Video

POPULAR POSTS

智能手機之戰｜Android 15面世增多項功能

 AI難取代人類導師互動情感（鄧淑明博士）

社媒X信任度陷谷底！｜廣告商減投放加速離棄社媒X

AI融入學習須掌握三大程式（黃岳永）

Apple發布會｜Apple發布新款iPhone 16 搭配Apple Intelligence

Apple華為對撼｜華為三摺手機Mate XT登場售19999人幣起

成為 EJ Tech 會員

接收最新創科資訊

Click here to unsubscribe

Votee AI｜粵語AI大模型 港府採用 初創Votee AI蒐10年數據開發

遣詞造句符合港人習慣

即時翻譯準確率逾九成

相關文章：Votee AI｜擬攻冷門語 拓東南亞非洲粵語AI大模型

支持EJ Tech

Related Posts

Latest News

EJ Tech Video

POPULAR POSTS

成為 EJ Tech 會員

Votee AI｜粵語AI大模型港府採用初創Votee AI蒐10年數據開發

相關文章：Votee AI｜擬攻冷門語拓東南亞非洲粵語 AI大模型