Votee AI|粵語AI大模型 港府採用 初創Votee AI蒐10年數據開發
原文刊於信報財經新聞「EJ Tech 創科鬥室」
廣東話博大精深,保留不少古漢語特徵,其聲調複雜之餘,亦有不少獨特俚語,例如「吊吊揈」、「虢礫緙嘞」(粵音:撠溺卡勒)等詞語,港人識聽識講卻未必個個識寫。數碼港培育人工智能(AI)初創Votee AI利用過去10年積累的數據,研發一款廣東話大型語言模型(LLM),產品獲本地多間銀行及生產力促進局採用,並為政府部門提供AI聊天機械人服務。
遣詞造句符合港人習慣
Votee AI技術總監陳豪傑表示,公司研發的廣東話LLM模型,設有個人及企業兩個版本。團隊可根據客戶具體業務,結合其內部資料、提供客製化服務。主打個人的Community Version為開源版本,相關程式碼及數據已上傳至AI協作平台Hugging Face。
從現場示範可見,Votee AI聊天機械人反應速度不錯,遣詞造句符合港人習慣。陳豪傑指出,在使用輝達(Nvidia)RTX A4500繪圖處理器(GPU)情況下,運算兩次對話大約耗時25秒,快過人眼的閱讀速度。
談到開發過程,陳豪傑稱,初時大家通常會用檢索增強(RAG)技術。即結合AI和數據庫搜尋的技術,在生成回答時即時檢索相關資訊。現時不少開發者都選擇為模型微調,但形容這種方法,「問題在於最多只能改動LLM的5%左右,通常甚至只有1%。」
陳豪傑坦言,團隊經歷一番掙扎後,最終選擇基於Meta開源模型Llama,進行持續預訓練(Continual Pre-Training),他強調,Llama本身不具備廣東話能力,團隊相當於「所有嘢都要修改」。
即時翻譯準確率逾九成
要訓練大模型,採用大量及準確的數據是關鍵,陳豪傑說,這正是團隊遇到的技術挑戰之一。數據來源可以歸納為三類,一是俗語和網絡流行用語,第二是書面語,最後則是實際對話。他認為,廣東話屬於「資源稀缺型語言」。以維基百科文章為例,英文約有250萬篇文章,廣東話文章僅有9000篇左右。
所幸Votee AI在過去10年間,一直從事市場研究、社群聆聽(Social Listening)等業務。過程中收集大量廣東話相關數據,有豐富資源。同時,有本地語言學系教授,以及粵語辭典計劃《粵典》團隊等支援大模型開發。
早前,團隊為虛擬經濟博覽及會議提供AI翻譯服務。陳豪傑憶述,當時有不少內地來賓到場,團隊提供的廣東話翻譯服務,準確率已超過九成。他表示,根據自己之前了解,坊間類似模型準確率在85%左右。現時隨着LLM不斷升級,相信90%將成為平均水準。
採訪、撰文:周泳彤
相關文章:Votee AI|擬攻冷門語 拓東南亞非洲粵語AI大模型
想知道什麼是 Fine-Tuning?:深入了解Fine-Tuning
支持EJ Tech
如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們。Related Posts
Latest News
-
歐盟反競爭|Apple傳面臨歐盟警告 要求開放iPhone作業系統
外電引述消息人士報道,歐盟將警告Apple,要求該公司向競爭技術開放iPhone作業系統,否則最終將面臨巨額罰款。
- Posted September 19, 2024
- 0
-
馬斯克發功|「盲視」獲FDA開綠燈 助失明者重見光明
億萬富豪馬斯克(Elon Musk)昨宣布,旗下腦機介面(BCI)公司Neuralink獲得美國食品及藥物管理局(FDA)開綠燈,批准其突破性醫療器材計劃「盲視」(Blindsight)。
- Posted September 19, 2024
- 0
-
體驗內地夜經濟(廖錦興博士)
筆者上月前往重慶市和成都市,親身體驗這些城市夜經濟的發展。有火爐之稱的西部城市,盛夏白天氣溫高達攝氏40度,入夜後降至攝氏33度,加上微風,變得較為舒適。
- Posted September 19, 2024
- 0
-
戶外連線距離破紀錄|16公里網速2Mbps
無線上網離不開WiFi,但最遠傳送多少距離?澳洲半導體初創Morse Micro挑戰技術極限,最近在美國加州約書亞樹國家公園,測試無線網絡標準WiFi HaLow(IEEE 802.11ah)接收範圍。
- Posted September 19, 2024
- 0
-
科技改變命運 造福全球(湛家揚博士)
我相信許多人都有做慈善活動和捐款經驗,幫助第三世界的弱勢群體。雖然這樣做是好的,但影響有限且短暫;與其僅僅給他們魚,不如教他們釣魚,這樣就能自食其力,長期擺脫貧困。
- Posted September 19, 2024
- 0
-
助力企業解鎖「數據」真正價值 「WiseSpot」以AI力量引領通訊未來
所謂「變幻原是永恆」,香港經濟於短短數年間急速轉型求變,而一直不變的是,企業「善用科技」並在波瀾起伏的市場上生存。進入5G時代,談論度最高的新世代技術非人工智能AI莫屬。各企業需懂得充分應用AI於不同場景,才能真正發揮潛力。根據安永(Ernst & Young)最近一份關於電訊公司對AI取態的全球報告,78%的決策者認為「AI能有效推動業務效率,為社會整體創造更好的生活」。
- Posted September 19, 2024
- 0
-
Google壟斷案|谷歌上訴得直 免付歐盟129億罰款
盧森堡歐盟普通法院周三(18日)裁定,美國科企谷歌(Google)推翻歐盟數碼廣告案的裁決,毋須支付因阻礙網絡廣告競爭而於2019年被判處的14.9億歐羅(約129.3億港元)反壟斷罰款。
- Posted September 19, 2024
- 0