數據為王 決定人工智能 (黃錦輝)
人工智能(AI)系統利用機器(軟件或硬件)代替人類的行為,要達到這目標,持續學習非常重要。人類自小便爭取機會多讀書、看報紙、看電視、上網等,目的就是增廣見聞,充實自己。同樣地,電腦也仿效人類不斷學習,此行為便是多年來科學家積極鑽研的「機器學習」(Machine Learning, ML)。機器學習是體現人工智能的「關鍵促成技術」(Key Enabling Technology),概括而言其落實可以基於不同方法,例如數學模型(Mathematical Modeling)、計算機算法(Computational Algorithm)、神經網絡(Neural Network)等。
「深度學習」技術應用廣泛
值得注意是近年「深度學習」(Deep Learning, DL)技術大行其道,它是基於「多層」神經網絡的機器學習方法。簡單來說,一層神經組織負責處理一項任務,「多層」即是把多項任務串起來統一處理。
以「人臉識別」應用為例,系統之目的是從一張照片中識別出目標人物,整理過程中第一層任務是把相中所有物件(object)的邊界(boundary)認出;第二層把各部位的相關邊界連接起來識別人臉的部位(例子臉形、眼睛、耳朵、眼眉等);第三層把各部位本身及與其他部位之間的特徵找出來,最後第四層把所有人臉特徵組合起來判斷相中人的身份。
透過「深度學習」,系統訓練可以一次過把四層的任務,一層接一層地同時處理,這做法可減少每一層獨立處理之後再互相連接的時候所產生之錯誤,分別包括自身及複合錯誤。「深度學習」被人工智能業界廣泛使用來研發創新的應用系統,如「實時機器翻譯」(Real-time Machine Translation),效果顯著。
機器學習依靠大數據作模型培訓,因此數據質量是機器學習的關鍵問題。數據不足可以嚴重影響學習的可靠性,情況等同在統計學中數據不足會局限統計結果的覆蓋範圍,繼而系統的準確率。
事實上,這亦是學術界做科研經常碰到的瓶頸問題,原因是工商業界擁有全球九成以上的應用數據,尤其是互聯網巨擘例如騰訊、谷歌等公司,學術界能使用的少之又少。針對數據短缺問題,有人工智能科學家提出以下折衷方案:
- 「遷移學習」(Transfer Learning)是將一個源領域(source domain)已訓練好的模型遷移至目標領域(target domain),從而建構出另一個相應而有效的目標模型。此舉可以避免機器學習由零開始,節省大量訓練數據的需求。以自然語言處理應用為例,既然系統已學會處理西班牙語,便可以把技術遷移至學習意大利語。又例如機器人經培訓後學會踏雙輪單車,它便很容易去學會駕駛電單車。
- 「聯邦學習」(Federated Learning)促進數據共享,各領域都擁有自己專有數據的電腦節點,透過分布式互相學習,可以強化各自的人工智能。由於各節點的數據格式不一致,難以集中管理,有見及此,近期科學家積極研究利用基於去中心化原理的「區塊鏈」技術,進行高效分布式學習。
科研偏重商業 弊多於利
在數碼經濟社會中,「數據是王者」(Data is King),可是這現象引發「富者愈富,窮者愈窮」的馬太效應。大型跨國企業會利用自己的「大數據」推陳出新,研發出創新的人工智能產品,而中小型企業及學術界因數據不足,在發展速度上望塵莫及。若然情況沒法改善,全球的科研便會偏重於商業應用,而忽略基礎科學,長遠而言對未來人文發展弊多於利。
更多黃錦輝文章:
支持EJ Tech
如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們。