要理解⼈⼯智能必先從「數據素養」開始(郭德偉)
本文作者郭德偉(Andy Kwok),為數據素養協會資深創會會員兼 OpenCertHub 創辦人及行政總裁 ,為《EJTech》撰寫專欄
隨著⼈⼯智能(A.I.)技術近年的急促發展,愈來愈多⼈開始意識到 A.I. 的重要性。我們⽇常⽣活中已有不少⼯作依靠⼈⼯智能的協助去完成,從過往應⽤於網購平台向⽤家推薦適合的產品,⼜或者⼿機地圖程式向你建議最省時的即時⾏駛路線,到今天「GenAI」的出現,已⼤幅提升處理文書及內容整合上的效率,徹底改變了我們的⼯作模式。最近OpenAI發佈了Sora 這個由文字⽣成影片的⼈⼯智能技術更轟動全球,我 相信未來⼈⼯智能的應⽤將會顛覆我們的想像。
我發覺很多⼈從開始去認識或學習⼈⼯智能這個領域時,很多時會直接跳進編程及機器學習 (machine learning) 這範圍,忽略了對「數據」這個底層核⼼的認識。我希望這篇分享可為⼤家帶來另⼀個學習⾓度。
我會稱⼈⼯智能(A.I.)為⼀種「⼯具」,是現今世代⽇常⽣活中不可缺少的⼀件好東⻄。它可以優化我們的⽣活質素及⼯作效率 ,⽽懂得使⽤這⼯具的⼈更能夠提⾼⾃⼰在市場上的存在價值⽽免被淘汰。要發揮⼈⼯智能的最⼤優勢,我們需要什麼原素?答案是數據(Data)。數據是A.I.的核⼼,它是訓練和驅動A.I.算法的基礎。經濟學⼈ (The Economist) 曾指出數據是現今的⽯油,⼀個⾼價值的資產;甚⾄,創新科技及⼯業局局⻑孫東教授在⼀篇提及⼈才發展的文章中也比喻數據為黃⾦,可想⽽知,數據的重要性已不能怱視,沒有⾜夠及有質素的數據作為燃料,⼈⼯智能這個引擎的威⼒便無法體現。所有⼈⼯智能的計算及分析模型是需要⼤量數據的訓練再作出適度調教下才能提升準確性。
我幾年前曾看過⼀篇報道指為何中國的⼈⼯智能發展雖比歐美國家遲,為何短短數年時間能夠發展迅
速。原因是中國市場擁有龐⼤的數據可供本地市場收集及應⽤,利⽤數據去加速機器學習。縱使技術層⾯與外國或有距離,但⼈⼯智能模型的準確性透過⼤量真實數據的訓練下則可跑贏對⼿。
從上述例⼦可⾒,要懂得運⽤⼈⼯智能絕對不能忽視對數據的認識。所謂懂得數據,即是指擁有數據素養 (Data Literacy) 這⽅⾯的能⼒。根據國際顧問機構「Gartner」的定義,數據素養是指讀取、寫入和交流數據的能⼒ (the ability to read, write and communicate data in context) ;簡單來說,數據已是⼀種在數碼時代必需學習的新語⾔,我們今天不只要懂得兩文三語⽽是兩文四語,因此培養數據素養 (data literacy) 是理解 A.I.的必要條件。數據素養包括個⼈對數據的理解和應⽤能⼒,例如如何搜集、處理、分析和解讀數據。在A.I.領域中,數據素養更是⾄關重要,因為它直接影響到A.I.的效能和可靠性。
現今全球數據量急促增⻑,⽽且數據已經成為決策和創新的基礎。數據素養能夠幫助⼈們更有效地理解和應⽤數據,進⽽提⾼決策和創新的效能和可靠性。因此,在現今數字經濟的推動下,數據素養已經成為⼀個非常重要的職業技能。它涉及到數據收集、處理、分析、解讀和保護等多個⽅⾯,需要⼀定的技能和知識。通過培養數據素養,⼈們不僅可以更好地理解和應⽤A.I.技術,還能夠提⾼個⼈的⽣活質量,解決現代社會⾯臨的重要問題。