人工合成數據利弊 (鄧淑明博士)
本文作者鄧淑明博士,為香港大學工程學院計算機科學系、社會科學學院地理系及建築學院客席教授,為《信報》撰寫專欄「科網人語」。
人工智能(AI)的智慧來自海量數據,而今天很多地方都收緊保護私隱政策,故此,不會違反個人私隱條例的人工合成數據(Synthetic Data)應運而生。有人估計它的成本僅為真實數據的1%,自然吸引企業參與。
不單如此,真實數據可能無法反映實況,如不同種族、國籍比例,而合成版本則可減少偏差。另一方面,合成數據也可就罕見情況提供更多樣的數據,彌補難以從現實獲得這些資訊的問題。
合成數據可以是文本、媒體(片段、圖像、聲音)和列表。根據真實資料的含量,大致分為三類:一)真假各半,二)模擬真實並加以改動,三)完全虛構。
時至今日,從銀行、醫藥到無人駕駛等多個行業也有使用合成數據。據報美國運通兩年前已開始測試以深偽技術(Deepfake)片段和虛假數據如信用卡交易,提升AI演算法辨識詐騙行為的能力。摩根大通除了用合成數據來反洗黑錢外,也以此開發創新產品和服務,尤其真實的歷史數據未必可滿足需要,合成數據則能大派用場。
在醫療領域,瑞士藥廠羅氏(Roche)與初創合作,在臨床研究中使用合成醫學數據,代替患者數據,以提高分析能力。德國的夏里特醫學院醫學人工智能實驗室(CLAIM)研究中風,指每個患者的大腦結構都有其獨特之處,匿名化圖像意義不大,因此致力開發合成數據。
過去兩年來,Alphabet旗下的自動駕駛公司Waymo團隊一直以合成數據,生成逼真的駕駛數據集,包括繁忙的城市街道、高速多車的道路和混亂的停車場,或者通過調節迎面而至的車輛速度,來衡量Waymo的反應。
業內人士指出,合成數據較適合用於相對直接的問題,如欺詐檢測或信用評分,不過一旦遇上複雜多變的情況,它就應付不來。《經濟學人》舉例,以往購買單程機票,會被自動檢測模型視為欺詐的明顯預測指標,但在新冠疫情下,很多客人無奈下都會被迫這樣做;又如人臉識別,當戴口罩成為常態時,便難以發揮功效。
在需要精準真實的數據作規劃時,合成數據亦可能礙事。美國每年一度向1%的人口發出社區調查(ACS),以研究該國在教育、健康、收入、人口統計和地區之間的關係,當局打算把實際數據換成合成版本,便被批評難以為貧困小區分配本來有限的資源。
合成數據還是個新興產業,有賴不同行業和初創共同探索它的潛力。
(編者按:鄧淑明博士最新著作《你未來就緒嗎?》現已發售)
歡迎訂購:實體書、電子書