大數據對私隱的影響(蔣任宏)
本文作者蔣任宏為個人資料私隱專員 ,文章為個人資料私隱專員於4月28日在公署網站www.pcpd.org.hk發表網誌的《信報》節錄版
「數碼化」、「互聯網」和「資訊及通訊科技」不斷的進步,可以輕易有效地創造、收集、儲存、連結及分析大量數據,帶來「大數據」現象。
這些大數據大多是從我們在網上的社交聯繫、與機構的往來、使用智能裝置而產生的個人資料;同時也包括網上搜尋、購物和瀏覽的紀錄。
若把這些數據連繫和分析,能夠揭示我們在個人、政治、社交、財務及工作多方面的資料,從而帶來私隱及資料保障的風險。
相互關係不等同因果關係
首先,大數據分析能夠揭示數據之間的相互關係。可是,相互關係並不一定意味有因果關係。例如,一些臨床研究發現不吃早餐與過度肥胖有關係,原因可能是參與研究的人士缺少運動,因此在早上不感到肚餓,而體重仍會增加。在這情況下,鼓勵他們吃早餐只會弄巧反拙。
另一個例子,是美國波士頓於2012年推出一項社區計劃,協助居民改善街道路面的坑窪情況。義工在街上駕駛時利用流動應用程式可自動記錄路面凹凸的位置,協助當局盡快作出修補。但有關紀錄有利於較富有的地區,因為該區智能電話滲透率較高。若這些偏差的數據沒加以調整,社會資源的分配便會出現扭曲。
利用大數據的資料作歸類
其次,利用大數據的資料來把個人歸類,亦帶風險。例如,有些保險公司嘗試利用信貸報告及生活模式資料,代替驗血驗尿,以決定投保人是否符合資格及保單條款。顧客只須在網上回答一些與健康狀況無甚因果關係的問題,便可省卻化驗程序和昂貴費用,而完成投保。然而,依賴這些數據肯定會出錯。健康正常的申請人可能被拒,或要繳付較高的保險金才能夠投保;而他們在不知情下,亦不能查閱及改正有關具誤導性的資料。
同樣地,在打擊恐怖主義方面,根據統計而推斷出來的黑名單,無可避免地會出現漏誤。一些恐怖分子不會被攔截,成為漏網之魚,而無辜的乘客卻可能會錯誤地被拒登機。
侵犯私隱
第三,大數據的使用可以有秘密監控之嫌。例如,零售巨企Target可透過分析顧客的購物模式,推測顧客可能懷孕。一名未成年女兒的父親因收到Target寄來大量與懷孕有關的廣告,才揭發其女兒原來已懷孕,弄得當事人非常尷尬。而Target「挖空心思」地鑽研顧客數據作分析,也明顯侵犯了私隱。
2013年的斯諾登事件,揭露美國國家安全局與世界各地的情報機構,利用程式從美國電話公司收集電話元數據,並監察各地民眾在互聯網上的往來。這些大規模監察,極度侵犯民眾日常生活的私隱。
「去識別化」的資料
只使用去識別化的資料,即沒有姓名及其他個人身份代號的資料,是否私隱問題便不成立?這是值得商榷。
智能電話或個人電腦可因應手機的識別碼等資料被識認。由於這些個人通訊裝置與我們幾乎是形影不離,只要可追蹤該些裝置,便等同可追蹤我們。
此外,大數據可以增加身份再識別的風險。在2006年,互聯網巨企AOL因推出新的研究網站,公開了65.8萬名用戶的2000萬個搜尋查詢。
雖然在列出搜尋紀錄時,只用代號而不是真實姓名、用戶名稱或IP地址,但在數日內,《紐約時報》便根據一些搜尋查詢字眼,無誤地識別出其中一名用戶,導致AOL要公開道歉,並移除所有搜尋紀錄。
結語
明智地使用大數據,可以豐富生活質素及提升生產力。然而,保障顧客的私隱及資料仍必須優先考慮。我們面對的挑戰,是要充分利用大數據的潛能,但同時又要減低其弊端,締造雙贏。
支持EJ Tech
如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們。