大數據也有「陰暗面」(算者)
最近,美國聯邦商務委員會發布了一份歷時兩年研究的報告,針對使用大數據的益處和風險(尤其是對於相關消費者保護法規的風險)進行了詳細分析。
這份報告備受業內關注,因為它提及大數據的「陰暗面」。該報告提醒 ,社會在使用大數據時,需要特別注意《公平信用報告法》、《聯邦貿易委員會法》及《機會公平法》。因為大數據若使用不當,恐將助長社會的機會差距、傷害弱勢群體利益、加劇貧富懸殊,甚至可能導致歧視和排斥。
誠然,雖說大數據的創新使用,為弱勢群體帶來了增加教育的機會、通過非傳統管道獲取信貸、更容易獲得就業機會等積極面,但其陰暗面也不容忽視,例如大數據的數據偏差和失準,有可能導致錯誤判斷,對社會產生慢性損害。
要相信而不迷信
不久前,《哈佛商業評論》刊登了一則有關大數據傷害特定人群利益的案例,來自波士頓市政府推出的一款手機程式StreetBump,原意是讓市民透過這個App,向政府報告路面坑窪,藉此幫助政府分配修路資源,進行優先順序安排。但研究發現,由於老人家使用智能手機的比率偏低,導致收集的數據不全面,結果令一些並不影響年輕人、卻會妨礙老人家步行的小型坑窪,長期受到市政府忽視。
這種隱性偏差風險,對統計學家來說並不陌生,數據分析就是從龐大體量數據中提煉真相,因此結果往往是「差之毫釐,謬以千里」。在過去,我們擔心的問題是小樣本導致的統計誤差;而在大數據領域上,這問題並不會消失,反而可能更加複雜,更難發現和解釋。
大數據的偏差,通常來自多種來源和異類結構的整合,儘管經歷了海量數據分析,依然有可能得出失真結論。在商業運作中,我就見過因為數據清洗的偏差,以致KPI完成率徹底逆轉,最終影響到晉升的決策。
作為數據從業者,我們每天都在與誤差奮戰。我們一方面相信數據的客觀,卻不可以迷信,要清楚面對大數據也有「陰暗面」的現實。
更多算者文章:
支持EJ Tech
如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們。