數據治理重中之重 (車品覺)
什麼是大數據治理?讓我們先用一個常見的場景作解釋。假設你正在為公司建立一個統一的客戶關係管理系統(CRM),首先你要去問不同部門和相關人士,在他們眼中什麼是客戶賬戶?答案不出所料各不相同,大概歸類如下:
行銷部:賬戶是用來記錄銷售的線索。
財務部:賬戶就是有交易的客戶。
法律部:賬戶是通過互動所產生有法律協議的個體。
安全部:賬戶是保證客戶身份的途徑。
須解決三大害
儘管每個定義都正確,但深入分析時,各部門會產生不同版本的數據,甚至會「雞同鴨講」。以電商的用戶活躍度為例,究竟是指哪一種活躍?購買抑或瀏覽?我在阿里巴巴工作時,就試過從各個部門收集客戶性別數據,最終有18種之多。有時不同場景收集到的用戶性別可信度不一樣,有些甚至是通過其購買行為猜算出來的。問題就來了,到底選擇哪一個最正確?這種現象會影響到分析結果,亦會讓機器學習時產生偏差。
為什麼我要強調數據治理(data governance)而不是數據管理(data management)?因為大數據的本質是來自不同源頭的非結構性數據,通俗一點說就是「百鳥歸巢」的結合體,可想而知在未使用之前必須經過整理,行內叫這個過程做「清洗」或者預處理。關鍵是外來的非結構數據品質要保證達到標準,繼而建立全新的大數據治理架構和規範。
首席數據官(CDO)這個職位就是為了應對數據治理的挑戰。行業組織和供應商已經開發出各種各樣的數據治理框架,關注點包括戰略、策略、協同、職責、安全和合規等等。
總而言之,數據治理是大數據及人工智能的前提,否則就會淪為Garage-in Garage-out(不可靠數據產生不可靠結論)。大數據治理就是在使用數據的過程中,解決數據乏力(Data rust)、數據雜質(Data dirty)和數據斷裂(Data broken)這三害,三者解決方案缺一不可。
更多車品覺文章:
支持EJ Tech
如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們。