You are currently at: ejtech.hkej.com
Skip This Ads
Don't Miss

數據開發需有系統 (車品覺)

By on November 29, 2017

本文作者車品覺,為紅杉資本中國基金專家合夥人、原阿里巴巴集團副總裁,為《信報》撰寫專欄全民大數據

數據繁複的準備過程,仍很依賴人手處理。(Freepik 網上圖片)

數據繁複的準備過程,仍很依賴人手處理。(Freepik 網上圖片)

大數據行業的最大障礙有二,其中眾所周知的是個人數據私隱保障,另一重大障礙是數據在使用之前需要繁複準備過程,而且至今為止仍很依賴人手進行。還記得當日從支付寶加入淘寶工作,上任後第一件讓我不安心的事情,就是數據開發人員的長期加班所帶來的一系列問題。

曾經有一位懷孕的Team Leader哭着對我說捱不住,而且我驚訝地發現,他們已經連續兩年在這種情況下工作,更可怕的是業務方對他們還是很不滿意。

從業務方的角度看,產品的開發周期差強人意,最不滿的是業務在變動之後,數據總跟不上節奏,試過最嚴重的情況是等了3個月後,數據才完全更新完畢。

當時我開始思考把產品管理的經驗應用於數據科學,首先我發現了數據開發的需求欠缺管理,四方八面的數據需求雜亂無章,重複開發比比皆是。數據從採集到預處理、反覆運算的生命周期管理沒有標準化,不同團隊都有自己的做法,根本沒什麼規範。

於是後來,我們開始反思如何建設更敏捷的數據模型和體系,保證數據的一致性、高效率、規範性及穩定。在如此複雜又高速發展的業務前提下,若再不進行治理,管理成本只會愈來愈高。正在此時「東風」來了,智能手機普及所造成的數據結構衝擊,再加上該集團上市在即,讓我們不得不進行一次大型技術改革。

研討過後,我決定放棄原有的數據研發體系,新開闢的體系遵循以下原則:從數據的訪問概率及業務耦合決定數據結構;建立簡潔及可維護的核心模型;讓公用性數據的處理邏輯下沉,盡量不被應用層影響;在減少冗餘的前提下,關注查詢及刷新性能;確保數據可回滾。這些規範原則應該貫穿於業務調研、開發過程到最後實施的工作流之中。

我們把以上整個數據建設體系及相關工具稱為One Data,還必須經過大量的應用考驗及調節,不斷嘗試反覆運算才可得出具實用價值的成果。最後經過兩年努力,終於落地成為阿里的數據標準。

One Data還需要有3個角度的考慮:數據視角、 演算法視角、產品視角。若不了解數據對演算法的影響,便無法有良好的演算表現。同理,若不明白演算法在產品中擔任的角色,也無法做成好的數據產品。這意味產品設計必須植根於數據敏捷穩定,產品與數據及演算法同步於精煉的迴圈中。若沒有敏捷體系的數據開發,總會到了還債的一天,屆時又會陷入只可哭訴但無人能救的尷尬境地了!

(編者按:車品覺最新著作《覺悟.大數據》現已發售)

歡迎訂購:實體書、電子書

更多車品覺文章:

支持EJ Tech



如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們