大數據變革在數據本身(車品覺)
大數據公司最大的痛苦是什麼?不是沒有數據,而是有太多數據。各種各樣包括結構性和非結構性的數據從四面八方而來,但哪些有用?如何挑選?才是最難。
有一次,我在美國碰巧遇到谷歌的前數據部門主管,他跟我說了一件他覺得很痛苦的事:提出數據需求的人,往往70%的情況並沒有使用所獲提供的數據。他為此非常生氣,便質問業務方:「為什麼你們老問我要數據,結果卻不用?」業務方回答:「是的,因為我用了之後才知道這些數據沒有用。」對於一個每天都要準備數據的人來說,這好比你是一家餐廳的老闆,廚師每天為你準備很多菜卻只用一小部分材料。所以,我從事大數據行業一直有個夢想:如果有一天可以把數據的處理自動化,該多好!
創新方法自動清洗準備
說起數據處理的自動化,不得不提一家在數據領域有突破創新的公司Paxata,它是美國少有接地氣的自助型數據開發 (data preparation)平台。這家公司的專注領域令人興奮,因為目前市場上幾乎所有的數據分析,包括BI軟件和創新都聚焦在解決數據分析的算法、視覺化、模型等等的自動化,卻忽略了一個事實:現實工作中,數據科學家和分析師首先需要花費80%、甚至更多的時間在數據清洗和準備。Paxata採用機器學習的創新方法解決data preparation。其功能如下:
一、讀取數據:讀取任何形式的數據,自動解析和識別數據的類型及數據的意義;
二、數據探索:通過人機交互的形式,幫助用戶主動發現數據質量問題。比如提供全文搜尋、數據品質熱力圖、發現規律,來發現數據中的錯誤、重複、稀疏、缺失等問題;
三、數據清洗和修改:Paxata平台的核心是語義融合和機器學習引擎。該引擎基於算法智能識別並進行數據變換以改善數據;
除了上述功能,Paxata還能夠通過人機交互的形式完成數據合併、發布、改進、分享、安全控制等數據準備的所有環節。其中一個有趣的功能是數據富集(data enrichment),能基於第三方數據庫建議用戶增加更多的變量以提升挖掘價值,並自動完成數據的轉化。他山之石可以攻玉,同類公司所關注的變量及挖掘路徑可以互相借鑑。
今天大數據之所以說起來容易、做起來難,主要是因為兩個問題,其一是數據的易用性,其二是數據處理的成本。因此,底層數據處理的自動化將愈加重要。我們需要將使用數據的經驗數據化,並把這些經驗轉化為其他公司對自己數據的理解和使用能力。
或許在不久的將來,我們就會發現只要我們對某一領域使用數據的經驗有足夠的沉澱,哪怕給我一堆毫無關係的數據,我也能根據數據經驗庫,告訴你我從中看到了什麼。世界日新月異,變化之快令人咋舌,我們數據人也只有不斷顛覆自己使用數據的能力,才能找出大數據未來的方向。
更多車品覺文章:
支持EJ Tech
如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們。
Related Posts
Latest News
-
中美矛盾|外媒:華為秘密資助美國大學前沿研究
外電引述消息人士報道,中國電訊設備商華為正在通過一個位於華盛頓的獨立基金會,秘密資助哈佛等美國大學的前沿研究。
- Posted May 3, 2024
- 0
-
非法盒子的風險(林國誠)
坊間有不少非法的機頂盒聲稱可以讓用家免費收看不同地區的電視節目、電影及足球賽事直播,但這類機頂盒提供的內容未經授權,它們更可能帶來安全風險和網絡保安問題。
- Posted May 3, 2024
- 0
-
明日黃花的Siri與AI手機革命(黃岳永)
現時每人至少一部智能手機,應該沒有多少人記得PDA(Personal Digital Assistant),更多人認識的名字應該是Palm Pilot,這種自帶手寫筆且布滿大號按鈕的掌上電腦,在十多年前這種電腦可是不少商務人士的最愛。
- Posted May 3, 2024
- 0
-
新型電池|固態電池薄如紙 1分鐘叉爆
瑞士蘇黎世聯邦理工學院(ETH Zürich)旗下初創BTRY,利用半導體生產的特殊塗層技術,開發一種超快充電的固態電池,理論上一分鐘充電100%,並能承受劇烈溫度變化,聲稱使用壽命多一般電池約10倍。
- Posted May 3, 2024
- 0
-
AI之戰|Microsoft 泰國建數據中心
微軟行政總裁納德拉(Satya Nadella)近日出訪東南亞三國,周三(5月1日)在曼谷會晤泰國總理色他(Srettha Thavisin),透露會在當地建設第一座數據中心,為超過10萬人裝備人工智能(AI)技能,當中包括培訓旅遊及酒店行業人才。
- Posted May 3, 2024
- 0
-
AI趨勢|LinkedIn創辦人AI分身聆聽動作多
職場社交平台領英(LinkedIn)聯合創辦人霍夫曼(Reid Hoffman),最近接受人工智能(AI)虛擬分身視像訪問。他在網誌提到,AI分身如就一面鏡子,有助他換位思考。
- Posted May 3, 2024
- 0
-
澳拓商用量子電腦 支援醫療運輸行業
澳洲政府宣布向美國量子電腦初創PsiQuantum投資9.4億澳元(約48億港元),構建全球首台「商用」量子電腦系統,擁有100萬個物理量子位元(Qubit),預計2027年底投入營運。
- Posted May 3, 2024
- 0
EJ Tech Video
POPULAR POSTS
- 港大初創LPC|3D建築繪圖技術 結合AI提升消防安全
- 中美矛盾|外媒:華為秘密資助美國大學前沿研究
- 智能手機之戰|Samsung 首季營業利潤飆9.3倍料生成式AI需求續強勁
- 無人機推薦2024|DJI大疆並非一家獨大?Autel Robotics是有力競爭者
- 小米進軍電動車市場|雷軍:汽車蝕錢程度算中等偏少
- 生物塑膠半年降解|美國研生物複合塑膠 嵌入細菌孢子 遇堆肥激活分化快速降解
- Apple最新動態|傳設歐洲AI實驗室 廣招Google專家
- 全球最快CPU|阿里雲倚天710晶片 跑贏亞馬遜微軟谷歌
- 首屆AI選美大賽意義非凡(葉文瀚博士)
- Google裁員|解僱數百核心員工部分職位轉至印度、墨西哥