知識圖譜:知別人所不知(車品覺)
一位大學校長曾經問我:「你認為大數據到現在為止,對人類最大的貢獻是什麼?」我毫不猶豫地回答:「在醫學上。」毫無疑問,大數據對醫學的貢獻是最偉大的、最無私的。因為通過大數據在醫學上的應用,可以減輕無數人的病痛,挽回很多人的生命,對人類的價值無限。
去年我們曾邀請IBM Watson實驗室的高層給團隊做分享,他提起IBM做過一個非常有意思的項目,就是如何快速決定是否對某種有助於治療癌症的蛋白質投入研究。
大家可能知道,有些蛋白質有助治療癌症,但每研究一種這樣的蛋白質,耗費的人力、物力都非常巨大,10年時間可能也只能研究10多種。但IBM用了一個方法,就是用機器「讀」完近30年來所有有關蛋白質的論文,從中認知蛋白質間的關係,進而決定哪一種更值得研究,大大節省了研究資源及提升了效率。其實,IBM所用的方法就是認知科學,多年前他們已開始使用,而美國亦有愈來愈多企業開始利用認知科學來解決更多問題。
說起認知科學,最近認知計算公司Digital Reasoning的行政總裁Tim Estes提出了一些有趣的觀點。他於大學期間創辦這家公司,14年來一直擔任行政總裁,他笑謂文本分析已經死亡,取而代之的是知識圖譜。其實文本分析從來沒有像現在這樣廣為需要,且可通過大量的開源工具完成。但對於技術公司來說,文本分析已不再有趣,下一步的關鍵是知識圖譜──如何從數據中提取知識。
知識圖譜的認知過程大致分為三個步驟──Read:讀入所有的數據文件,如郵件、文檔、社交文本等並將其結構化。Resolve:從中提取重要的訊息,並和其他訊息相連接。Reason:通過這些相連的知識圖譜,利用機器學習的方法找出最後的圖畫。
網上留痕 無所遁形
舉個典型的例子,某上市公司A公告任命一名董事,Digital Reasoning就可通過「Read」轉化分解為人、公司、動作、職位等結構化數據;再通過「Resolve」聯接該人物的歷史工作記錄、朋友、同事等;最後通過「Resolve」發現該董事以往同事的朋友在賣A公司的股票。
通過這些技術及產品,Digital Reasoning在金融犯罪、網絡安全等領域做出了很多成功的案例。
在知識圖譜領域,Google是當之無愧的領先者,Facebook是最快的追隨者,微軟也正在快速行動。近年來美國政府花費不菲,在多個領域、無數項目中嘗試了知識圖譜方法,而Digital Reasoning正是從這些政府IT項目產生的稀有成果,目前該公司正為政府和金融業提供知識圖譜相關服務。
企業高層最怕見到一大堆數據報表而非觀點,更怕那些帶着觀點然後找數據來證明自己的分析師。知識圖譜的探究,讓我們開始見到從大量數據及其關聯之中獲得新知識的曙光。以前我們帶着問題去找答案,如今在認知科學的帶領下,人類可以真正地讓數據去探索「未知」。
更多車品覺文章:
支持EJ Tech
如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們。