若說2018年9月在杭州召開的云棲大會期間,活躍著多少匹“黑馬”,連同參展的、演講的、參觀的……各色人等一時很難統計出來,但是,不起眼的TigerGraph,一定會是其中最有亮點、最有故事的黑馬之一。
這家成立2012年,在大數據圖分析領域默默耕耘了6年的公司,一直低調從事市場調研和產品研發迭代。
直到2017年11月8日,TigerGraph的下一代圖數據庫在美國正式發布,在市場上引起了軒然大波后才為眾人所知。這家總部位于硅谷的公司憑借成熟的技術,贏得了啟明創投、百度、螞蟻金融、華創資本、AME云創投、莫拉多風險投資公司、佐德?納齊姆、丹華資本和DCVC風投基金公司3100萬美元A輪資金投資。
從大數據中掘金
有統計報告顯示,1分鐘之內,美國數億封郵件被發送,谷歌平臺上發起400萬次搜索,Facebook上有246萬條信息被分享……在中國,類似的數據量更大。例如,在中國約有7000多萬家注冊企業,由于數據量比較大,要想理清這些公司之間的關系,如企業的持股人、投資關系、訴訟關系至辦公地址等類似的關系,是一件很困難的事情;通過檢索可以查出一度內有關系的人,也就是控股人控股關系,再深入到兩層、三層的關系就不太現實了。
萬物互聯的時代,社交網絡實時在線,物聯網7*24小時運行,每天大量的數據還在持續不斷的生成。在這樣的情況下,該如何挖掘數據的價值,數據關聯背后隱藏著什么關系?
TigerGraph創始人兼CEO許昱博士TigerGraph公司的創始人許昱博士從事數據庫和并行系統研發已經二十年,創辦TigerGraph之前在Teradata負責大數據面向業界和未來五年的方向研究,領導Teradata和Big Data、Hadoop系統的集成,并且與一些大企業合作解決報表的查詢與合并技術。稍早在Twitter工作,作為一個社交網絡,圖的分析對于Twitter意義重大,Twitter自行開發了一套單機版的純內存的系統。再早則是在加州大學圣地亞哥分校、在中科院計算所從事數據庫方面的研發工作。
可以說,許昱博士是個“不折不扣”的數據庫專家,在他的周圍聚集的也是來自硅谷等地高科技公司的數據庫專家。
為什么會從事圖數據庫研究?
發掘大數據關聯和關聯后面隱藏的商業價值,是一個技術難題,但是它的解決無疑具有極大的商業價值。如何解決?
始于Hadoop技術的大數據時代迄今已經過去了十年,一些簡單的技術問題如存儲、離線處理等問題都得到了解決。十五年前,業界也開始了一些圖數據庫的嘗試。許昱博士指出,圖是以數學上點和邊的關系把所有的數據自然存在一起,成為自然的存儲數據關聯模型。TigerGraph之所以采用知識圖譜(歐拉圖),是因為圖是解決大數據互聯最好的方法。
從計算角度,歐拉圖更合適大數據的機器學習、人工智能。但由于每前進一步,接觸數據量指數性增長,又能帶來更多關聯信息,所以計算能力至關重要,而技術上的限制,比如缺乏大數據、并行技術、多核計算機等的能力,所以在TigerGraph之前一些圖計算的工具計算能力很差。
雖然歐拉圖理論已經問世有兩百多年,也是最合適的存儲和計算互聯數據的模型,但現在仍然沒有企業中得到最廣泛的使用。一方面,圖數據庫是較為高級的研究方向,從高深的理論到真正商業化,大規模應用還是很有難度分不開;另一方面,關系數據庫一直以來都是最大的市場,這也是制約圖數據庫發展的另外一個原因。同樣的道理,雖然關系型數據庫時下正大行其道,但在剛開始的前十年,甲骨文的產品和市場都是經過了漫長的迭代。
許昱博士總結了圖數據庫和傳統關系型數據庫的三大區別。
一是存儲模型不一樣,關系型數據庫數學模型是表格,一個最簡單例子,一個人有一個身份證號、一個住址表、一個工資表、一個上學記錄表等存在幾個不同的表里,但是物理上、邏輯上都分開了,想知道這個人住在哪個地方,讀過哪所學校,要把表合起來,根據值一個個去拼才能找出來。而圖里,身份證號碼是唯一節點,學校也是唯一節點,馬上與全校學生聯系起來了。另外,圖數據庫的壓縮率是關系型數據庫的2倍至10倍,雖然儲存的變化不算太重要,但是計算、內存和對緩存的利用度就不一樣,存儲模型不一樣。
關系型數據庫是人為打亂成很多表,然后通過計算“拼湊”起來才能建立起關系來。它雖然叫關系型數據庫,但這個名字并不恰當,圖數據庫才是真正針對關系的一個數據庫。
第二,計算模型不一樣。在關系型數據庫的計算模型本質上是“野蠻”的掃描,如兩個表之間值的比較,是否同一個人、同一個產品、同一個城市,城市有多少人口以及公司在哪個城市注冊等。這種方式性能很差,因為要過濾很多無關的數據。圖就不一樣了,從一個人出發,幾步關聯,就能準確定位。
第三,查詢方式的不同。關系型數據庫的SQL語言比較簡單,不支持復雜關系的發掘和預測。TigerGraph采取類似于SQL但功能更強的GSQL語言,允許動態生成各種復雜的數據結構來存儲動態生成的證據,支持用戶的推薦和打分,這在人工智能、機器學習的時代更有價值。
其實,這些不同點恰恰也是TigerGraph新產品發布之前“沉寂”了五年多時間不為人知的原因,因為他們完全潛心在關系型數據庫領域外“另辟蹊徑”。
TigerGraph的優勢:“原生”與“并行”
近六年潛心研發與精心打磨的TigerGraph有哪些優勢?
TigerGraph的技術突破代表著圖數據庫演進的下一個里程碑——一個完整的、分布式的并行圖計算平臺,能夠支持網絡規模數據的實時分析。TigerGraph通用版本是服務于企業級應用、世界上第一個也是唯一的企業級原生并行圖數據庫以及圖數據庫云服務,一同發布的還有GraphStudio——TigerGraph的可視化軟件開發工具包。
TigerGraph是基于原生并行圖(NPG)技術的全球首個實時圖分析平臺,通過為具有復雜和海量數據的企業提供實時深度鏈接分析支持,TigerGraph實現了圖平臺的真正承諾和好處。
TigerGraph用C++從頭到尾做了一套基于對圖的存儲引擎,并開發了一個大規模并行的圖計算引擎,而且對圖進行了大量界面可視化工作,包括可視化的開發環境與探索、挖掘環境,成為業界唯一原生并行圖數據庫平臺,其核心之處就是“原生”和“并行”。
原生,是基于圖的理論、基于圖的存儲、基于圖的計算,從底層開始開發的一套系統,這是一條性能非常高,但開發周期比較長的一條路徑。不像用關系數據庫做存儲或者用文檔數據庫做存儲,在上面做一個圖的API,馬上就有圖數據庫了。
并行,就是多臺機器并行處理,時下數據量這么大,一臺服務器再強大也不能解決用戶一些計算問題。
TigerGraph三大技術優勢
圖數據庫從最近十年的表現來看已經成為關注度最高,也是發展趨勢最明顯的數據庫類型。那從市場上產品的比較看,TigerGraph有哪些技術優勢呢?
一是實時計算。查詢涉及到幾千萬到上億個節點和邊關聯(點是實體,邊是關系),眨眼間就把復雜的關聯結果推送出來,不論是做欺詐、分析、推薦還是實時的網絡計算,都可在1秒鐘以內實現,比傳統?法快多個數量級。
二是超大規模,每臺機器每?時可加載50到150GB數據,不再需要批量加載,在只有20臺商用計算機的集群上,能夠將20億以上的每日事件實時流式傳輸到具有超過1000億個頂點和超過6000億個邊的大數據圖譜。已成功在世界上最大的電子支付公司生產線上運行兩年多,支持數據庫的增刪改查,成為可以上線運行的數據庫。
三是深度關聯。公司現在有高級易用的開發語言;客戶完全不需要公司支持,借助TigerGraph網站上的技術文檔,下載軟件自己去寫GSQL,做圖模型、數據錄入和二次開發;從數據深度發掘看,可以每秒每機遍歷數億個頂點/邊,步數可達三步或更多。
五年來,TigerGraph在研發中其實踩過很多“坑”,實現了非常革命性的突破。許昱博士認為,公司做得最好的是兩點:一是基于分布式存儲系統,選擇了最優化的體系結構,解決了數據一致性的問題;二是選型用C++做底層控制一切的內存。盡管Java有很多優點,但是當時TigerGraph做出了這個艱難的決定。
這些技術上的突破對于在最?的數據上進?實時分析至關重。
這些數據應用包括世界上最大的電子商務提供商的欺詐預防、世界上最大的移動電子商務公司的實時推薦,和管理世界上最大的電力公司的能源傳輸網。
TigerGraph今年6月份在美國發布了兩個版本:一是終身免費的開發者版本(單機版),沒有數據限制、沒有時間限制;二是企業版本,是多機版,但有時間限制,比如幾個月。
廣泛的行業應用
TigerGraph是業界唯一的原生、并行圖計算的大平臺,特別適?于?圖——深度鏈接分析的最佳模型,這是因為它能夠探索、發現和預測關系。
在反欺詐和反洗錢方面,企業可以借助TigerGraph系統在企業數據全景圖上快速部署復雜有效的反欺詐和反洗錢業務,利?實時數據和實時深度鏈接分析應對?融犯罪。
原本許昱博士認為TigerGraph是反洗錢最天然、最好的應用,但去年11月份在美國發布以后的應用結果令人驚訝——雖然紐約有不少銀行應用于客戶的360度畫像、風控、合規等領域,但西雅圖到南加州,到佛羅里達,到美國的明尼蘇達不同的城市各行各業的客戶蜂擁而來——健康保險公司利用知識圖譜反欺詐、電信公司為流失用戶畫像、昂貴新藥上市后制藥公司通過查悉醫生的影響力進行精準推送……
此外,采用TigerGraph,可通過了解企業控制人的關系、企業之間的擔保關聯,銀行可最大限度地降低風險。例如,某些企業可能破產了,為其提供擔保的企業就可能陷入糾紛中。
專注為客戶創造價值,而非取代
圖數據庫最重要的能力是計算能力、關聯能力。許昱博士表示,TigerGraph生成很多高質量的新的訓練數據,然后交給機器系統去學習,可極大地減少誤報率,為各行各業提供做圖分析和知識圖譜的通用圖引擎,客戶可以很快建立針對自己企業的圖模型,將任何關聯方找出來。
TigerGraph有很多的優勢,但并不意味著要去顛覆傳統的數據庫。許昱博士認為,公司是在做復雜關聯、實時計算等別人以前根本做不了的事情,做新一代的應用程序,給客戶帶來價值,以解決他們數據量快速增長,或者更新成本太昂貴的難題,方便他們的應用程序移植到圖數據庫上。
目前,TigerGraph的解決方案已經被國內的大型金融機構、電力等不同行業的大量的客戶所采用。
在美國,圖數據庫是近年來所有數據庫里發展速度最快的。保守的估計,未來五年里將會有十倍的增長,圖數據庫市場發展潛力和空間很大。許昱博士十分看好TigerGraph的未來。
評論
查看更多