企業、數據分析公司、數據科學家......我們都在努力尋找新的方法來探索數據的連接和關系,看看它們如何讓世界聯系更加緊密從而變得更加美好。這可能是為電子商務網站尋找更好的產品推薦,或者是幫助銀行在欺詐行為發生之前尋找可疑的指標,或者是為制造企業尋找提高供應鏈效率的方法。
任何業務流程最重要的方面是理解任何一個行動或資產的關系,因為它們在該流程中相互關聯。
借助圖分析,我們認識到,所有的數據都代表了現實世界中的某些東西,而現實世界中的幾乎所有東西都以某種方式聯系在一起。數據中的這些關系可以告訴我們很多東西。它們可以告訴我們,幫助我們找到新的模式和相似性(像我們這樣的人--基于人口統計學、生活方式等),告訴我們個人如何相互聯系,形成類似興趣的群體。
它可以應用于社交媒體,用模式和關系來豐富客戶的觀點,或者遠遠超出商業社會分析的范圍,在其他無害的通信中檢測出可能預示著即將發生的攻擊、市場危機或社會動亂的模式。它們可以揭示出我們在特定情況下可能會購買什么產品?;蛘咚鼈兛梢灶A測組織或基礎設施的一個部分的變化會如何影響其他部分。
# 什么是圖數據庫
圖可以用來分析各種系統中的各種關系--甚至超越流程或超越個別操作模型的限制。大多數常見的業務問題需要了解行為者或對象之間的關系。圖數據庫和圖分析就是出于這種理解數據關系的需要而產生的。圖數據庫是數據片斷之間的關系被預先連接起來的唯一數據模型。圖分析提供了一種分析這些關系的簡單方法,使用不需要編程專家建立或維護的類似SQL的查詢,揭示了更多關于人、產品、賬戶和地點等實體的信息。
根據Gartner分析師Afraz Jaffri在2022年Graph+AI全球峰會上的說法,"到2025年,上下文情境驅動的分析和人工智能模型將取代60%建立在傳統數據上的現有模型。" 這只是表明圖技術將繼續在日常業務運營中變得更加核心的許多跡象之一。
# 你每天都在應用圖
你可能沒有意識到這一點,那就是你每天都在應用圖技術,但這是真的。每次搜索時,您都在使用搜索引擎的知識圖譜。像谷歌這樣的企業也在不斷改進它為用戶搜索返回結果的方式,但有一件事是可以確定的。每個搜索都使用被稱為 PageRank 的圖算法進行排名。
考慮一下您每次登錄 LinkedIn 時會發生什么。當您搜索和查看您的專業聯系人時,您會看到推薦的聯系人以及與您有直接或間接聯系的人的活動。這些關系顯示為 1 度、2 度和 3 度連接。這是在 LinkedIn 的 Professional Network Graph 上進行圖數據庫搜索的結果,表明從您到正在審查的聯系人的跳數。每次看到有二度聯系人的普通人脈或普通群,或者 LinkedIn 推薦你與專業聯系人聯系時,你都在查詢 LinkedIn 的專業網絡圖譜。
對了,不要忘記您每次在零售和電子商務網站上的購物體驗。每次您使用淘寶、京東、亞馬遜等在線商店時,您現在可能希望這些服務能夠提供產品推薦。它們由諸如“購買此商品的人也購買了類似產品”或“這些商品經常一起被購買”之類的建議來代表。這些都來自圖分析查詢!
而關系型或 NoSQL 數據庫等傳統技術無法存儲和分析關系數據以使這些功能成為現實。只有圖數據庫可以。
# 使用關系型數據庫或NoSQL數據庫的挑戰
關系型數據庫將業務事實存儲在單獨的數據庫表中。為了揭示、分析和理解這些表之間的關系,包括客戶詳細信息、訂單信息以及產品和付款數據等信息,您需要在此設置中執行表連接。這個過程可能需要數周時間,甚至需要大量的 SQL 編程來構建查詢。
NoSQL 數據庫旨在通過將所有數據存儲在單個表中以進行快速檢索來解決此問題,而不是為分析而設計。
圖數據庫專門用于存儲和分析數據之間的關系,因為數據實體和它們之間的關系是預先連接的。這消除了對大表執行耗時的表連接和多次掃描的需要。利用關系和上下文的力量,圖技術為預測模型帶來了更高的準確性、穩健性和多功能性,并將圖分析、基于圖的特征和圖機器學習納入其工作流程,以開發新的人工智能應用程序。
考慮到這些明顯的優勢,您可能會問自己,“為什么企業沒有更快地采用圖數據庫?”這是一個很好的問題,借此我們需要了解一下圖技術發展背后的歷史。
# 圖數據庫在企業層面的應用
第一代圖數據庫是用原生圖存儲建立的。比較有代表性的就是Neo4j,它們提供了圖數據庫的一些基礎功能,但是它們采用的是單服務器、單線程的架構,因此速度和可擴展性受到限制。
它們非常適合加載和可視化中小型的數據集,但無法處理上百GB到TB級的大型數據集,比如復雜的查詢和實時的數據更新,因此無法在圖內執行超過三跳或以上的連接。
作為一個學術概念的證明,它們在可視化業務實體之間的關系方面非常出色。對于現實世界的企業生產需求來說,最初的規模根本不存在。這些早期的迭代是建立在Java上的,主要是為研究和開發而設計的,而不是為處理大規模的生產用例的嚴格要求。
第二代圖數據庫是建立在NoSQL存儲之上的,解決了擴展性的問題。它們是基于Key-value或列式數據庫,比如Apache Cassandra,解決了數據加載的問題。所以,基于第二代圖數據庫,你可以把TB級的數據加載到圖中。但是,由于它們不是原生圖存儲,所以在做多跳查詢深度鏈接時,性能表現并不是很好,因此它們仍然無法擴展涉及三個或更多連接或跳躍的查詢。
而且,由于是使用的NoSQL技術,這不是為了做實時更新的技術,所以在用戶產生了新的交易、新的購買行為時,很難在圖上實時地做數據更新。這也就限制了它們進行深度或復雜分析的能力。
現代圖平臺使用C++,是為企業使用而設計的。更現代的方法允許擴展計算能力、突變性(意味著它們支持系統更新)、數據流和批處理,同時在圖數據庫中進行快速計算,而不是在圖數據庫之外將結果拉入數據庫供用戶訪問。
第二代圖數據庫通常也不支持數據庫分片。這使得擁有TB級數據的組織無法將數據分布到多個服務器上,從而使每個服務器都有幾百G的數據。
第一代和第二代圖數據庫進一步證明了它們的局限性:
不能擴展到多臺機器上存儲大數據(數據庫分片)和并行查詢處理
不能支持下一代欺詐檢測、推薦引擎、機器學習和人工智能用例所需的深度鏈接分析(超過三跳)。
無法滿足大數據更新和亞秒級查詢性能的實時要求。
# 第三代圖數據庫
而也正是前幾代圖數據庫的缺點和圖數據庫的應用趨勢促進了下一代圖數據庫和分析技術的發展。TigerGraph開發了第三代圖數據庫,來解決第一代和第二代中的這些不足,它又回到了原生圖存儲,我們通過分布式部署、并行計算,不僅針對數據存儲做了優化,解決了擴展性的問題,而且加快了數據加載、數據查詢、事務處理等各個方面的速度。TigerGraph可專門用于在數小時內加載TB級的數據,并實時分析多達10跳或更多跳的關系。
第三代圖數據庫是第一個可以支持HTAP的圖數據庫,HTAP可以同時支持OLTP事務處理和OLAP數據分析,TigerGraph是第一個支持HTAP的圖數據庫,它可以使用圖數據庫中的同一個實例和schema,支持事務處理和分析處理,符合ACID標準,并可通過數據庫分片擴大和延伸。TigerGraph的開放式查詢語言GSQL,使我們能夠支持修改和可解釋的人工智能,提供一個可應用于多種用例和連接數據的人工智能應用的平臺。
這里我們總結一下TigerGraph作為第三代原生并行圖數據庫的六大優勢:
NO.1 可擴展性
TigerGraph可以將大量數據快速加載到數據庫中進行分析,使每臺機器每小時可以加載約100GB的數據,并且可以通過幾臺機器并行加載,從而快速地將TB級的數據導入數據庫。同時,TigerGraph可以存儲數十億個實體,數千億個關系,并能通過增加硬件,擴展集群,達到萬億甚至更多。
NO.2 事務性圖(可變的圖)
系統中每秒可能會產生數百上千筆交易,比如新的客戶注冊、物料采購支付等,TigerGraph可以支持您的業務7X24小時運行,實時地進行數據更新。為了對您最新的業務進行分析,需要一個可變的圖數據庫,這意味著您可以像閱讀圖一樣,輕松地對其進行更新。第一代圖數據庫,無法作為客戶日常業務處理的數據庫,客戶一般也不會這樣應用。第二代圖數據庫,可以通過NoSQL的方式存儲大量數據,但是它們不可變,這意味著它們無法支持事務更新,無法在響應查詢的同時吸收新數據。而TigerGraph可以用于生產環境,每天進行數十億筆交易。
NO.3 實時性能
該功能可以對查詢提供亞秒級的響應,這對于上千萬級別的實體和關系來說,可能會非常困難。第一代和第二代圖數據庫技術的查詢,通常會花費很長時間,或者超時,尤其是當數據量增長時,整個圖涉及大量的實體和關系。而TigerGraph已在多個客戶的生產環境中驗證,具有亞秒級的響應時間,可用于金融服務、電子商務和醫療保健等多個行業客戶的復雜查詢。
NO.4 深度鏈接多跳分析
當我們進行深層鏈接分析時,遍歷整個圖進行3到10跳以上的計算和分析,可以發現一些原本不明顯的關系,這可以用在反欺詐、反洗錢、電商推薦等多個領域,而這些分析超出了通常的分析范圍。第二代圖數據庫技術支持大型的圖上進行2到3跳,然而當進行3跳以上的計算時,由于這些系統的架構限制,深度鏈接查詢將耗盡內存,或者超時返回。而TigerGraph適用于跨越數千億個實體的大型圖的深層鏈接分析,用來檢測欺詐者,并識別可能涉及洗錢的復雜支付及交易。
NO.5 查詢語言GSQL
TigerGraph的查詢語言GSQL非常容易學習,并且很容易開發復雜的圖查詢。GSQL不僅包括查詢,還包括數據分析和數據加載,它們自動創建restful頂點,并以JSON或CSV格式傳輸數據,這使得和其它系統集成變得非常容易。GSQL可以用于開發數據導出,將圖查詢與其它系統共享,例如BI系統,還可以給機器學習工具提供新的訓練數據。
NO.6 敏感數據的權限需求
最后,我們要談到一個重要方面——敏感數據的權限需求。TigerGraph有完善的數據加密和權限機制,來保護敏感數據,以使具有適當權限的用戶部門或組織,可以查看或更新敏感數據,而其它沒有權限的用戶部門或組織,沒有辦法查看或更新這些敏感數據。
# 第三代圖數據庫的幾個主要特點
TigerGraph是世界上第一個原生并行計算和分布式的圖數據庫;
產品架構是為實現互操作性而設計的;
擁有用戶可擴展的圖算法庫;
提供多圖服務;
TigerGraph具有自己的查詢語言GSQL,圖靈完備,且類似SQL,易于學習,并始終確保100%兼容即將出臺的行業標準語言GQL;
擁有完整的GraphStudio可視化軟件開發套件,用于端到端圖的設計、部署、探索;
可以用于機器學習,進行一些深度圖特征的實時計算,給機器學習提供特征補充。
審核編輯:劉清
-
服務器
+關注
關注
12文章
9123瀏覽量
85329 -
JAVA
+關注
關注
19文章
2966瀏覽量
104702 -
SQL
+關注
關注
1文章
762瀏覽量
44117 -
數據庫
+關注
關注
7文章
3794瀏覽量
64362
原文標題:Vol.30 還有人不知道圖技術嗎?那就來了解一下
文章出處:【微信號:TigerGraph,微信公眾號:TigerGraph】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論