隨著互聯網的逐漸深入,各家企業的業務線不斷拓寬,用戶體量也隨之不斷擴大,大數據逐漸進入到企業的視野。大數據時代對人類的數據駕馭能力提出了新的挑戰,也為人們獲得更為深刻、全面的洞察能力提供了前所未有的空間與潛力。
大數據雖然起源在美國,但是發展速度最迅猛的的確還是在中國。因為中國有著得天獨厚的條件,就是廣大的互聯網用戶群體,這些大量的用戶資源給中國企業制造了天然的、獨一無二大數據環境。
提起數據量,國內除了互聯網那幾家巨頭,應該就屬金融領域的數據量最大、數據價值最高。作為國內大數據范疇內最具代表性的行業之一,金融業無論是從用戶體量還是日成交量上看,都位居國內前列。中國銀聯作為國內金融領域的代表性企業,其背后的大數據技術實力,在一定程度上也能反應當下國內各家金融企業的大數據技術水平。今天,我們就以銀聯為例,看一下銀聯這些年來大數據技術的變革以及優化。
那么關于大數據,究竟什么是大數據,這么些年喊了這么多的大數據轉型的口號,究竟在大數據領域內做了什么?帶著這些問題,InfoQ 記者采訪到了在 Kylin Data Summit 上做技術分享的中國銀聯科技事業部高級主管王穎卓。
1 銀聯大數據的歷程 2003-2007-2012,從報表到數倉,銀聯大數據轉型伊始
中國銀聯科技事業部高級主管王穎卓提到,金融界對于數據的認識和使用,一直都是非常重視的。在大數據時代,如何利用工具更好地處理數據,怎樣把數據更好的應用在業務上,如何將數據變現等,是當下眾多企業必須要思考的一個問題。
在 2003 年到 2007 年之間,銀聯的的數據一直是由需求驅動,業務部門有一個需求就做一張數據報表,特點是數據分散、按需定制、開發周期長。
2007 年左右,中國銀聯開始進入到數據倉庫年代。相較于報表,數據倉庫對于用戶體驗來說是一個巨大的革新,基本上體現在數據發展以業務為驅動,主要有結構化數據集中存儲、勾兌整合、服務業務等特點。也就是說,數據倉庫還原了數據的本質,以數據本身的特性來處理數據。在建立數據倉庫的過程中,更重要的是將以 Cognos 為核心的多維數據分析理念引入進來,從而達到讓用戶能夠自主進行數據分析的目的。
目前,銀聯的大數據架構主要分為三條技術線,分別為基礎數據、數據應用以及數據模型。首先制作報表的工作需要基礎數據和數據應用兩者協同完成,數據的清洗、加工、預匯總等過程由基礎數據完成,報表的定制、查看、下載等功能由數據應用完成。
2012 至今,向成熟的大數據體系進發,用數據驅動業務
2012 年,大數據技術逐漸進入到國內,并開始在技術圈內流行起來。同樣的問題又被擺在了舞臺之上,到底什么叫大數據?大數據跟報表的關系是什么?跟數據倉庫的關系又是什么?是不是數據大了才叫大數據?Hadoop 與大數據之間的強關聯,是否代表著 Hadoop 就等同于大數據?
王穎卓首先提到,在數倉向大數據平臺轉型時,沒有考慮過 Hadoop 以外的框架。一方面銀聯從數倉向大數據轉型是在 2012 年,業界已經進入大數據時代,幾乎沒有可以撼動 Hadoop 地位的大數據框架存在,同時代基于 MPP 架構的數據倉庫框架,如 GreenPlum 等,難以支撐 PB 級以上的數據規模;另一方面,銀聯研究院已搭建 Hadoop 平臺并開發了一些試驗性的應用,取得了較好的效果。因此,我們選擇 Hadoop 作為數倉的替代者。
同時王穎卓從銀聯的角度出發,解釋了他對于大數據的理解。他認為在整個大數據年代,有兩個理念非常重要:
數據存儲層。應該怎樣存放數據?銀聯做的首件事是在數據集中的基礎上,做到了數據融合——把整個企業級的數據做了有機融合?,F階段,銀聯大數據平臺里存在的最大體量的基礎表已經有 1000 多個維度?;谶@張基礎表,再從業務視角對數據進行高度匯總,最終給業務人員提供數據服務。因此,從數據存儲和加工方面,有別于過去的報表和數據倉庫。
數據應用層。報表系統的目的是滿足用戶需求,只有當用戶有需求時才會做報表。在數據倉庫時代,更多的是幫用戶設計 Cube 和提供多維分析的服務;而用戶在這一階段初步掌握了數據分析的能力。在大數據年代,伴隨著平臺化和開放化理念的影響,用戶開始在銀聯的大數據平臺上利用各種有效的工具、組織多元的數據來滿足自己的業務場景,在這個階段,用戶開始熟悉并習慣使用工具來做數據分析。
2 銀聯在轉型大數據的過程中,遇到了怎樣的問題?
在不同的場景里,大數據所造成的問題也不一樣。通常情況下,分為在線處理、離線處理以及數據服務系統這三大類問題。
在線處理所遇到的問題
中國銀聯這幾年的交易量在逐年猛增,一年的交易記錄數突破了千億。問題就出在這千億數據里面。現在的用戶對于實時性的要求越來越高,要求能夠實時查詢訂單信息、實時進行線上的交易和退單等操作,這對交易數據庫來講毫無疑問是一個災難。HBase 支持高并發寫入及查詢的特性,在一定程度上緩解了這個問題。
但是在使用過程中,HBase 不可避免的也會出現很多問題。第一點是便利性較差,HBase 基于 KV 模型和 Java API 進行讀寫,用戶往往需要自行設計二級索引表和讀寫接口。
第二點是性能上的抖動,HBase 性能確實很好,但是在實際生產過程中往往存在著在查詢過程中出現性能抖動,如 73% 的查詢在 10ms 返回, 27% 的查詢在 10-100ms 內返回,這就給實時的場景帶來風險;其次 HBase 集群的穩定性存在問題,其中一個 Server 服務宕了,往往導致整個集群的響應出現巨大波動。
這些在實時場景中,都是無法容忍的問題。
離線分析場景問題
說完了在線實時處理,再回到離線分析場景下。在金融領域,應用最廣的還是 Cognos。中國銀聯也算是資歷較深的 Cognos 用戶。
但是在用戶與數據體量飛漲的現在,Cognos 也存在著諸多問題。比如規模以及可擴展性的問題,Cognos 的單 Cube 文件,大小限制在 2GB 以內。隨著現在業務飛速增長,數據量是 PB 級別的增長。Cube 的體積越來越大,Cube 的數量也越來越多,上千個 Cube 如何管理也是一個問題。
其次是 Cube 構建生成的時間越來越長,用戶能看到最新數據的時間越來越晚。其實銀聯的 Cognos 已經做的很不錯了,目前支撐著近 3000+ 人次使用,保持著日 Cube 1000+ 張報表以及月 Cube 5000+ 張報表的效率。
但是 Cognos 作為一個閉源產品,其自然也有閉源產品的弱點,出現了一些產品級的問題,自主排查問題的能力較弱;用戶有一些個性化的需求,針對產品做二次的個性化定制開發的空間較小。
數據服務系統問題
隨著銀聯業務體量的增大,業務線的拓寬,產品種類和服務類型也隨之豐富起來。但是與此同時,每一條產品線、每一條業務線,其中的數據甚至服務孤島現象越來越嚴重。由于各條產品線之間數據不通,形成了一個個“孤島”和“煙囪”。此外,不同的服務采用的數據口徑不同,數據質量沒有形成統一標準;還有就是用戶需要登錄不同的網頁使用不同的服務,用戶體驗較差。
3 銀聯大數據實時分析的探索與實踐
數據安全是金融企業的命門,金融企業有必要也要有實力來構建這樣屬于自己的數據服務生態系統。
上文說到了問題,那就要解決問題。首先要解決的是,如何環節 HBase 在聯機實時的業務場景下開發的便利性以及性能抖動問題。金融行業有錢是公認的,銀聯在整個系統穩定、安全方面等金融科技層面的投入相當大,就比如銀聯通過在大數據服務層次上,建立兩地三中心的 HBase 集群,來緩解 HBase 集群不穩定的問題。
在服務層,通過聯機雙查方式,基本上有效解決和避免了因為某一個集群性能,從而帶來整個查詢效率的下降。其原理十分簡單,即一個查詢被客戶端強行分為兩個,分別訪問后臺兩個不同的 HBase 集群,然后再經由 HBase 集群返回,誰速度快用誰的。
第二點,關于銀聯離線計算服務的整體架構,架構如下圖所示。
為什么要做銀聯的數據平臺分析架構?從金融行業的角度來看,"自主可控"是金融領域對于技術的一個硬性指標,畢竟數據安全是金融企業的命門。因此,金融企業有必要也要有實力來構建這樣一個數據服務生態系統。
從整個外圍來看,藍色的這一圈是由銀聯自主開發的功能性產品,如控制服務、監控、接入層等。中間三個核心模塊屬于驅動層面。透過 Tornado 可以支持用戶級別的數據加工服務,透過 Lightning 可以實現 HBase 的實時數據查詢。中間最關鍵多維分析服務,則使用了 Kylin 的商用產品 Kyligence。
在 Kylin Data Summit 上,Gartner 研究總監 Julian Sun 也提到了,未來的關鍵不是開源,而是商業化。這并非否定開源的重要性,開源對于技術的發展起到了至關重要的作用。前一段時間大家也看過,市面上有一些所謂的開源軟件已經開始收費了。比如免費了 20 多年的 Java 開始收費了,Hadoop、MongoDB 等開源項目也有存在了很長時間的商用版本。商用版本相較于社區的開源版,更加符合企業的需求,降低了企業的使用門檻。
仍然以 Hadoop 為例,Hadoop 的技術偏底層,需要十分專業的技術基礎,因此雖然是很好的技術,但使用門檻過高,前期使用成本過大,缺乏應用創新以及模式創新。并且在社區中,技術的發展方向往往是分散的,是根據社區內的每一名成員的思考在前進,不能聚焦于一個領域下、專攻某一方面。
再回到 Kyligence 與 Kylin 上來,Kyligence 相較于開源版 Kylin,商業版在查詢系統設計、元數據設計、BI 兼容性、企業運維等方面都有明顯的優勢。并且基于 Kyligence 構建 Cube,5 億的數據在短短 2 個小時之內就能構建好,相較于過去銀聯舊版的以“數據倉庫 ETL + Cognos“體系為核心的多維分析應用,可以說是一個巨大的飛躍。
4 尾 聲
最后,再回到最開始的問題,什么是大數據?經常有人問,很多公司喊大數據轉型喊了好多年,究竟做了什么?王穎卓最后提到:大數據的目的無非是提升服務性能,因此即便將整個 BI 體系更換掉,將全部的 Cognos 拿掉,用戶在使用體驗上也會完全無感,能感受到的只是性能以及效率的提升。從銀聯的角度看,用戶每天早上打開電腦就能看到最新的數據,這就是做大數據實時分析平臺的目的。
隨著數據規模的持續增大,傳統的報表以及數據倉庫技術已經很難滿足業務的需求和查詢需要。因此,銀聯也在大數據的架構和技術領域不斷的探索和創新,包括引入 Kyligence,以及開發自己全新的 BI 服務體系。所做的一切,最終的目的都是為了能夠讓數據更好的服務業務、更好的驅動業務前進。通過技術上的創新,提升業務人員使用數據、通過數據來創造價值的能力。
數據是不斷變化的,數據所產生的價值是不斷變化的,技術也是不斷變化的。Hadoop 自 2006 年發展至今,在大數據領域一路高歌猛進。但是到了今天,大數據分析技術不會因為 Hadoop 面臨的挑戰,而放緩前進的腳步。我們在這次 Kylin Data Summit 上看到,以 Kyligence 為代表的大數據企業, 其產品架構在不斷演進,迎合快速變化的大數據技術趨勢,從原先的 Hadoop 依賴到全 Spark 技術棧,為的就是幫助企業快速應用,迎接未來挑戰。
中國銀聯的大數據技術也是一樣,也在不斷通過自身技術上的創新,擁抱數據,讓數據產生更多價值,讓中國銀聯的大數據發展,依然走在正確的路上。
-
數據分析
+關注
關注
2文章
1452瀏覽量
34078 -
大數據
+關注
關注
64文章
8897瀏覽量
137538
原文標題:中國銀聯大數據發展史
文章出處:【微信號:infoqchina,微信公眾號:InfoQ】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論