區塊鏈+大數據的背后是什么

互聯網時期，大數據的概念便被提出來。但在大部分人看來，大數據就如同“烏托邦”一樣，是渴望創新的人打造的假想國。當在這前面加上區塊鏈，這一切看來似乎就更虛無縹緲。

但實際上，大數據的產業價值已經影響到人們生活的方方面面。區塊鏈+大數據兩種看似牛馬不相及的技術，卻在解決數據分散、非對稱持有方面有著更多價值，可以更好實現互聯網信息的互聯互通。

隨著區塊鏈發展至今，這一結合到底是科技進步還是癡人說夢？關于區塊鏈+大數據背后的技術研究，大眾又知幾何？

OK區塊鏈聯合OKLink技術副總裁梁福坤，他從區塊鏈瀏覽器這一方向入手，闡述了區塊鏈和大數據的可結合之處以及區塊鏈技術與傳統互聯網技術的不同之處，希望能對讀者有所啟發。

目前來說，OKLink區塊鏈瀏覽器聚焦定位三大技術方向：區塊鏈、大數據和人工智能（AI方向），三者之間緊密協作，打造區塊鏈數據門戶的整體生態。

下面闡述三大技術在瀏覽器中的位置和作用，以及面臨的架構技術挑戰。

1. 區塊鏈技術

區塊鏈角色更多關注全節點作為數據源提供方，依賴區塊鏈技術的分布式、公開透明、可追溯、不可篡改等特征，同時結合數據分布式存儲、點對點傳輸、共識機制、加密算法等多種技術融合形成的區塊鏈創新應用模式。

在區塊鏈瀏覽器的整體架構中，區塊鏈作為數據源存在的挑戰與傳統大數據進行ETL（Extract-Transform-Load）比較。

多幣種主鏈數據組織差異大，在眾多主鏈數據持有能力上，需要思考如何在系統架構上提出能夠保證通用結構復用，又要兼顧多主鏈個性化靈活支持的需求。同時，理解區塊鏈全節點數據的業務特征、不同版本之間差異、分叉對不同高度的解析細節上在研發周期中占用較大比重。

以往大數據架構不需要太多的關注數據業務本身涵義，更多聚焦在數據流轉、計算、存儲，而區塊鏈則需要對業務了解放在首位，起點較高。

2. 大數據技術

在OKLink區塊鏈瀏覽器上，大數據聚焦在區塊鏈數據源解析之后，推送到Kafka消息隊列后續，對數據進行統計分析，實時計算和離線計算部分。

同時，在瀏覽器前端展示ToC提供線上檢索服務和對不同的數據應用放提供ToB（面向商業）的API訪問方式。

當然，區塊鏈瀏覽器中大數據的實踐和傳統互聯網大數據有著較為明顯區分特征，下面逐一說明：

A）數據中臺

區塊鏈大數據更加側重數據中臺的角色，而不是傳統的后臺提供數據分析、離線計算的位置。之所以在數據中臺委以重任，是需要更快、更為靈活的交付用戶數據。

所以查詢快是OKLink的一大亮點，要提供區塊鏈數據的快速交付，需要在數據解析到流轉、計算存儲、查詢4個方面整個鏈路做全方面的優化，整體協作來完成快速交付。

時效性在區塊鏈對ToB方面至關重要，ms級別的先機會對類似量化交易及時做出預判，類似傳統意義提到的時間就是金錢，唯快不破。

B）數據弱化分區特征

在互聯網等傳統大數據進行存儲，一般會對數據按照日期進行一級分區，對于數據進行分布式存儲和計算在MPP架構中應用非常嫻熟，數據可以根據使用情況做熱數據、溫數據、冷數據處理分層Cache、歸檔等處理。

而區塊鏈大數據存儲在業務層面需要時刻準備交付，即數據可以理解均為熱點數據，例如按照地址檢索交易記錄，即便較久交易也需要實時交付。

同時，時間維度在做區塊鏈的業務場景應用中不重要，反而區塊高度、交易Hash、地址等維度命中率在大部分場景下有較多應用。

在架構層面，滿足弱化分區特征，需要實現索引和數據的異構引擎配合存儲和計算，在服務層面需要做到數據一致性、檢索過程業務透明、新增索引項靈活配置、熱部署等工程方面挑戰。

C）流批處理

流批處理指的是區塊鏈計算指標需要結合歷史的統計信息和當前的實時數據做更新，例如地址的累計交易金額=歷史累計交易金額+當前交易金額。

前面提到如果大數據處于后臺角色，可以完全通過離線計算批處理的方式進行統計，這樣的方式即保證了準確性，又相對保險，但在時間上會有滯后。而作為數據中臺能快速準確交付用戶信息，這里需要歷史聚合數據和當前變更數據做實時計算。

這種場景最大的挑戰是數據指標的冷啟動+實時計算結合，并且一個指標從定義到交付更為靈活，就需要在架構設計上支持配置化的指標定義，而非Case by Case的定制開發。

OKLink實時計算平臺“閃電”中采用Flink作為流批數據計算的架構選型，支持靈活定義Source數據源、ETL數據上下游銜接和靈活定義Sink輸出。在存儲方面借助HBase存儲滿足實時更新和按照Key檢索，歷史聚合信息計算結果存儲在HBase，并且記錄歷史截止交易高度，閃電平臺敏銳察覺數據變更并且延續后續實時計算過程。

區塊鏈+大數據的背后是什么