背景
近年來,隨著寬帶接入技術、移動通信技術的發展,互聯網業務應用迅速擴張,其中移網和固網的網絡與業務發展更為迅猛。工信部印發的《上網日志留存規范》通知明確要求,全量數據的留存元素包括:NAT后用戶公網IP地址、NAT后源端口、用戶私網IP地址、WLAN上網帳號、用戶訪問URL、目的IP、目的端口、訪問時間等。根據相關的政策法規,中國移動河南分公司率先開始了日志溯源技術措施的建設,不僅實現了全網范圍內上網用戶的日志查詢、內容審計功能,同時滿足大量相關需求。
| 舊挑戰,新思路
在最初的日志建設中,方向是重存儲,輕分析。采用以Hadoop技術體系為主,整合MR+Hive SQL+HDFS+Flum的傳統架構方案進行支撐:
這一策略帶來了三個顯著問題:首先由于存儲的數據激增帶來數據有效利用率降低的問題,數據存儲的成本持續升高 ; 其次,因為計算能力和存儲緊密的耦合,系統無法靈活擴容存儲空間,集群架構的數據分析能力較弱,從而導致應用端無法實現多種數據融合分析,且多并發能力不足、查詢效率不高;最后,存儲訪問也存在較大瓶頸,無法支持海量數據按需擴展,產生的運維和建設成本難以滿足海量日志分析需求。
面臨多重挑戰,中國移動河南分公司明確了新建設思路:按照集中化的方式建設日志留存系統,在滿足相關政策和業務的前提下應考慮后期的系統擴展,將采集數據統一上報至省日志留存平臺,完成省日志數據的統一存儲、數據關聯分析、以及匯聚分發等功能,按需向各種應用提供各類數據服務。
新的思路對架構重構提出了更高的目標,希望實現以下四個能力:
1. 滿足數據量大,可采集匯總現網用戶網絡行為數據;
2. 實時性強,數據處理以批處理和準實時處理為主,數據可持續不斷的接入匯總 ;
3. 數據查詢處理以SQL查詢為主,多字段關聯查詢需求多,單表大;
同時面向多個應用系統或者數據需求方,具備高處理性能和資源隔離性。
| 高可用、高彈性、高擴展性的新一代HashData架構方案
為實現這一目標,HashData以對象存儲為基礎,計算集群和存儲集群分離,集群擴容業務不停,產品架構如下:
在確保計算單元與數據存儲有著明確的邏輯對應關系和集群I/O吞吐不下降的前提下,通過巧妙的緩存策略設計可以享受計算存儲分離帶來的好處,包括高可用性、多維度彈性、高擴展性等。
其中獨立元數據服務是完全創新性的云原生架構,元數據狀態從計算節點中消除,使得計算節點變得完全沒有狀態(新型的shared-everything MPP架構與傳統的shared-nothing架構對應) 。盡管每個計算節點都沒有狀態,但面臨需要增加節點數量時,仍可以訪問到系統中的任何數據與任何元數據。
新架構的主要策略是在滿足數據快速增長的情況下實現“存儲資源虛擬化,計算資源最大化”,對日志留存平臺的數據轉發和數據分析提供最大限度的支撐。
| 節省 40% 的集群規模,降本提效
HashData產品使用了自帶ETL工具代替Flume,對象存儲代替HDFS;計算包含Hadoop方案中的清洗+計算, 通過自定義函數UDF代替Hadoop方案中的清洗和計算,自帶有向無環圖的數據結構和算法以方便替換;同時標準SQL和自定義函數UDF代替MR,產品實現日志留存功能技術路徑如下:
綜上所述,在計算和存儲分離的產品架構中,獨立擴展的計算和存儲表現更加靈活,可顯著降低存儲成本。HashData整體實現了日志留存系統,在保證和原Hadoop體系存儲數據相同的情況下僅使用原集群規模的40%左右,應用開發周期縮短了50%,查詢性能提升了一個數量級,充分實現了降本提效的目的。
| 小結
HashData融合了MPP數據庫的高性能與豐富的分析功能、大數據平臺的擴展性和靈活性,以及云計算的彈性和敏捷性等優勢。在此項目的建設中為中國移動河南分公司構筑了新一代企業級云端數據倉庫,真正實現了降本提效,未來雙方將在共筑通信技術的數字化之路上繼續攜手前行!
責任編輯:lq
-
互聯網
+關注
關注
54文章
11170瀏覽量
103486 -
移動通信技術
+關注
關注
0文章
45瀏覽量
13534 -
數據分析
+關注
關注
2文章
1452瀏覽量
34077
發布評論請先 登錄
相關推薦
評論