近日,OSCHINA 和 Gitee 聯(lián)合發(fā)布了《2022 中國開源開發(fā)者報告》。
其中“前沿開源技術(shù)領(lǐng)域解讀” 部分,多位在其領(lǐng)域有所建樹的一線開發(fā)者和開源商業(yè)化公司創(chuàng)始人,對目前國內(nèi)外流行的前沿開源技術(shù)領(lǐng)域過去的發(fā)展和未來的趨勢進行了深入的洞察,覆蓋開源云原生、開源 AI、開源大前端、開源大數(shù)據(jù)、開源 DevOps、RISC-V、開源操作系統(tǒng)、開源數(shù)據(jù)庫、編程語言九大領(lǐng)域。
本篇為開源大數(shù)據(jù)領(lǐng)域的解讀。
近幾年,數(shù)據(jù)技術(shù)快速發(fā)展,技術(shù)棧逐漸成熟,從新一代數(shù)據(jù)源體系到數(shù)據(jù)處理體系,再到數(shù)據(jù)分析、AI 算法體系,數(shù)據(jù)技術(shù)逐步相互融合、相互支持形成有機整體。OLAP、數(shù)據(jù)湖、數(shù)據(jù)集成、DataOps、MLOps 等領(lǐng)域變得更加火熱。未來,大數(shù)據(jù)技術(shù)會沿著異構(gòu)計算、批流融合、云化、兼容AI、內(nèi)存計算等方向持續(xù)更迭。
新一代數(shù)據(jù)棧將逐步替代國內(nèi)單一“數(shù)據(jù)中臺”
2021 年,美國硅谷最火爆的詞匯就是現(xiàn)代數(shù)據(jù)棧(Modern Data Stack,簡稱 MDS),它們是以云原生、開源為背景的一系列全新數(shù)據(jù)技術(shù)引擎。相對于傳統(tǒng)的閉源、私有化的數(shù)據(jù)技術(shù)來講,現(xiàn)代數(shù)據(jù)棧憑借其開放性及公有云的 SaaS 服務(wù)快速得到了大量企業(yè)用戶的認(rèn)可。
現(xiàn)代數(shù)據(jù)棧分為若干層次,每個層次相互支持,相互協(xié)助,形成一個有機的整體。企業(yè)使用的時候,很容易就能利用 SaaS 模式將其整合到一起解決企業(yè)數(shù)據(jù)問題。而開源模式,又給 MDS 生態(tài)加入了新的活力,快速發(fā)展社區(qū)的同時讓上下游快速出現(xiàn)新的合作。
近幾年,國內(nèi)出現(xiàn)了大量的開源數(shù)據(jù)技術(shù)。2022 年,這些技術(shù)形成了具有上下游的有機集合體,從新一代數(shù)據(jù)源體系到數(shù)據(jù)處理體系,再到數(shù)據(jù)分析、AI 算法體系,逐步相互融合、相互支持形成有機整體。可以看到,國內(nèi)新一代的數(shù)據(jù)棧在支持云原生技術(shù)基礎(chǔ)上,還支持私有云/公有云部署,用新一代的計算引擎、算法、調(diào)度、同步機制來支持新一代的數(shù)據(jù)基礎(chǔ)建設(shè)。
這些新一代技術(shù)棧的流行和商業(yè)工具生態(tài)的整合,將逐步替代國內(nèi)單一“數(shù)據(jù)中臺”服務(wù)四五個領(lǐng)域的局面。這變得跟美國類似——若干家各自領(lǐng)域的專業(yè)企業(yè)相互集成,最終給用戶提供高效且靈活的專業(yè)解決方案。
同時,我也高興看到,這些開源現(xiàn)代數(shù)據(jù)棧中很多的商業(yè)公司,正在美國、歐洲快速建立社區(qū)、SaaS 和相關(guān)的商業(yè)服務(wù),也有一些公司已經(jīng)和全球的開源現(xiàn)代技術(shù)棧公司進行競爭。整體上,來自國內(nèi)的新一代的開源現(xiàn)代數(shù)據(jù)棧(Open-source MDS)現(xiàn)在剛剛興起。我相信,國內(nèi)具有大量優(yōu)秀的開發(fā)者、豐富的場景和大量的數(shù)據(jù)基礎(chǔ),一定會有若干家卓越的開源商業(yè)公司出現(xiàn),最終在全球開源現(xiàn)代數(shù)據(jù)棧中有一席之地!
郭煒
Apache 基金會成員,Apache 孵化器導(dǎo)師,ClickHouse 華人社區(qū)創(chuàng)始人, Apache Dolphin Scheduler PMC,Apache SeaTunnel(incubating) 導(dǎo)師。郭煒先生畢業(yè)于北京大學(xué),曾任易觀 CTO,聯(lián)想研究院大數(shù)據(jù)總監(jiān),萬達(dá)電商數(shù)據(jù)部總經(jīng)理,先后在中金、IBM、Teradata 任大數(shù)據(jù)方重要職位,對大數(shù)據(jù)前沿研究做出卓越貢獻(xiàn)。同時郭先生參與多個技術(shù)社區(qū)工作,Presto、 Alluxio、Hbase 等,是國內(nèi)開源社區(qū)領(lǐng)軍人物。
數(shù)據(jù)湖與 LakeHouse 依然炙手可熱
2022 年,數(shù)據(jù)湖與 LakeHouse 依然是炙手可熱的話題。一方面,在 Apache Iceberg、Apache Hudi、Delta 等知名開源項目的帶動下,國內(nèi)的一些基礎(chǔ)軟件公司也開始在數(shù)據(jù)湖開源領(lǐng)域積極布局,代表有網(wǎng)易數(shù)帆開源的湖倉管理系統(tǒng) Arctic,阿里云開源的流式數(shù)倉 Flink Tablestore;另一方面,一些傳統(tǒng)架構(gòu)的開源數(shù)倉軟件,以及閉源的數(shù)據(jù)分析引擎,也開始積極擁抱開放的數(shù)據(jù)湖格式,標(biāo)志性事件如 Snowfake 可以對接 Delta 和 Iceberg,Doris 系的開源數(shù)倉可以查詢 Iceberg 數(shù)據(jù)。
在眾多開源項目與頭部企業(yè)的帶動下,行業(yè)和市場相比去年對 LakeHouse 的價值認(rèn)知有了長足進步。
目前,用戶切入 LakeHouse 主要有兩點:一是數(shù)據(jù)湖上云,公有云的對象存儲與私有化的 Hadoop 在一些功能上有較大不同,比如 list 和 rename 接口的性能缺陷,導(dǎo)致用戶在把圍繞 Hadoop 構(gòu)建的數(shù)倉體系遷往云端時需要應(yīng)對各種問題,而以 Iceberg 為代表的新型表格式在使用上天然不依賴這些接口,并且提供了 ACID、模式演進等高階特性,為用戶提供了更好的上云方案;二是數(shù)據(jù)處理的流批一體,新型數(shù)據(jù)湖格式的快照機制對流更加友好,可以將數(shù)據(jù)湖拓展到更多流計算場景,甚至演進到流式湖倉的場景,實現(xiàn)實時數(shù)倉和離線數(shù)倉在湖倉上的統(tǒng)一。
但需要承認(rèn)的是,LakeHouse 這項技術(shù)還沒有瓜熟蒂落,尤其在流批一體方面,依然有很多想象空間。在 Gartner 技術(shù)成熟度曲線中,LakeHouse 處于期望膨脹期的臨界點,距離主流市場采納還需要 2-5 年的時間。得益于數(shù)據(jù)湖天然的體量和成本優(yōu)勢,可以預(yù)見當(dāng) LakeHouse 成為標(biāo)準(zhǔn)技術(shù)方案時,它將給企業(yè)的數(shù)字化轉(zhuǎn)型帶來極具意義的變革。
馬進
網(wǎng)易數(shù)帆大數(shù)據(jù)實時計算技術(shù)專家、湖倉一體項目負(fù)責(zé)人,負(fù)責(zé)網(wǎng)易集團分布式數(shù)據(jù)庫、數(shù)據(jù)傳輸平臺、實時計算平臺、實時數(shù)據(jù)湖等項目,長期從事中間件、大數(shù)據(jù)基礎(chǔ)設(shè)施方面的研究和實踐,目前帶領(lǐng)團隊聚焦于流批一體、湖倉一體的平臺方案和技術(shù)演進,及流式湖倉服務(wù) Arctic 項目開源。
數(shù)據(jù)技術(shù)快速更迭, DataOps 應(yīng)運而生
今年的大數(shù)據(jù)發(fā)展如火如荼,OLAP、數(shù)據(jù)湖、數(shù)據(jù)集成、DataOps、MLOps 等領(lǐng)域非常火熱,企業(yè)數(shù)字化、數(shù)智化發(fā)展十分蓬勃,開源原生公司發(fā)展迅速,數(shù)據(jù)湖三劍客 Apache Iceberg、Apache Hudi 加上 DataBricks 主導(dǎo)的 Delta Lake 都已經(jīng)有商業(yè)化公司的助力。數(shù)據(jù)領(lǐng)域的估值愈發(fā)突起,比如 DBT Labs 估值已經(jīng)達(dá)到 40 多億美金,Airbyte 估值已經(jīng) 15 億美金。國內(nèi)以天謀科技、思斐、SelectDB、白鯨開源為代表的大數(shù)據(jù)開源原生公司開始展露頭角。
數(shù)據(jù)技術(shù)正在快速迭代,且迭代速度比以往任何時候都更快,每年新誕生的技術(shù)多達(dá)幾十種,在此的背景下,DataOps 應(yīng)運而生。DataOps 圍繞云原生、敏捷智能化、多云能力等方向重構(gòu)現(xiàn)代數(shù)據(jù)技術(shù)棧,涵蓋了現(xiàn)代數(shù)據(jù)處理的整個生命周期,包括數(shù)據(jù)采集、數(shù)據(jù)加工(ELT/ETL)、數(shù)據(jù)集成、數(shù)據(jù)安全、數(shù)據(jù)治理等多個方面,利用 DataOps 可以高效打造現(xiàn)代數(shù)據(jù)智能高速公路。
根據(jù) Gartner 的總結(jié),我們來看一下 DataOps 在數(shù)據(jù)運營體系關(guān)鍵要素中的作用:
(1)流程控制:在 DataOps 中,自動化測試和統(tǒng)計流程控制在數(shù)據(jù)管道的每一步運行,過濾和消除數(shù)據(jù)錯誤,這些數(shù)據(jù)錯誤會破壞分析,并產(chǎn)生大量計劃外工作影響生產(chǎn)效率。
(2)變更管理:DataOps 關(guān)注的是跟蹤、更新、同步、集成和維護驅(qū)動數(shù)據(jù)分析管道的代碼、文件和功能組件。
(3)并行開發(fā):DataOps 組織并劃分?jǐn)?shù)據(jù)開發(fā)各個階段,以便團隊成員可以高效地協(xié)同工作,而不會發(fā)生資源沖突。
(4)虛擬化技術(shù)環(huán)境:DataOps 會虛擬化技術(shù)環(huán)境,以便將開發(fā)與生產(chǎn)隔離。虛擬化可以讓業(yè)務(wù)創(chuàng)新更輕松地通過開發(fā)流程,并快速流向生產(chǎn)環(huán)境。當(dāng)需要時,數(shù)據(jù)分析師可以快速啟動一個開發(fā)環(huán)境,其中包括所需的工具、安全訪問、數(shù)據(jù)、代碼。
(5)復(fù)用:DataOps 支持復(fù)用模型,標(biāo)準(zhǔn)化被廣泛使用的功能和分析組件,并簡化虛擬環(huán)境之間的遷移。
(6)響應(yīng)能力和靈活性:DataOps 設(shè)計數(shù)據(jù)分析管道以適應(yīng)不同的運行時情況。這種靈活性使分析能夠更好地響應(yīng)組織的需求和不斷變化的優(yōu)先級。
(7)快速變化:DataOps 將構(gòu)建技術(shù)環(huán)境,以實現(xiàn)盡可能短的開發(fā)周期時間,同時滿足數(shù)據(jù)使用者的要求。DataOps 的設(shè)計理念就是基于變革,DataOps 體系結(jié)構(gòu)將動態(tài)數(shù)據(jù)處理能力視為 “核心思想”,而不是 “亡羊補牢”,做事后的更改。
(8)團隊協(xié)同:DataOps 協(xié)調(diào)任務(wù)、角色和工作流,以打破不同數(shù)據(jù)團隊和業(yè)務(wù)團隊之間的障礙,以便更好地協(xié)同工作。
可以說,DataOps 是快速實踐數(shù)字化轉(zhuǎn)型的理論指導(dǎo),貫穿于現(xiàn)代數(shù)據(jù)技術(shù)棧的始末,DataOps 也是降本提效的最佳路徑,實踐 DataOps 路徑的收益立竿見影。
代立冬
白鯨開源聯(lián)合創(chuàng)始人,Apache DolphinScheduler PMC 主席,Apache SeaTunnel PPMC,Apache 基金會正式成員,Apache 孵化器導(dǎo)師,ApacheCon Asia 大數(shù)據(jù)論壇主席。
更多內(nèi)容請查看《2022 中國開源開發(fā)者報告》
-
開源
+關(guān)注
關(guān)注
3文章
3309瀏覽量
42471 -
內(nèi)存計算
+關(guān)注
關(guān)注
1文章
15瀏覽量
12154 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8882瀏覽量
137396 -
云原生
+關(guān)注
關(guān)注
0文章
248瀏覽量
7947
原文標(biāo)題:前沿開源技術(shù)領(lǐng)域解讀——開源大數(shù)據(jù)
文章出處:【微信號:OSC開源社區(qū),微信公眾號:OSC開源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論