日前,中科院院士梅宏聯合中國人民大學、華中科技大學、中科院計算技術研究所、中國科學院大學、北京理工大學多位專家,發布最新論文《大數據技術前瞻》。該文在計算體系重構的背景下,指出了大數據技術發展的四大技術挑戰和十大發展趨勢。 論文指出,在大數據應用需求驅動下,計算技術體系正面臨重構,從“計算為中心”向“數據為中心”轉型,在新的計算技術體系下,一系列基礎理論和核心技術問題亟待破解,新型大數據系統技術成為重要發展方向,同時面臨四大挑戰。
01新型大數據系統技術的四大挑戰
挑戰一:如何構建數據為中心的計算體系
全球大數據規模增長快速,2020年全球新增數據規模為64ZB,是2016年的400%,2035年新增數據將高達2140ZB1,大數據呈現指數級增長。隨著數字經濟的發展和數字化轉型的深入,愈來愈多的數據資源正以數據要素的形態獨立存在并參與數字經濟活動全過程。因此構建以數據為中心的新型計算體系,以適用新的應用環境。如何組織和管理超大規模的數據要素已經成為一項難題:例如,針對大數據管理,面臨數據跨域訪問帶來的各種問題、系統規模持續增大帶來的可用性下降、維護大規模數據帶來的成本和能耗持續增高等嚴峻挑戰。
挑戰二:如何滿足大數據高效處理的需求
數據規模呈指數級增長,數據動態傾斜、稀疏關聯、應用復雜,傳統大數據處理架構數據處理成本高企、時效性差,如何滿足規模海量、格式復雜、需求多變的大數據高效處理需求是大數據處理面臨的重要挑戰。
挑戰三:如何實現多源異構大數據的可解釋性分析
隨著數據量持續地爆炸式增長和各類應用的不斷拓展與深化,基于深度學習的主流方法因其僅關注單源單模態數據且模型只知其然不知其所以然的特性已無法滿足發展需求。如何打破數據多源異構造成的隔閡,融合多域甚至全域數據中蘊含的知識,實現分析結果的可解釋,從而提升其可用性,是當前大數據分析面臨的主要挑戰。
挑戰四:如何形成系統化大數據治理框架與關鍵技術
針對大數據應用過程中的對數據匯聚融合、質量保障、開放流通、標準化和生態系統建設的需求,大數據治理技術逐漸成為發展熱點,然而當前系統化的大數據治理框架尚未形成,開放共享、質量評估、價值預測等關鍵技術遠未成熟,成為制約大數據發展的主要瓶頸。
02大數據技術十大未來發展趨勢
趨勢一:數據與應用進一步分離,實現數據要素化
數據從一開始是依附于具體應用的。數據庫技術的出現使得數據與應用實現了第一次分離。數據存儲在數據庫中,不再依賴具體的應用而存在。數據要素化的需求將推動數據與應用進一步分離,數據不再依賴于具體的業務場景,數據以獨立的形態而存在于數據庫中,并通過數據服務向不同的業務場景提供服務。例如,人口數據庫,可以向全部的涉及人口信息的業務場景提供服務。
趨勢二:數聯網作為數字化時代的新型信息基礎設施
將形成一套完整的數聯網基礎軟件理論、系統軟件架構、關鍵技術體系,包括:針對數聯網軟件以數據為中心的特點,需要從復雜網絡和復雜系統等復雜性理論出發,研究數聯網軟件的結構組成、行為模式和外在性質;針對數聯網軟件的數據傳存算一體化需求,需要采用數據互操作技術和軟件定義思想,研究數聯網軟件運行機理、體系結構與關鍵機制;針對數聯網軟件跨層級、跨地域、跨系統運行帶來的可靠性、可用性、安全性等質量挑戰,需要以數據驅動為手段,研究數聯網環境下保障服務質量與保護質量的原理、機制與方法。
趨勢三:從單域到跨域數據管理,促進數據要素的共享與協同
數據為中心計算的核心目標是數據價值的最大化,關鍵要打破“數據孤島”,實現數據要素的高效共享與協同。傳統數據管理局限在單一企業、業務、數據中心等內部,未來大數據管理將從傳統的單域模式發展到跨域模式,跨越空間域、管轄域和信任域。但跨空間域造成網絡時延較高且不穩定;跨管轄域造成數據與應用異構,數據管理復雜度大大提升;跨信任域則要求具備容忍各類惡意錯誤的能力,跨域帶來的這些變化將為大數據技術帶來了新的機遇和挑戰。
趨勢四:大數據管理與處理系統體系結構異構化日趨明顯
體系結構創新進入“黃金十年”,圍繞不同數據處理特征的新型加速器(GPU、TPU、APU 等各種xPU)層出不窮,存儲器件快速發展,高速SSD、新型非易失內存、新型計算網絡等成為大數據處理系統的重要硬件配置,計算與存儲的融合趨勢明顯。為極大程度發揮數據管理能力,大數據管理系統在存儲、網絡、計算等硬件上最大化挖掘新型硬件的處理能力。在處理上針對不同數據處理需求,配置不同計算與存儲硬件成為大數據處理系統的主流架構。數據驅動的計算架構快速發展,從控制流到數據流到系統設計切換成為大數據處理系統從微觀到宏觀的重要體系結構設計理念。
趨勢五:擴展性優先設計到性能優先設計
數據規模急劇增長,大數據處理需求越來越走向深度價值挖掘,數據處理計算愈發密集,數據管理與處理的成本成為大數據管理與處理系統的重要考量因素,傳統“以擴展性優先”的大數據處理系統設計將會被“以性能優先”的系統設計所替代。Spark、Flink 等系統在大數據處理生態系統中的占有率明顯體現了這一趨勢,圖計算(圖加速器、圖計算框架等)、深度學習框架(Tensorflow、PyTorch 等)等領域專用大數據處理系統的崛起也是這一系統設計理念在技術生態上的表現。智能化數據管理、近似計算等新興管理與處理方法成為性能優先設計的重要技術手段。
趨勢六:近數處理成為突破大數據處理系統性能瓶頸的重要途徑
存算一體類體系結構技術快速發展,新型SSD等新型存儲贏家功能愈發豐富,分布式計算系統邊緣能力迅速發展,以上三種體系結構技術發展為大數據近數處理提供了良好的發展契機。近數處理體現在“存儲上移”(如在GPU、FPGA 等計算設備上集成HBM)、“算力下沉”(如在DRAM 內存或者SSD 存儲設備上集成處理能力)、“分布擴展”(如在云、邊、端分布式處理數據,降低數據處理中心壓力)。
趨勢七:從單域單模態分析到多域多模態融合,實現廣譜關聯計算
傳統大數據分析技術大多僅聚焦于單一來源單一模態數據,而實際應用中往往要對來自不同來源不同模態(如文本、圖像、音視頻等)的數據進行聯合分析,從而實現不同來源與不同模態數據之間的信息互補。此外,諸多領域的大數據往往具有重要的時空屬性,當前研究對這類信息的利用還不太充分。因此,探究能夠跨模態關聯、跨時空關聯的廣譜關聯技術是大數據分析處理的一個重要趨勢。
趨勢八:從聚焦關聯到探究因果,實現分析結果可解釋
如何讓大數據分析模型更加穩定且具有可解釋性,從而使其分析結果對用戶而言變得更加可信、更為可用最好還能具備一定的可回溯性是大數據分析面臨的巨大挑戰。雖然已有因果推斷與可解釋性分析技術取得了一定進展,但總體來說尚處于起步階段,離實際應用還有很長一段距離。因此,從關聯到因果也是未來大數據分析技術的重要研究方向。
趨勢九:高能效大數據技術是可持續發展的關鍵
全球大數據的持續高速增長,尤其是碳達峰、碳中和目標的提出,要求大數據技術棧必須走低碳高效、可持續發展的路線。例如云數據管理系統以資源共享、節能高效為主要特點,將是未來大數據管理的主要基礎形態;在云數據管理基礎上的全國一體化高能效大數據管理,可以進一步由于算力和數據要素的大規模調度與流通,將成為未來大數據管理的主要方向,形成低碳發展新格局。
趨勢十:大數據標準規范和以開源社區為核心的軟硬件生態系統將成為發展的重點
隨著大數據在各個領域應用的迅速普及,標準化需求將不斷增長,與大數據流動融合、質量評估,及與行業、領域應用密切相關的大數據標準將成為發展重點。開源社區在大數據軟硬件生態建設中的地位不斷加強,對開源社區的主導權爭奪將成為各國技術、產品和市場競爭的重要戰場。
03結束語
回顧國內外大數據技術在管理、處理、分析與治理四個方面近十年的發展,可以看出,數據規模高速增長,現有處理計算能力已經成為瓶頸;數據成為生產要素,但數據價值釋放不充分;從產業生態重點的變遷看,呈現出“應用先于理論技術,市場先于標準法規”的現象,雖然大數據已經在一些應用領域(特別是互聯網領域)取得了較好的成效,但是大數據基礎理論和應用技術不成熟,大數據治理體系遠未建立,總體上,大數據發展仍然處于初級階段。 中國在大數據發展方面取得積極進展,但總體上較之國際先進水平,仍存在差距。具體地,大數據管理技術大部分領域與國外頂尖水平基本相同或接近,其中高能效一體化大數據管理領域處于國際領先水平;大數據處理技術多數領域與國外頂尖水平尚存在技術差距,在資源和互聯網應用領域大數據處理技術應用較好,與國際最高水平基本持平;大數據分析的基礎理論與核心技術方面與國際先進水平還存在著一定差距,在商業等領域應用方面已超越國外;大數據治理技術整體上發展較晚,體系遠未成形,技術產品生態仍由國外主導,同時在以數聯網為代表的數據開放流通技術方面與國際先進水平相當。 面向未來,在大數據應用需求驅動下,計算技術體系有必要進行重構,以數據為中心的新型大數據系統技術成為重要方向,信息技術體系將從“計算為中心”向“數據為中心”轉型,新的基礎理論和核心技術問題仍有待探索和破解。以大數據管理、處理、分析和治理為核心的大數據技術在原有通用計算體系上的持續優化仍有發展空間,數據為中心的新技術體系將成為縮小大數據規模指數級增長、與大數據計算需求和能力之間“剪刀差”的突破點。
-
大數據
+關注
關注
64文章
8882瀏覽量
137403 -
深度學習
+關注
關注
73文章
5500瀏覽量
121113
原文標題:梅宏院士等:大數據技術的四大挑戰與十大趨勢
文章出處:【微信號:industry4_0club,微信公眾號:工業4俱樂部】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論