11月19日,華為在深圳舉辦2019全球數據基礎設施論壇,面向鯤鵬計算產業,宣布全面啟動數據基礎設施戰略,并開源數據虛擬化引擎HetuEngine(河圖引擎),希望讓伙伴像使用“數據庫”一樣使用“大數據”,讓數據治理、使用更簡單。這是繼今年9月基于“鯤鵬+昇騰”雙引擎全面啟航計算戰略后,華為從數據角度對計算戰略的再度闡述。華為數據基礎設施戰略圍繞數據“采-存-算-管-用”的全生命周期,詮釋了華為通過提供融合、智能、開放的數據基礎設施,使能各行各業客戶釋放數據價值,讓智能無所不及。
華為Cloud & AI產品與服務總裁侯金龍在大會上發表主題演講
以下是侯金龍演講全文
女士們、先生們、朋友們,大家上午好!歡迎大家來到深圳,參加首屆全球數據基礎設施論壇。
人類正邁入萬物互聯的智能時代,而數據將成為智能世界的關鍵生產資料。今天,我分享的主題是《打造“融合、智能、開放”數據基礎設施,攜手邁入智能時代》。
構建萬物互聯的智能世界
華為公司的愿景與使命是:“把數字世界帶入每個人、每個家庭、每個組織,構建萬物互聯的智能世界”。在智能世界,算力成為新生產力,數據成為新生產資料,“5G、AI、云”成為新生產工具,將使能千行百業邁入智能時代。
兩個月前,華為在全聯接大會上發布了“一云兩翼雙引擎”的鯤鵬計算產業布局,基于“鯤鵬+昇騰”雙引擎,全面啟航計算戰略,為世界提供最強算力。
“一云”是指華為云,是生態伙伴發展的黑土地。“兩翼”是指智能計算和智能數據。數據作為鯤鵬產業中的關鍵一翼,華為將圍繞數據構建端到端的能力,包括存、算、用的能力,通過5G+云+AI能力,打造“融合、智能、開放”的數據基礎設施,釋放數據價值,讓智能無所不及!
智能世界,從數據管理走向數據運營
首先,數據將驅動客戶體驗。當你打開一個App,就會收到你感興趣的內容推送。精準推送的背后,其實就是數據在驅動。比如快手,每天產生1.2億個內容標簽與用戶畫像實時匹配,數據運營實現內容精準推送。
其次,在企業經營活動中,數據驅動企業生產決策。以大港油田為例,在經歷了50年持續開采后,面臨資源枯竭、產量下降的挑戰。2019年以來,大港油田采用華為大數據和AI技術,利用測井曲線,結合經驗模型生成了每口井的孔隙度、滲透率,找到了更多的新的油氣層。通過數據運營,為長期穩產500萬噸提供了決策支撐。
最后,我介紹下數據驅動企業流程簡化。華為每年有近300萬人次出差,以前出差涉及考勤、機票、酒店,包括報銷等十幾個申請流程,現在只需要一個流程就可以真正實現“說走就走”。這是每天45萬次后臺數據關聯碰撞的結果。數據運營,實現“讓數據多跑路,員工少跑腿”。
智能世界,需求與資源存在巨大落差
隨著5G、AI和云的普及,數據量正以驚人的速度增長:從1080P到4K、8K,視頻數據量將提升40倍,從4K到4K?VR要增加6倍以上;未來每輛自動駕駛汽車每天就會產生高達64?TB數據;深圳一個城市有超過200萬攝像頭,每天將產生80?PB數據,平均保存30天,大家希望保存更長時間;大量的數據過去只需存幾天,現在需要保存幾個月甚至永久保存。
根據預測,全球數據量將從2018年的33?ZB快速增長到2025年的180?ZB。但是,產生的數據中僅有不到2%被保存,而被保存的數據中僅有不到10%被應用。
這些海量數據的增長背后是需要海量存儲和計算的資源,數據增長是無限的,而存儲資源卻是有限的。
數據全生命周期每比特價值最大,每比特成本最優
我們希望對數據的采、存、算、管、用實施端到端的整合和優化,讓數據在全生命周期內更好用,數據的每比特發揮價值最大,數據的每比特成本最優!
打造“融合、智能、開放”數據基礎設施
為實現這個追求,華為打造融合、智能、開放的數據基礎設施,讓數據系統從孤立走向融合,從復雜走向智能,從封閉走向開放:
通過“打破數據處理與數據存儲的邊界”,實現數據高效共享和分析,降本增效。
通過“AI+存儲+云”,實現數據全生命周期內智能管理和智能運營,讓存儲越用越快,價值越來越大。
通過“數據虛擬化引擎”,統一SQL語法,像使用數據庫一樣使用大數據。
融合:使用極簡
數據應用的核心包括存儲和分析。煙囪式IT業務系統帶來兩個問題:存的時候會產生多個冗余副本,且數據無法流動,存儲成本高;分析的時候會導致大量數據搬遷,分析效率低。
通過10余年技術積累和創新,華為在存儲、數據庫和大數據技術上實現了一系列突破,通過打破4堵墻,讓數據的每比特發揮價值最大,數據的每比特成本最優。
打破存儲內部系統墻:通過一套架構實現生產、分析、備份、歸檔的統一管理,一份數據在各個系統中平滑流動,減少拷貝,TCO降低30%以上。
打破數據庫與存儲鏈路墻:通過算子下推實現近數據計算,減少存儲層與計算層之間的數據交換,數據訪問和處理性能提升2倍。
打破大數據與存儲配置墻:通過存算分離實現資源靈活配置,計算不足擴計算,存儲不足擴存儲。并通過彈性EC、數據縮減技術減少冗余,整體TCO降低30%以上。
打破數據庫與大數據協同墻:通過協同分析實現數據零搬遷,數據庫和大數據共享一份數據,分析效率提升100%。
智能:體驗極致
過去,主要依靠人來完成設備配置和運維,運維人員經驗和能力的高低決定了管理效率的優劣。華為基于AI芯片、存儲和華為云的三層架構,通過云上訓練和云下推理,讓系統越用越快、越用越省。
依托昇騰處理器的AI能力,自動學習和識別IO流,提升Cache預取命中率,系統整體性能提升20%。
依托鯤鵬處理器的多核算力,根據不同的數據類型,實時優化數據縮減算法,TCO降低25%。
結合華為云自身大規模運維運營經驗,當前可以實現提前14天預測硬盤故障,提前60天預測性能瓶頸,提前365天預測容量不足,其中30%的故障可以自我修復。
開放:開發極簡
隨著業務類型日益增多,大量業務需要跨平臺、跨數據源協同分析。這種場景下,最突出的3個問題是:找數難、取數難、用數難。
找數難:傳統企業數據類型越來越多,結構化、半結構化、非結構化數據并存,缺少統一數據目錄和全局數據視圖,要在眾多異構數據源中找到特定數據,好比大海撈針。
取數難:一個典型的分析業務通常依賴跨地域跨平臺數據協同,需要從多個業務系統獲取數據,這要經過多部門間協調、核實才能獲取。
用數難:多業務分析需要多引擎協同,這將依賴多種數據訪問技術,就需要開發人員掌握多種開發工具和語言,從而導致開發門檻變高,開發周期變長。
為了屏蔽數據類型差異、地域差異、語法差異,讓數據治理簡單,使用簡單,華為推出了“河圖引擎”。
HetuEngine,從“大數據”走向“大數據庫”
我們將數據虛擬化引擎命名為河圖,就是屏蔽數據基礎設施的復雜度,讓開發者像使用數據庫一樣使用大數據,復用現有的生態、工具和技能,提升開發效率2到10倍。“大禹得河圖后始見清明”,傳說中,大禹通過河圖掌握河流山川復雜的地形地貌,順利完成治水大業。
河圖引擎,就是要讓數據治理簡單,使用簡單,更方便的挖掘數據價值。它具備4個核心能力:
一個目錄:通過元數據在線感知,構建1000+異地異構數據源全局虛擬數據視圖,打破數據孤島,數據全局可視,解決企業找數難問題。
一個入口:通過開放的連接框架、5000節點SQL引擎,實現30種異地異構數據源統一SQL訪問,秒級獲取,數據全局可得,解決企業取數難問題。
一份數據:通過CarbonData技術,實現一份數據多場景分析,多應用共享,數據零搬遷,數據全局可用,解決企業用數難問題。
統一安全:通過細粒度動態授權、敏感數據自動感知技術,實現異地異構數據源集中式安全配置與管控,數據全局可控,數據授權時間從天到秒,解決企業數據安全與合規問題。
開源河圖引擎HetuEngine
為了更好地發展數據產業,今天我宣布開源河圖引擎,開源版本的河圖引擎叫openHetu,將于2020年6月上線。我們將開源內核,開發者可以基于開源代碼進行定制,包括數據源擴展、SQL執行策略等,實現應用快速對接,提升開發效率。
華為Cloud & AI產品與服務總裁侯金龍宣布開源數據虛擬化引擎HetuEngine
平臺+生態,攜手邁入智能時代
華為始終踐行“平臺+生態”策略,通過硬件開放,軟件開源,使能伙伴,共建開放、繁榮的鯤鵬計算產業生態,共同邁入智能時代。
評論
查看更多