2018 年 12 月 6 日,北京新云南皇冠假日酒店,由中國計算機學會主辦,CCF 大數據專家委員會承辦,CSDN、中科天璣數據科技股份有限公司協辦的 2018 中國大數據技術大會(BDTC)首日議程圓滿結束。普元軟件產品部總經理王蔥權發表了《數字化時代大數據應用平臺架構》的主題演講,并接受了 AI 科技大本營的專訪。
以下內容為王蔥權的演講與采訪總結,文內略有刪減:
演講
大家下午好,我今天帶來的演講主題是《數字化時代大數據應用平臺架構》。這是我第四次參加 BDTC 技術大會,因此此次分享也是基于這一年來碰到的新的情況,主要分為三塊:一是數字化時代為什么需要新一代的大數據應用平臺;二是目前業界如何實現面向治理的大數據應用平臺;三是具體介紹這樣一個大數據平臺的核心架構大體包含哪些要素。
▌數字經濟時代需要新一代大數據應用平臺
現在我們已經進入到了數字經濟時代,與之相對地,過去我們處于實體經濟時代。這兩個時代最大的區別,我記得上午有院士提到是因為生產材料的不一樣,傳統的實體經濟事實上是根據物理的生產材料,比如說廠房、機器等。而物理廠房最大的局限性是數量是有限的。
因此是不是可以有這樣一個推論:今天的數字化經濟,它的生產材料是數據和信息,是無限量?數字經濟的規模未來會遠遠超過實體經濟?這也是以前我一直在想的問題。
這張圖是 2018 年世界經濟論壇的報告,其中展示了 2025 年這些行業數字經濟的規模大體將在數十萬億美金。我們都知道 2017 年底,全球 GDP 是 80 萬億美金,到 2025 年數字經濟的規模已經等同于 2017 年全球的 GDP。這似乎也是驗證了剛才講的:當生產材料產生變革的時候,經濟規模一定產生了變革。我看到的未來經濟只有這一種,可能就是叫數字化的經濟。如果說數字化是一個必然的趨勢,那么最近的一兩年企業發生了什么樣的變化?
數字化經濟,讓企業走向生態。
這趨勢其實說明了一個問題:我們很多的現在傳統的企業,都從原來的專業經營走上了混業,也從原來自己獨立慢慢向生態化(發展),要么是自己構建一個生態,要么是自己加入別人的生態,就是這樣一個邏輯。
我覺得未來數字化是必然的情況,沒有一個企業是單獨自己就是一個生態。既然是一個生態,就會有一些前提,什么樣的企業能成為生態?比如說我們它自己一定要數字化、實時化或去中介。其實所有這些前提的背后都有一個詞就是數據。
今天我們講的數據也好、大數據也好,其實是企業慢慢走向生態的一個基礎。但作為一個基礎,我們回來看看企業現狀是什么樣子?是不是像我們看到的互聯網公司不管是阿里也好、百度也好,這么如火如荼?大家可以看到非常興奮的應用場景?恰恰相反,我們現在接觸的很多企業其實并沒有大家想象的這么興奮的應用場景,它們都糾結了很多事情,這些問題不是因為它們不行,而是因為這是發展或自身業務所導致。
其實,我們接觸的很多企業,自己都搞不清楚到底是多少核心資產。先不要講說大數據到底產生什么效益,數據對很多企業來是“金礦”還是“垃圾”?這里有一個非常關鍵的點就是業務,現在很多做技術的人對業務并沒有那么了解,特別是傳統企業的業務。現在企業面臨數據問題無外乎兩點:一是搞不清楚有多少資產,二是即使知道了自己有多少資產,數據質量一定是有問題的。另外,假設它們知道自己的核心資產,數據質量也有一定的保障,但協作也非常困難,大家也清楚業務和技術之間在傳統行業里是什么樣的關系。
業界現在討論的所有的技術解決方案,更多的是圍繞著怎么去解決海量數據的存儲、計算、挖掘分析,包括我們說的 Hadoop 或者谷歌的體系,但沒有人告訴你業務的應用怎么去構建,按照什么體系構建。
源頭上講,企業連(數據)資產都搞不清楚,在這樣的情況下,企業到底需要一個什么樣的數據應用平臺?所以我們提的是一個面向治理的大數據應用平臺。結合我們現有的一些客戶,我們提了四點,分別是“盤、規、整、用”,怎么講呢?
第一,所謂“盤”,即數據盤點。很多企業都沒有搞清楚自己有多少核心數據資產,但這不是因為它業務沒做好,而是真的不知道。除了盤點清楚自己有哪些核心資產外,還要搞清楚這些資產來自哪里、又流向哪里。
第二,“規”即數據標準。有了對數據資產的理解后就是要定規則和規范,例如數據資產是如何管理類,業務核心模型究竟是什么。
第三,“整”即數據整合。在前兩個要素的前提下才能真正整合出有價值、有質量的資產,這也保證了后面企業應用層面的進行。
最后,“用”即數據運營。幫助企業構建一個數據平臺,去做一些安全的控制,最終形成數據的利益。
其實現代企業面臨著很多是因為發展或當前業務的復雜度導致的問題。通過我們這兩年接觸的客戶,包括金融、保險以及政府部門等企業客戶,它們也在都在嘗試做這個事情。
▌如何實現面向治理的大數據應用平臺?
那么現有的一些行業現狀是如何去做的呢?我會介紹兩個典型的案例。
首先是保險行業,當前保險行業有一個非常明顯的方向,即建一個標準實時共享的保險大數據應用平臺。我們先來看看,作為一個金融行業公司,它首先是一個輕資產的公司。所謂輕資產,即沒有所謂的固定資產,大部分都是虛擬資產。于是這類公司都有一個特點,即它們是“分業經營”的。
舉個例子,保險行業因不同的險種,導致很多都是獨立的分子公司去運營的,這就勢必會產生一個問題,即它的業務發展是非常碎片化的。比說在業務應用上,它們的渠道統統是自建的。如果一家保險公司有產險的微信公眾號,還有產險的 App,以及產險的官微,這些渠道都是獨立的。發展到如今,它們也意識到分業經營帶來的無法共享,融合發展的問題。它們非常清楚自己的核心資產就是客戶、渠道、資產,并且針對每個核心資產都有大致五個方向如核心資產的基礎數據、交易數據、風險數據、管理數據等方面的考量。
所以,對于這類企業而言,它的重點不是說非要一個特別炫酷的場景,而是亟需解決如何協同共享、融合發展。
因此我們幫助企業的第一步工作就是理解客戶,可以看到針對不同的險種、不同的分/子公司都有個人的、家庭的、集團的客戶等等,對他們的所有關聯信息搞清楚,最后建立基于集團級別的客戶標準模型,并做渠道上的整合。
從技術方向來講,構建這樣的平臺主要分為三塊內容:數據采集平臺;大數據開發和應用平臺;業務應用。其中,最基礎的是數據管理平臺,將數據治理成一個有質量的平臺,例如,制定數據方面的策略和政策,比如針對客戶的電話號碼、地址信息、身份認證等進行專題治理。
數據服務平臺上建設,就是怎么把上面講到的資產,通過數據的開發方式,把它形成有意義的數據應用,最終作為一個標準的服務發布給下游的一些系統進行使用。
那么,在建立一個標準的、實時共享的保險業大數據平臺時,它的邏輯也非常簡單。對它來講,需要了解自身到底有多少資產,要能條目化、目錄化;可以通過平臺做自助式開發;針對這些服務怎么運營和監控;以及服務消費。其實這四方面一點也不復雜,復雜的是自己的業務本身。
與保險面臨的業務困境相反的是,航空也是一個重資產的行業,它需要解決的關鍵問題是,資產的利用率,如何精細化的問題。
作為航空公司,首要做的事情也是盤點數據資產,即客戶、員工、位置、訂座、票務、航班、航班計劃、財務、資產、設備、維修、運價、銷售、產品庫存等 13 個主題域,其整理的過程及其復雜。
以航班涉及的飛行時間為例,在 11 個與飛行時間相關的系統中,有 7 個系統產生飛行時間數據項,3 個系統解析 ACARS 報文。像飛行時間就有很多,標準時間、計劃飛行時間、實際飛行時間、設備的飛行時間、累計的飛行時間等等。為什么這么復雜?其實是站在不同的業務角度進行考量的。
比如說設備的飛行時間,在維修部的角度來講,它考慮的非常時間會更長,從上輪、下輪、滑行統統都得算,因為這也是它的成本。
實際上,從技術的角度來講它并沒有那么復雜,但恰恰復雜的是它的業務場景。所以,重資產的企業面臨的更多的是精細的問題,你想它的客機座位只能賺 6 毛錢,稍微不小心就有可能會賠錢,就是這么一個過程。
▌面向治理大數據應用平臺核心架構
相比上面所提到的內容,面向治理的大數據應用平臺核心架構恰恰是比較簡單的東西。
以下灰色部分就是我們業界經常討論的,如海量數據怎么存儲、計算,怎么做數據架構,怎么合理地分區,以及職責怎么流動等問題。作為應用級別的數據平臺,它無外乎就這些內容。
講了這么多,我簡單總結下我們建設這個應用平臺時重點關注的幾項內容:一是閉環數據應用;二是端到端服務開發;三是全鏈路共享數據服務;四是安全統一數據網關;五是服務接口標準化。
首先是閉環數據的應用,不能說數據建完后產生更多不健康、不良的數據,你在做生命周期時,無論是在管理、開發,還是共享、使用的環節,你都能夠將這些要素關聯起來。你要胃藥一個源數據,否則數據如何打通和關聯是有問題的。
其次是端到端服務開發,既然你建立了這樣一個平臺,這個平臺事實上是從供方和消費方協同的角色,而在企業理論更是如此。比如上文提到的分業經營,分公司跟你大數據里的部門到底是什么關系?如何開展工作?你可以根據當前的業務經驗整理出你認為的核心資產和服務,但你不能保證未來會有什么樣的新需求,所以要建立一個端到端的平臺。
三是全鏈路共享數據服務。如果數據共享出去后,這個數據存在于哪里?走過了什么樣的路徑?整體全貌是什么樣子?這些都非常重要。因為如果把它資產化,就一定在乎它的利用率、有效率,如果我們看到全貌也就知道數據是否得到了比較好的利用。
四是安全統一數據網關,例如 Hadoop 體系的時序數據數據庫等。通過我接觸的一些客戶,如果它的安全級別不高,那么意味著它在企業內部往往沒有類似的數據科學家、工程師,根本無法面對業務的復雜度搭建 Hive 或 Hbase。
五是服務接口的標準化。就以前來講,企業內部接口的標準化會相對簡單點,如果企業資產對外的話,還是要遵循現在很多的技術規范和標準。此外,如果你需要提供不一樣的服務形式,這種服務形式可能是跟你業務相關的,有時是以文件的方式,有時是以實時的服務方式,都需要做統一的標準化。
總結一下今天我主要講的一些內容:第一點,我覺得在數字經濟的時代,我們需要一個面向治理的大數據應用平臺;第二點,面向治理的大數據應用平臺主要圍繞「盤、規、整、用」這四個字;第三點,所謂的大數據應用架構只需要這四部分:采集、開發、管理和服務一體化的平臺。
這是我今天的主要內容,感謝各位。
采訪
AI 科技大本營:請先介紹下自己和負責團隊的情況。
王蔥權:我這邊負責的是產品平臺,普元現在分成了產品平臺和三個業務的 BT。產品平臺包含了我們原來的軟件產品部,以及現在的市場部。目前軟件產品部大致分為移動、大數據、云計算/SOA 這三個方向。因為產品平臺都是由我負責,所以這三條業務線也是我統一管理。
AI 科技大本營:算起來,這是您第四次參加 BDTC 技術大會了,對此您覺得有哪些變化?以及建議?
王蔥權:BDTC 大會已舉辦有十年,我們也是連續參加了四年,我覺得最大的變化是,(分享的主題)已由原來純技術的方向,拓展到如今的一些行業了,而且還是在行業的實施過程中碰到實際的問題。以前所有的數據都集中在我們說的電商,今天可能集中在醫療、教育等等行業,這是非常明顯的變化。相對來講,大會偏向技術方向的內容會多一些,業務方向的會偏少些,以后是不是能多分享些業務方面的內容?這是我的一點建議。
AI 科技大本營:您在業務方向上負責的包括移動、大數據、云計算這三個方向的團隊,是如何協作的?如移動在視覺方向的突破,首先它會選擇面向公共安防領域涌現的需求,在面向不同的業務場景或領域。
王蔥權:在普元有三個領域需要來講講:一是我們此前一直講的應用領域,我們現在的云計算或 SOA 其實都圍繞著應用領域。比如我們現在講的數字化、云計算,要構建的分布式或微服務架構,都是因為我們思考的維度是在應用領域。
二是數據領域,我們認為數據領域其實是一個類似于數據中臺的領域,從獲取數據,到做數據的開發與治理,再到應用,是這樣的一個過程。
三是移動,其最重要的一個方向是,現在很多企業已經從原先的傳統渠道慢慢走向了數字化渠道,比如說你的手機 App、微信公眾號、微博,以及可穿戴設備,這些都是數字化渠道。我們認為,移動領域應該解決是你的渠道化或渠道血統的問題,今天有這么多的數字化渠道,究竟怎么去協同?
你剛才問道它們之間是什么樣的關系?我只是從這個面上來講,實際上從整體上思考,移動、大數據、云計算,都是相互關聯的。再舉個例子,比如我們要服務的保險公司。我們不僅要做數據的聚合、共享,也要做渠道的聚合、共享,而這其實是屬于移動領域的問題,這是一個聯動的過程,有了這樣一個統一的渠道后,它也是產生數據的地方。應用也有關聯,比如我們說移動其實也是要做應用的,數據也要做應用,但是你到底怎么做?怎么能高效地做?這就是應用領域考慮的問題,我覺得是相互關聯的。
AI 科技大本營:從大數據服務提供商的角度來講的話,是否也遇到了一些問題或挑戰?比如海量數據帶來的問題或數據安全方面的問題。
王蔥權:這些問題我們都會遇到,但我們更多碰到的似乎也不是海量數據帶來的問題,可能安全會有一些。比如我們說有一些強勢的部門,它自己就會有安全的問題,對數據是非常敏感的。針對安全問題,我們會有一些的技術解決方案,包括針對大數據環境,是否提供了數據網關或數據中臺概念的服務。
同時,我們的思路也一直是站在管理的角度去構建大數據體系。除了安全,我認為效率也是很重要的。我們說數據要做服務化,最重要的問題是性能和效率的問題。我們知道在企業里數據很多時候是分散的,你怎么去搭一個高效的數據服務的平臺?挑戰其實是很大的。
AI 科技大本營:作為自己來說,當前您覺得最難的地方是在哪兒?
王蔥權:其實當前最難的問題還是在業務上,因為似乎現在還沒有誰能夠說自己能做一個很好的行業的大數據方案,這個東西挺難。因為所有的行業的專家其實都是在自己具體的某個企業里,他是行業專家,比如做了 10 年、20 年,甚至更長的時間,但是他恰恰又不是一個大數據的專家,所以這是一個結合性的問題,我覺得是一個最大的挑戰。
我們去建大數據平臺,通過技術產生價值,我們碰到的最大問題就是業務,而不是別的,不是說到底是海量數據,到底是多少個 PB 的數據。現在業界都能通過技術手段去幫你解決,但是業務問題就是一個瓶頸。專家就只有這么多。
AI 科技大本營:上午論壇中的熊輝也提到了最終落腳點是在人才。果說放到普元這里的話,首先是您對于接下來人才這塊有怎樣的需求?包括團隊內部,大概是怎樣的分布?
王蔥權:是這樣的,因為我們不是一個研究性的公司,所以一般來說從我這邊思考人才主要是兩個方面。
一個方面,我們注重工程化,會非常在意這個人的綜合技能,因為我們要解決實際的客戶或企業系統性的問題,所以我們需要一個綜合能力比較強的人才。比如說他具備比較好的溝通和表達能力,或者具備架構師的基本素質,能夠給客戶出一個整體的方案,當然最好還希望他在某些關鍵技術領域里有一定的深度。這對我們來說確實是比較難的地方。
另一方面,這也是我們最近幾年在想的事情,我們也需要有一些引領性的(組織)。發展很快,客戶發展也很快,我們會有自己的研究部門。我希望在某個領域,無論是 AI 也好,或是大數據領域,需要有專項的研究型人才。其實,我們部門大體的分布也是這樣,會有專門的產品線部門,也有研發的部門,每條線都是獨立的,但我們會有一個公共的研發部門,以及一些提供支持的服務中心。
-
網關
+關注
關注
9文章
4510瀏覽量
51193 -
數字化
+關注
關注
8文章
8771瀏覽量
61879 -
大數據
+關注
關注
64文章
8895瀏覽量
137506
原文標題:普元王蔥權:數字化時代需要新一代的大數據應用平臺架構
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論