大數據基礎設施建設的技術關鍵及解決辦法
大?。?/span>0.26 MB 人氣: 2017-10-13 需要積分:1
標簽:大數據系統(1832)
2015中國大數據技術大會第二天的大數據基礎設施分論壇中,來自阿里云、Hulu、北京憶恒創源、阿里巴巴、企事錄以及中科院計算所的技術專家分享了大數據基礎設施從設計、搭建到平臺測試標準各個方面的技術關鍵點、實際問題和解決方法。阿里云的高級技術專家李超
首先,來自阿里云的高級技術專家李超通過雙11活動講解了阿里如何構建自己的大數據平臺。他首先講解了阿里云大數據的發展史,接下來講解了今天的阿里巴巴大數據平臺到底能做什么事情,第一點最重要就是海量處理能力,這個離線計算平臺支持SQL、MR、MPI、BSP算法平臺。單個集群規模上線達到一萬臺,存儲有800PB的數據,有100萬以上的JOB數,響應速度做到100個毫秒級別,導出速度達到100萬。除了海量數據處理能夠,平臺還可以提供數據整合能力,包括大數據的整合,把集團內部各個業務的數據整合在自己的平臺,現在已經達到800PB的數據量,相互之間可以流轉,包括結構化半結構化非結構化的數據,用統一的數據進行整合。還有數據交換能力,完全可信的數據交換平臺,多層次的數據交換,還有數據管理能力,包括原數據管理,數據質量管理,數據標準管理。接下來李超講解了大數據平臺里面三個比較重要的計算框架,一個是ODPS,第二個ADS實時數據分析,第三個StreamSQL,離線實時計算。前面兩個已經在阿里云官網有云服務提供,后面一個處于準備當中。此外,阿里云的伏羲系統今年打破了sort benchmark的4項世界紀錄,而ODPS和ADS系統的底層,都是基于伏羲分布式調度。李超也從技術上講解了如何用377秒將100TB的數據做出排序。
Hulu公司的資深研發主管梁宇明
Docker 技術越來越得到了很多開發者的青睞,而YARN對于多數愛好者來說還是一個比較新的平臺。來自Hulu公司的資深研發主管梁宇明為大家講解了如何把Voidbox用在YARN中。他的演講題目是《Voidbox - Docker On YARN在Hulu的實踐》。
Voidbox是什么?可以做什么呢?梁宇明說, 在一個集群中,你把不同的應用在同一個計算的集群中共同的運行起來,這時候其實需要一個很好的調度系統,在開源的社區一般情況下大家就用Voidbox。為了把更多的應用,在全部的基礎框架之上,用戶構建一些Voidbox。
在集群中的很多部署問題,用戶可以寫完打包到同一個集群去,利用Voidbox就可自動匹配,類似于虛擬機提供復雜環境得包的能力,提供一個相對比較好的資源隔離。Yarn作為資源調度系統實現了資源調度,VoidboxAPI使得用戶把復雜的東西統一到Yarn上去。
梁宇明介紹說:“我們之所以選擇Voidbox有兩個原因,第一個對應用程序可以進行很好封裝,可以屏蔽環境的依賴。把這些復雜環境封裝更好的打包在里面這是第一點。第二點本身CPU有很好隔離,在新版本中做到一定對網絡比較好的隔離,這一點是可以提供的,這些隔離基于在一個程序之中,通過設置不同的隊列,你可以把不同的任務分到不同業務運行,你可以把不同運用程序支持不同隊列當中去,不同隊列支持不同的機器?!?br />
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
下載地址
大數據基礎設施建設的技術關鍵及解決辦法下載
相關電子資料下載
- 新型大數據系統技術的四大挑戰與十大趨勢 498
- 大數據系統包括哪些 2225
- 什么是大數據系統身份認證技術? 866
- 大數據系統隱私保護關鍵技術是什么? 310
- 首創主動式智能場景 艾拉物聯開創未來空間智能 1186
- 公安大數據系統具有哪些性能,有哪些應用優勢 3841
- 未來人工智能人臉識別大數據系統發展三大趨勢 2631
- 能源管控平臺開發,可視化BI大數據系統解決方案 163
- “阿里巴巴大數據系統體系”學習筆記-綱領篇 111
- NI 著力展示其面向工業物聯網的大數據系統解決方案 1405