從“去 IOE”到虛擬化架構的全面升級,從初涉容器到全面容器化,從支撐雙11到疫情期間創下擴容紀錄,阿里云原生體系不斷演化,形成了龐大的“計算”家族。
十年,阿里云原生重構“計算”,未來十年,阿里巴巴希望真正釋放云的紅利,讓更多的人用上云或理解云,為企業和社會創造更大的價值。
導語
十年前,“IOE”穩坐 IT 架構C位不容置疑;十年后,上云成為大勢所趨,無人不識云原生。依托高彈性可擴展、高性價比、高可靠性等優勢,云計算顛覆了傳統IT 架構成為主流。
對于企業而言,云計算已經成為企業發展的必選項,引用Gartner的說法,“Cloud is not a strategy,it is a tactic”,云計算已經不再是戰略問題,而是戰術問題。
對于國家而言,云計算是搶占未來信息化制高點的重要的途徑和戰略制高點,各國針對云計算紛紛出臺政策,甚至上升到國防戰略高度。
阿里云的“去IOE”主張帶動了一批公司從傳統IT架構向互聯網架構轉型,并逐漸從互聯網企業蔓延到傳統企業。以阿里云為代表的國產云計算不斷追趕,不僅縮短了和國際巨頭的差距,還形成了龐大的“計算”家族。
本文通過梳理阿里云原生演技的重要節點,嘗試還原阿里云十年“計算”重構史。
阿里云原生演進 VS 云原生行業大事記
從零開始,攻堅云計算
2008年-2015年,從“去IOE”到虛擬化架構的全面升級,從初涉容器到全面容器化。
1. 去IOE,建立“飛天”團隊
2008年,隨著電商發展,淘寶業務激增,阿里巴巴對計算的需求呈現指數級增長,并與業務的增長之間產生了鴻溝。靠當時主流的IOE,IT基礎設施將成為業務發展的瓶頸。
在這樣的背景下,阿里巴巴提出“去 IOE”,研發自己的技術架構,2008年10月,這個想象中屬于中國的云計算系統被團隊定名為“飛天”,源自中國神話中的形象,是阿里云計算探索的開始。
I(IBM,服務器提供商,他們提供的服務器俗稱“小型機”)
O(Oracle,數據庫提供商,他們的軟件是著名的“甲骨文商業數據庫”)
E(EMC,存儲設備提供商,他們提供的是“集中式存儲”)。
從字面義上看,“去IOE”只是換掉傳統IT基礎架構,而從更深的層次來講,是驅動了IT基礎架構的變革。除此以外,“去IOE”的另一重象征意義在于,自研創新的道路就此開啟,后續阿里巴巴的成功讓大量中國的服務器廠商、軟件平臺和應用軟件廠商,以及立足自主研發的存儲廠商看到了實現跨越式發展的契機。
2. 阿里云成立,陸續推出產品
2009年,阿里云成立。當時的云計算是不太可能使用 VMWare 這樣的商業化軟件,所以就采用了當時比較流行的開源虛擬化軟件 Xen。第二年,阿里云就推出了首個彈性計算產品 ECS。
2009年 阿里云成立
除此之外,阿里云網絡產品也開始有了聲音,AVS和SLB相繼上線。但是,從技術產品上來看,阿里云早期的“計算”家族還是比較單薄的,也存在一些限制,云計算的概念在業界基本處于萌芽階段,玩家不多。
2011 年開始,各種各樣的云開始出現,更強更新的 CPU 帶來了云上虛擬機計算能力的提升和換代,阿里云的計算產品家族逐漸豐富,接連推出ECS 2.0、ECS 企業級產品家族,從對 Xen 架構研發過渡到KVM 架構,并為 12306 提供了技術支持。
2013 年,淘寶最后一臺小型機下線,阿里自研的飛天云操作系統開始支撐集團業務。隨后不久,洛神 1.0發布,這是國內首發自研 SDN 系統。
雖然捷報頻傳,但當時阿里的虛擬化技術,已經滿足不了云計算發展的步伐,要做到把自有業務也遷移到云上面來,就必須變革虛擬化技術。
克服云計算“缺陷”,開啟云原生時代
1. 降低虛擬化損耗,自研容器技術
虛擬化損耗是云計算自誕生以來就有的缺點。阿里云一直以來都在降低云計算虛擬化的損耗,逼近極致。
2011 年,隨著云計算的普及,阿里巴巴走過物理機時代,全面邁向虛擬機,為了緩解巨大的虛擬化損耗,淘寶研發出了阿里第一代容器——T4,容器調度技術開始逐步支撐阿里集團的在線業務,云原生時代開啟。
2015 年底,阿里云正式發布了企業級容器服務 ACK,正式對外開放容器技術,整個集團也開始實現全面容器化,推動了整個應用開發,交付和運維方式的變革。
阿里業務逐年爆發,容器規模化后,跑在云服務器上是必然趨勢。阿里云的飛天操作系統已經可以成熟調度數萬臺物理機,但因為虛擬化損耗,容器依然只跑在物理機上,無法享受到上云便利。
為了給容器打造最合適的底座,2016 年雙 11 的技術復盤會上,時任阿里巴巴集團 CTO 張建鋒提出了極為苛刻的要求——由彈性計算團隊打造神龍服務器,將虛擬化損耗降低為0。
從上層的容器到下層的資源底座神龍,如此,阿里便能構建敏捷、高效的業務運行體系。
2. “0”虛擬化開銷,自研神龍架構
把虛擬化開銷降低到0,這看似是違背能量守定律的,即便在學術界也沒有相關研究。最終阿里云想出了新的解決方案——通過專用芯片來解決虛擬化開銷。
從技術的實現思路看,研發團隊需要重構一套計算架構,通過研發一個新的芯片組來為每個節點提供功能性和管理性的需求支持,在此基礎上,再研發出一套新的服務器硬件,和配套的系統軟件;然后再將這套技術架構融入到現有的產品設計中去。
軟硬協同架構設計的理念已然飄向了云端,體量大的云廠商服務器部署規模達到百萬級別,意味著可以定制任何硬件,而云廠商也開始重新審視芯片、硬件和軟件的協同創新。要想收獲軟硬融合的技術紅利,重要的前提是可以自定義芯片,自主研發硬件。
2016 年,阿里云開始規劃下一代虛擬化技術,也就是神龍,2017 年,神龍架構問世。它真正使用軟硬融合、軟硬件協同設計的模式,改變了傳統虛擬化技術和當前的計算架構不友好的地方。
神龍架構的靈魂:阿里巴巴自研MOC卡
與“神龍”的意義類似,阿里云這一年推出了全球首個云企業網 CEN,引領了業界云上網絡互聯產品的發展方向。阿里云網絡產品大爆發,先后上線了遷移 VPC 方案、VPN 網關、共享流量包、共享帶寬、全球加速以及云企業網。
這一年,云網絡也邁入了云原生時代,推出云原生 SDWAN,并全面支持 IPv6。
至此,整個阿里云“計算”家族已經相當完善且龐大,并嘗試在雙 11 中進行應用。
全面云原生化
2016-2019 年,阿里云“計算”家族從初涉雙 11 到全面支撐,從這場畢業大考中取得優異成績。
1. 支撐雙11,核心系統100%上云
2018 年的雙 11,阿里嘗試將部分流量用神龍架構來支撐,2019 年,阿里巴巴將核心交易系統全部搬到了云上。這些系統對存儲 IO 能力、計算能力、網絡延遲等的要求相當于將神龍的能力榨取到極致。雙 11 大促如果可行,服務超大型客戶也將成為可能。
在 2019 年的這場大考中,整個阿里云“計算”家族順利畢業,拿下了 2500 億的交易額,同年發布的洛神 2.0 系統也在這次雙 11 中完美首秀。
這一年雙 11,集群的規模超過百萬容器,單容器集群節點數量過萬,數據庫的峰值超過54 萬筆每秒,對應8700 萬查詢每秒,而實時計算每秒峰值處理消息超過25 億條,消息系統 RocketMQ 峰值處理了超過每秒 1.5 億條消息。
在總結會上,阿里云智能總裁張建鋒表示:過去的一天,20 個小時是阿里技術上最經受考驗的一次。阿里云承載阿里巴巴 100% 的核心系統,這是我們全球第一個做到的,我們有自己自研的飛天操作系統、神龍架構、云原生的數據庫、計算存儲分離的架構、全球第一個大規模 RDMA 網絡。
經此一役,阿里云“計算”家族的技術能力被廣泛認可。然而,突如其來的疫情再次將其拉回備考狀態。
2. 疫情突襲,創下擴容紀錄
2020 年一場疫情打破了很多人生活的節奏,如果說“雙 11”是一場畢業大考,疫情就是一場臨時小考。為應對疫情中在線辦公和在線教育場景下激增的流量,阿里云迅速幫助釘釘在 2 小時內緊急擴容一萬臺云服務器,這個數字也創下了阿里云快速擴容的新紀錄。
借助自身的大規模集群管理能力,在短短幾天之內,阿里云幫助百家云團隊有效升級了原有的架構方案,實現了數十倍的擴容,大幅提升了其性能與穩定性,并擁有了應對爆發性規模的能力,用戶毫無察覺。
“隨著阿里云計算能力不斷發增強,我們已經能夠一分鐘擴容 1000 臺虛擬機,彈性容器實例平均啟動時間僅為 10 秒。”
這一年,阿里云又迎來了數據湖分析、實時計算、大數據分析等產品基于容器或者 Serverless 服務的方式對外交付,此時已經可以看到 Serverless 成為新的可能。
3. 升級戰略,成立云原生技術委員會
2020 年 9 月 18 日,2020 杭州云棲大會上,阿里巴巴正式成立云原生技術委員會,云原生成為阿里技術新戰略。在云原生技術委員會成立之后的雙 11,雙 11 核心系統又實現了全面云原生化。
截至 2020 年,經過 10 多年的技術實踐,阿里云已經擁有國內最豐富的云原生產品家族,覆蓋 10 多個類別 100 余款產品,涵蓋底層基礎設施、數據智能、分布式應用等,可以滿足不同行業場景的需求,為企業數字創新打造最短路徑。
2021年,阿里云將投入20 億優選合作 10000 家伙伴,共同服務百萬客戶,加速百行千業實現數字化轉型。同時,阿里云還啟動了“云原生人才計劃”,三年內產教融合進入300 所高校,新增培養100 萬云原生開發者。
2020年云棲大會,阿里云原生全景圖發布
面向下一個十年的技術儲備
“ Serverless 是云計算的未來”
隨著以 Kubernetes 為代表的云原生技術成為云計算的容器界面,Kubernetes 成為云計算的新一代操作系統。因為屏蔽了服務器的各種運維復雜度,Serverless 讓開發人員可以將更多精力用于業務邏輯設計與實現,而逐漸成為云原生主流技術之一。
Serverless 計算可以分為 Serverless 運行時和后端服務( Backend as a Service)。其中 Serverless 應用運行時在阿里云上有非常豐富的產品選擇:如面向事件驅動應用的函數計算 FunctionCompute,提供了極簡的編程和運維體驗;面向微服務應用的 Serverless 應用引擎(SAE),對于傳統微服務架構應用無需任何修改即可以輕松上云。
此外,阿里云還提供了Serverless容器的產品,比如彈性容器實例 ECI 和 Serverless Kubernetes(ASK),它們提供了標準的Kubernetes界面,不但可以讓用戶享受到極致的彈性能力,并且是完全免運維的。它們在過去一年有了 9 倍的高速增長。
動態、混合、分布式的云環境將成為新常態
上云已是大勢所趨,但對于企業而言,有些業務出于對數據主權、安全隱私的考量,會采用混合云架構。
此外,邊緣計算將成為企業云戰略的重要組成部分,為應用提供更低網絡延遲,更高網絡帶寬和更低網絡成本。我們需要有能力將智能決策、實時處理能力從云延展到邊緣和 IoT 設備端。隨著云平臺成為企業數字化轉型的創新平臺,一個變化隨之產生——云正在靠近它們。在分布式云中,公有云的服務能力可以位于不同的物理位置,而公共云平臺提供者會負責服務的運維、治理、更新和演變。
軟硬一體化全面升級
云計算的發展推動了整個計算架構的演進,面向數據中心的芯片層出不窮,計算密度得到了大幅提升,如果將其與 Serverless 結合能夠全面提升計算效率和資源利用率;過去,我們已經經歷了 CPU 和存儲資源的池化,如今我們可以看到越來越多的 GPU 資源池化,開發者可以按需創建彈性的 GPU,大幅降低 AI 的計算成本,資源池化使得整個計算能力的彈性進一步增強,可以讓 Serverless 計算場景覆蓋更多的領域。
此外,Serverless 也在全面推動軟硬一體化的進一步升級。阿里云“計算”家族的整體性價比不斷提升,企業用云的成本逐步下降,底層硬件對上層應用的支持越來越強,可以理解為下一代神龍是以應用為中心的,對上層的函數計算等應用的支持將越來越好,效率提升的同時大幅降低成本。
無處不在的計算催生新一代容器實現
針對不同計算場景,容器運行時會有不同需求。KataContainer、Firecracker、gVisor、Unikernel 等新的容器運行時技術層出不窮,分別解決安全隔離性、執行效率和通用性三個不同維度的要求。OCI(Open Container Initiative)標準的出現,使不同技術采用一致的方式進行容器生命周期管理,進一步促進了容器引擎技術的持續創新。
結語
從無到有、從有到多、從多到精,在中國還沒有自己的云計算的時候,有人選擇了這條無人小徑,走的人多了,它便成為了通往未來的通天大道。
云原生還會有更多的創新,有更多的產品技術。從企業客戶和開發者角度,云原生是云計算釋放紅利的最短路徑,是企業數字化的最短路徑。
而在云原生時代,云計算會持續地向前演進。未來十年,阿里巴巴希望真正釋放云的紅利,讓更多的人用上云或理解云,降低IT 開發或研發門檻,通過開發者的手為企業和社會創造更大的價值。
原文標題:數智洞察丨阿里云原生十年演進史
文章出處:【微信公眾號:工業4俱樂部】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
云計算
+關注
關注
39文章
7778瀏覽量
137372 -
阿里云
+關注
關注
3文章
952瀏覽量
43013
原文標題:數智洞察丨阿里云原生十年演進史
文章出處:【微信號:industry4_0club,微信公眾號:工業4俱樂部】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論