2022年1月31日晚22:00,正是酒足飯飽、萬眾期待的搶紅包環節,春晚主持人剛剛說出紅包口令,京東春晚“重保”項目指揮部傳出了一句簡短的口令:
“斷網!”
就在流量峰值最高的時候,京東機房的一根網絡專線徹底斷掉。一秒鐘后,春晚紅包系統被快速切換到另一個機房,海量用戶順利打開了搶紅包頁面。
以上場景,是我虛構的。
不過,虛構了,但沒完全虛構。事實上,這個京東云技術團隊為春晚項目準備的“超級咒語”,被寫入了京東云春晚技術團隊的演練劇本當中,在節前備戰的19天的時間里,演練過多次。
2022春晚項目IDC基礎保障負責人、京東云基礎設施研發部高級總監,負責京東云基礎設施研發部高級總監常亮,形容這個“咒語”,就像是《哈利波特》里霍格沃茨校長在與伏地魔對決時復活噴泉雕像的那道“咒語”,因為威力巨大,一輩子只能由一個人使用一次。對于京東來說,必須讓每一個極限操作、每一個罕見步驟都被執行過一遍,才能在春晚流量洪峰的沖擊下,真正做到系統的萬無一失。
給全國觀眾發個紅包,需要如此興師動眾、大費周章嗎?
從2014年開始,“在春晚給全國觀眾發紅包”,就成了互聯網企業的競技場,同時也是云廠商練兵的沙場。曾合作過春晚紅包項目的某團隊面對遠超預期的流量,曾發出過感慨,“我們對春晚的力量一無所知”。
今年的虎年春晚,京東成為央視春晚的技術合作伙伴。一個歷經七年的全民項目,與一個多年備戰6·18和雙11、服務超過5.5億消費者的經驗豐富的平臺,合作成功似乎是毫無懸念的。但事情,并沒有這么簡單。
這次央視春晚與京東的合作,給“搶紅包”這個常規互動,帶來了不少新年新氣象:除了常規的搶紅包、搖紅包環節,京東“春節也送貨”的配送活動依然保留。
線上線下的聯動讓疫情防控期間的虎年春晚,既保留著紅包和年味,還依然能買到并收到需要的物資。當然,雙重流量的疊加,是一次前所未有的挑戰,也給虎年春晚帶來了一些懸念。
對于云廠商來說,春晚紅包互動猶如一場年輕人頗為喜歡的游戲——“劇本殺”。諸多業務方都希望參與其中,帶來了大量不確定因素,搞不清楚哪一輪就有用戶體驗被“干掉”了。而云廠商所扮演的角色,就是引導全局、撥開迷霧的DM(主持人),通過控場來保證場內玩家的游戲體驗,享受春晚互動的樂趣和年味。
經過除夕的考驗,京東云做到了“carry全場”,名副其實順利護航了虎年春晚,成功實現“開門紅”。數據顯示,全球華人參與京東APP紅包累計互動量達691億次,京東云混合多云操作系統云艦成功挑戰全球最大規模流量洪峰,在不增加計算資源的情況下,超10000名技術人員基于京東云行云研發效能平臺協同作戰,利用遍布全國的70多座數據中心,通過史上最短僅僅19天技術備戰時間,為春晚紅包互動活動快速搭建一套超高彈性、高效敏捷的數字底座。
這輪大型云上的“劇本殺”,京東云到底是如何闖關的?前面提到的“劇本”,究竟有沒有被真正操作?這樣絲滑的體驗,又能否從春晚帶到千家萬戶、千行百業的數智化“劇目”當中?
虎年春晚“四宗最”:誰是影響用戶體驗的“潛在嫌疑人”?
大過年的,誰讓尊貴的觀眾老爺們不痛快,絕對是要被吐槽上熱搜“祭天”的。用戶體驗的嚴苛要求,即便是經歷過多次6·18、雙11等超高并發復雜場景錘煉的互聯網巨頭們,也必須嚴陣以待。更何況今年京東云技術團隊拿到的春晚紅包任務,還增加了許多特殊條件,有四大要素,可能會成為影響虎年春晚紅包體驗的“潛在嫌疑人”:
1.籌備時間。央視春晚作為一年一度最受關注的全國性晚會,紅包互動也吸引了全球華人的參與,以往各家合作伙伴都需要數月時間來準備。而京東從1月5日官宣成為2022年中央廣播電視總臺春晚獨家互動合作伙伴,到1月24日春晚紅包互動預約活動開啟,備戰時間只有19天,是歷年央視春晚紅包互動中籌備期最短的一次。
2.活動周期。更為“雪上加霜”的是,虎年春晚互動活動的周期卻是史上最長的,除夕當天京東上線“擊鼓迎春”活動,邀全民共同分紅包和好物,將從臘月二十二(1月24日)一直持續到正月十五(2月15日)。相比往年除夕玩一把就走的流量沖擊,京東云需要抗住23天的持續脈沖式流量洪峰,超長周期對數據中心資源、系統架構穩定性、業務系統伸縮調配能力等都形成極大考驗。
3.規模容量。歷屆春晚紅包互動的峰值都在數億級別,2021年春晚累計紅包互動高達700多億次,是目前全球規模最大的網絡互動活動。而今年由于疫情的原因,很多人可能不在家人身邊,同看春晚成為分享年味的一種娛樂活動,預計流量還將進一步增加。而數十秒內,數百億人次參與互動點擊,會形成數億級別的QPS流量洪峰,讓服務器處理數據的壓力激增。用戶的訪問行為也不同于6·18、雙11等大促,春晚7輪口播會帶來7輪訪問峰值,對系統穩定性、電力持續供應等都是非常大的挑戰。
(京東云為春晚互動保駕護航〈數據截至除夕當晚23:00〉)
4.復雜程度。如前所說,以往的春晚紅包互動都是派發現金紅包,而虎年春晚京東云除了支撐春晚紅包互動的復雜場景,還需要支撐京東“年貨春運”的線下履約,在豐富用戶體驗感的同時,也給各種業務系統帶來了壓力。電商供應鏈履約的特征是鏈路很長,需要統籌前端網站、訂單、結算、支付、搜索、推薦,以及后端的倉儲、配送、客服、售后等各環節,每一個鏈路節點的不穩定,都將指數級地放大技術難度。要讓全國30個省份、超過300個城市、近1500個區縣的消費者,即使是在除夕、大年初一,也可以正常下單收貨,享受京東小哥送貨上門的春節物流服務,意味著多個系統的實時同步運算,需要在秒級完成大規模、高密度、高精準的資源調度,此時安全及穩定的云服務底座就顯得至關重要。
(除夕當晚,貴州省畢節市的李女士收到京東快遞送來的春晚第一單實物獎品)
正是因為春晚合作這一“副本”的難度太高,才有了坊間傳聞,互聯網產品日活得過億才能上春晚,否則,廣告出來的那一瞬間服務器就會崩潰掉。這也是為什么春晚紅包互動的合作伙伴一直是久經沙場的互聯網公司。
那么,今年京東云作為春晚項目的技術底座,為了保證大家紅包搶得盡興、收貨收得開心,都做了哪些工作呢?
三輪闖關:京東云的春晚三部曲
玩過“劇本殺”的都知道,還原真相需要經過數輪討論、搜證、層層抽絲剝繭。而在春晚項目中,京東云也經歷了三輪闖關。
第一輪:速度關。
要支撐復雜而規模龐大的春晚項目,需要快速地構建起底層基礎設施。此時,京東應對復雜業務場景的豐富經驗,以及京東云積木化IT思維,支撐起了備戰體系架構的中國速度。
首先,基于歷屆6·18和雙11的經驗,進一步優化基礎設施。在支撐電商大促“黃金流程”的歷練中,京東云的系統穩定性能夠達到4個9以上。而在春晚到來之前,京東云的技術團隊又進一步把所有服務器故障全部清零,消除歷史積壓問題,確保服務器處在一個健康的原點;同時,重置了所有在線交換機,即使系統遭遇數倍于雙十一的流量,交換機群依然可用,保證系統穩定。
其次,利用沉淀下來的技術中臺,實現紅包系統的積木式搭建。作為京東歷年大促核心的基礎設施服務,京東云的中間件技術承接了一次次流量洪峰,幫助業務快速處理用戶的請求。而這些能力沉淀在技術中臺中,面對春晚紅包等新的項目需求,不需要從0到1去搭建,如同積木一樣快速組合起來,才高效完成了19天構建底層系統的任務。
第二輪:質量關。
京東云的幾個技術人員都表示,剛剛接到這個任務的時候,第一反應是:又可以搞事了,激動!
(京東云產品研發部工程師討論春晚項目)
要知道,在春節這樣的喜慶日子,如果搶紅包遇到延遲、白頁、404、客服占線……毫無疑問會讓觀眾更加感到失落。可以說,春晚項目對用戶體驗的嚴苛、系統運行的穩定,都提出了高質量的要求。而面對如此高難度的挑戰,京東人的激動,正源自對京東云基礎設施的自信,以及對技術能力不斷突破的追求。
如何錘煉高質量的保障體系呢?京東云將其拆解為兩種關鍵能力:
一是“人算”,將人力可控范圍內的所有能力做到極致。
基于京東體系多年積累的混沌工程能力,京東云沉淀出穩定性主動管理系統——云泰,可以模擬演練可能發生的一切故障,比如機房斷電、宕機等突發事故,或者服務器崩潰、硬盤故障、網絡連接斷開等等破壞性事故,通過穩定性主動測算、故障注入與演練、全鏈路壓測、紅藍對抗等能力,能夠及早地發現系統問題,防患于未然。
二是“天算”,為不可預知的意外事件做好充分而扎實的預案。既然是“天算”,就意味著未知,京東針對可能出現的意外情況,為春晚項目首創了“應急劇本”作為異常演練預案。京東云為各個業務線、上千個系統都設計了相關劇本,比如開篇提到的斷網演練劇本,提前設計好什么場景、誰做什么、多長時間恢復,在一次次實操演練中將預案反復操作,最后在春晚當天才能夠做到面對突發狀況能夠第一時間找到對應的負責人執行。
正是因為京東云在技術領域執著深入,培養出一大批“長跑選手”,在日復一日不間斷的技術練兵中,最終保障了春晚全國觀眾的體驗,也展現出了數字時代的中國工匠精神。
第三輪:騰挪關。
中國有句古話,叫“一力降十會”,意思是在面對一些高難度挑戰時強調增加資源總量和絕對力量。比如此前的春晚紅包活動中,合作方就臨時擴容或購置了很多新增的服務器,來應對暴漲的流量。但這種“堆資源”的模式,卻不再適用于當下。一方面,專門為春晚購置超出常規需求的服務器資源,平時又用不到,會導致不必要的浪費;同時,也與國家的雙碳戰略、節能減排計劃相左。
但資源不足,意味著許多業務系統承接不住流量洪峰的沖擊。如何在資源零增加的基礎上,保證系統的穩定運行,把用戶體驗做到極致呢?
首先,京東云本身就建立在云原生架構上,運營著全世界最大規模的Docker集群、Kubernetes集群,以及最復雜的Vitess集群之一。全面的云原生化,讓京東云可以快速適應不同地域、不同設備的部署環境,實現資源快速靈活平滑擴容,從容平穩地應對大規模復雜流量場景的挑戰。
其次,所有底層業務容器都跑在京東云的混合多云操作系統云艦上,進行靈活實時的統一資源調度。云艦內嵌的智能調度系統,通過人工智能算法,對應用的資源使用情況進行預測,彈性地對資源進行優化,將算力優先調度給高算力、高主頻的業務中。
比如在春晚互動環節中,紅包互動系統就為S級,紅包互動、優惠券發放等與流量峰值相關的任務,會得到盡量多的資源使用機會。
春晚項目中,云艦系統通過算力調度騰挪整合,做到了“更少資源辦大事兒”。在央視春晚7輪紅包互動中,京東云實現了春晚互動模式與“年貨春運”模式之間16次無縫切換,護航用戶流暢紅包互動的同時暢享年貨云上購物體驗。
(除夕當天參與一線值守的京東云技術人員歡慶圓滿完成任務)
對于這一結果,京東云的技術人員在自豪的同時,也開玩笑說,這怕不是打開了“潘多拉盒子”,連春晚都能扛住,以后不會遇到啥活動領導都不讓買資源了吧。
也正是因為這樣對資源管理“錙銖必較”的精細化管理和技術創新之中,才能以更少的人力、更少的資源做科學的備戰。
隨著春晚紅包互動進入第7個年頭,從以往靠增加服務器資源備戰,到更敏捷高效的資源騰挪,這代表了云廠商技術能力的進步,展現了云廠商的技術領先性和成熟度,同時也在助力綠色中國。
19天備戰,春晚史上最長的紅包互動,秒級超大規模的資源切換,上萬研發工程師高效協同,資源零增加的情況下獨自支持春晚……京東云的三輪闖關,也是數字經濟背景下,中國速度、中國質量、綠色中國的縮影。
辭舊迎新:普羅大眾與千行百業的同一個“劇本”
從服務產業,到觸達普羅大眾;從堆疊資源,到追求高效敏捷;從畢其功于一役,到備戰常態化;從爽一把就走的消費互聯網式玩法,到深耕創新、賦能實體經濟的產業級玩法……虎年春晚背后的京東云,也代表了數字經濟的演變方向,云市場的發展趨勢。
《中國數字經濟前沿(2021):數字經濟測度及“十四五”發展》中提到,與傳統經濟相比,數字經濟的創新邏輯是:
首先,工業經濟規模的擴大和服務業復雜性的增加提出需求,數字化技術進步與這種需求相結合形成新一代IT的分層模塊化結構,即新的數字基礎設施;其次,新一代數字基礎設施推動組織內的適應性變化,即流程和業務邏輯的變革;最后,數字經濟的創新力通過產品、資產等創新表現出來。
不難發現,數字經濟源于普羅大眾的真實需求,也源于傳統經濟的升級渴盼。B端的千行百業,與C端的千家萬戶,都在讀著同一個時代的“云劇本”。
如果說此前春晚背后的云廠商,是希望借力春晚流量的高性價比,來普及線上業務和“上云”價值,那么在新的劇本中,云廠商的能力體系也必須與時俱進。
一方面,從簡單的“上云”,要“用好云”,提升基礎設施的效能。與消費市場相比,千行百業的數智化轉型,對云廠商提出了更多的要求:要將產業問題轉化為技術可解的問題,讓前沿技術真正落地;成本敏感,要能夠盡可能降低上云用數賦智的風險和投入,提供豐富可復用的行業方案與工具;注重長期有效,需要一絲不茍、精益求精的執行團隊……這些恰恰都是京東云能夠在春晚項目中carry全場的關鍵要素。
同時,春晚流量不應該只為互聯網企業的業務拉新,還要兼顧社會效益和產業價值,帶動實體經濟的共同繁榮,云廠商也需要擔負起助力數字產品和服務創新的使命。
以“更懂產業”的京東云為例,除了支撐春晚紅包互動之外,還攜手更多實體企業在春節期間繼續實現高質量增長。比如電商業務背后的數十萬品牌商家,以及跟各個運營商溝通協作確保機房、網絡、專線的7×24響應。
正是這些來自諸多行業的面孔,才共同構成了一個圓滿的虎年春晚。
此前,我們更多地看到的是一個在產業中如有神助、增長迅猛的京東云。Gartner2020年全球云計算IaaS市場追蹤數據曾顯示,京東云IaaS市場占有率排名中國第五,在頭部廠商中增速排名前三,躋身國內云計算第一梯隊。
從京東內部到服務產業,再從春晚舞臺走向普羅大眾,京東云持續夯實數智化社會供應鏈的數字底座、打造新一代云產融合的供應鏈體系,既是技術上的“三級跳”,也給業務發展帶來了源源不斷的增長動能。可以肯定的是,經此一役,跑出產業數字化“加速度”的京東云,也將坐穩云廠商頭部陣營的位置。
一年一度的春晚,如同一扇窗口,我們總能看到很多,政策、民生、年度熱詞、來年展望……而虎年春晚,京東云的“劇本殺”,讓我們一窺云服務從互聯網到數實融合的歷程、從“上云”到“用好云”的深化、從量變到質變的躍遷。
不須迎向東郊去,春在千門萬戶中。
-
工程師
+關注
關注
59文章
1569瀏覽量
68504 -
云計算
+關注
關注
39文章
7774瀏覽量
137355 -
互聯網
+關注
關注
54文章
11148瀏覽量
103239 -
數據中心
+關注
關注
16文章
4762瀏覽量
72035 -
京東
+關注
關注
2文章
998瀏覽量
48473 -
京東云
+關注
關注
0文章
105瀏覽量
40
發布評論請先 登錄
相關推薦
評論