色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一次k8s升級(jí),滴滴直接故障12小時(shí)?

小林coding ? 來源:小林coding ? 2023-12-08 15:45 ? 次閱讀

前段時(shí)間滴滴的故障相信大家都知道了。

中斷業(yè)務(wù) 12 小時(shí)定級(jí)為 P0 級(jí)故障一點(diǎn)都不冤。

45f005c2-9595-11ee-8b88-92fbcf53809c.jpg

故障回顧

網(wǎng)上有傳言是運(yùn)維人員升級(jí) k8s 時(shí),本來計(jì)劃是從 1.12 版本升級(jí)到 1.20,但是操作失誤選錯(cuò)了版本,操作了集群降級(jí)到低版本。

從下面滴滴技術(shù)的博客中也可以看到滴滴的升級(jí)方案:

4603b1c6-9595-11ee-8b88-92fbcf53809c.jpg

滴滴為了降低升級(jí)成本,選擇了原地升級(jí)的方式。首先升級(jí) master,然后升級(jí) node。我們一起看一下 k8s 官方架構(gòu):

462f33c8-9595-11ee-8b88-92fbcf53809c.jpg

img

master(官網(wǎng)圖中叫 CONTROL PLANE) 節(jié)點(diǎn)由 3 個(gè)重要的組件組成:

cloud-controller-manager:負(fù)責(zé)容器編排;

kube-api-server:為 Node 節(jié)點(diǎn)提供 api 注冊服務(wù);

scheduler:負(fù)責(zé)任務(wù)調(diào)度。

Node 節(jié)點(diǎn)向 kube-api-server 注冊成功后,才可以運(yùn)行 Pod。從滴滴的博客中可以看到,采用原地升級(jí)的方式,升級(jí)了 master 之后,逐步升級(jí) Node,Node 會(huì)有一個(gè)重新注冊的過程,不過既然選擇這個(gè)方案,運(yùn)維人員應(yīng)該反復(fù)演練過,重新注冊耗時(shí)應(yīng)該非常短,用戶無感知。

但是 master 選錯(cuò)版本發(fā)生降級(jí)時(shí),會(huì)把 kube-api-server 污染,Node 節(jié)點(diǎn)注冊 master 失敗,又不能快速回滾,這樣 Node 節(jié)點(diǎn)被集群認(rèn)為是非健康節(jié)點(diǎn),上面的 pod 被 kill 掉,服務(wù)停止。

集群隔離

463d72bc-9595-11ee-8b88-92fbcf53809c.png

這次故障大家討論的話題還有一個(gè)比較熱門的就是 k8s 集群隔離,因?yàn)槎鄠€(gè)業(yè)務(wù)比如打車業(yè)務(wù)、單車業(yè)務(wù)同時(shí)掛,說明都在一個(gè)集群上,沒有單獨(dú)建集群來做隔離,這可能也是博客中說的“最大集群規(guī)模已經(jīng)遠(yuǎn)遠(yuǎn)超出了社區(qū)推薦的5千個(gè) node 上限”的原因。

當(dāng)然也有可能當(dāng)時(shí)野蠻生長的時(shí)候,為了快速上線開展業(yè)務(wù),就多個(gè)業(yè)務(wù)建在了一個(gè)集群上,后來可能也有過拆分的想法,但發(fā)現(xiàn)業(yè)務(wù)上升空間已經(jīng)很小,現(xiàn)有集群可以維持,所以就擱置了。

拆分成多個(gè)集群好處很明顯,業(yè)務(wù)隔離,故障隔離,可靠性增加,就拿這次升級(jí)來說,先升級(jí)一個(gè)不太關(guān)鍵、業(yè)務(wù)量也比較小的集群做試點(diǎn),升級(jí)成功了再逐個(gè)升級(jí)其他集群。

但缺點(diǎn)也很明顯,運(yùn)維復(fù)雜度增加,成本增加。

升級(jí)方案

工作這些年,也參與過一些大規(guī)模的平臺(tái)重構(gòu),但原地升級(jí)真的是沒有接觸過,主要原因就是架構(gòu)師們不太愿意選擇原地升級(jí)的方案。而他們主要出于下面考慮:

業(yè)務(wù)系統(tǒng)原地重構(gòu)升級(jí),不像推翻重做能夠更徹底地升級(jí)改造;

考慮對業(yè)務(wù)影響最小,一般是要通過灰度發(fā)布漸進(jìn)地把流量切過去;

替換升級(jí)的方案,更能展現(xiàn)團(tuán)隊(duì)的產(chǎn)出。

對于滴滴這樣的大公司,相信運(yùn)維團(tuán)隊(duì)大咖如云,無論采用哪種方案,肯定都是經(jīng)過反復(fù)驗(yàn)證的,或許不要選錯(cuò)版本,原地升級(jí)也沒有問題。

降本增效

看了微博上滴滴道歉的留言區(qū),好多人猜測這次事故的原因是降本增效,裁掉了一線高成本的運(yùn)維,保留了成本低的新人

從數(shù)據(jù)上來看,出于降本增效的目的,滴滴這兩年確實(shí)少了很多人,但我不相信這是造成事故的直接原因。

在快速增長的階段,確實(shí)需要投入大量的技術(shù)人員來建設(shè)系統(tǒng)。但國內(nèi)互聯(lián)網(wǎng)規(guī)模也基本見頂了,一個(gè)業(yè)務(wù)經(jīng)營這么多年,不會(huì)再有爆發(fā)式地增長,系統(tǒng)也已經(jīng)非常穩(wěn)定。這樣的背景下,公司確實(shí)用不了這么多技術(shù)人員了,留下部分人員來維護(hù)就夠了。

所以,無論哪家公司,降本增效是業(yè)務(wù)穩(wěn)定后必定會(huì)經(jīng)歷的階段。想想滴滴這次 12 小時(shí)故障的損失,能比養(yǎng) 1000 個(gè)技術(shù)人員的成本高嗎?

對于我們研發(fā)人員,如果有機(jī)會(huì)進(jìn)入快速增長的公司,那就抓住機(jī)會(huì)多掙錢,被裁員的時(shí)候平常心看待就可以了,想在一家公司干到退休太難了。同時(shí)也要看到自己給公司帶來的價(jià)值,千萬不要認(rèn)為我們技術(shù)厲害就比那個(gè) PPT 工程師更有價(jià)值。

總結(jié)

本文根據(jù)網(wǎng)上流傳的滴滴故障的原因,分析了升級(jí)方案和降本增效。

最后,又快年末了,希望大家都能維護(hù)好自己的系統(tǒng),不要發(fā)生嚴(yán)重故障影響自己的年底考核。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 節(jié)點(diǎn)
    +關(guān)注

    關(guān)注

    0

    文章

    220

    瀏覽量

    24604
  • MASTER
    +關(guān)注

    關(guān)注

    0

    文章

    104

    瀏覽量

    11435
  • 滴滴
    +關(guān)注

    關(guān)注

    1

    文章

    193

    瀏覽量

    13098

原文標(biāo)題:一次 k8s 升級(jí),滴滴直接故障 12 小時(shí)?

文章出處:【微信號(hào):小林coding,微信公眾號(hào):小林coding】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    全面提升,阿里云Docker/Kubernetes(K8S) 日志解決方案與選型對比

    摘要: 今天,日志服務(wù)再次升級(jí)Kubernetes(k8s)的日志解決方案。1分鐘內(nèi)即可完成整個(gè)集群部署,支持動(dòng)態(tài)擴(kuò)容,提供采集宿主機(jī)日志、容器日志、容器stdout等所有數(shù)據(jù)源的站式采集。點(diǎn)此
    發(fā)表于 02-28 12:49

    OpenStack與K8s結(jié)合的兩種方案的詳細(xì)介紹和比較

    OpenStack與K8S結(jié)合主要有兩種方案。K8S部署在OpenStack平臺(tái)之上,二是K8S和OpenStack組件集成。
    的頭像 發(fā)表于 10-14 09:38 ?2.7w次閱讀

    如何使用kubernetes client-go實(shí)踐個(gè)簡單的與K8s交互過程

    【導(dǎo)讀】Kubernetes項(xiàng)目使用Go語言編寫,對Go api原生支持非常便捷。 本篇文章介紹了如何使用kubernetes client-go實(shí)踐個(gè)簡單的與K8s交互過程
    的頭像 發(fā)表于 02-02 11:16 ?7001次閱讀
    如何使用kubernetes client-go實(shí)踐<b class='flag-5'>一</b>個(gè)簡單的與<b class='flag-5'>K8s</b>交互過程

    Docker不香嗎為什么還要用K8s

    Docker 雖好用,但面對強(qiáng)大的集群,成千上萬的容器,突然感覺不香了。 這時(shí)候就需要我們的主角 Kubernetes 上場了,先來了解K8s 的基本概念,后面再介紹實(shí)踐,由淺入深步步為營
    的頭像 發(fā)表于 06-02 11:56 ?3540次閱讀

    簡單說明k8s和Docker之間的關(guān)系

    這篇文章主要介紹了k8s和Docker關(guān)系簡單說明,本文利用圖文講解的很透徹,有需要的同學(xué)可以研究下 最近項(xiàng)目用到kubernetes(以下簡稱k8sks之間有
    的頭像 發(fā)表于 06-24 15:48 ?3534次閱讀

    K8S集群服務(wù)訪問失敗怎么辦 K8S故障處理集錦

    問題1:K8S集群服務(wù)訪問失敗? ? ? 原因分析:證書不能被識(shí)別,其原因?yàn)椋鹤远x證書,過期等。 解決方法:更新證書即可。 問題2:K8S集群服務(wù)訪問失敗? curl: (7) Failed
    的頭像 發(fā)表于 09-01 11:11 ?1.6w次閱讀
    <b class='flag-5'>K8S</b>集群服務(wù)訪問失敗怎么辦 <b class='flag-5'>K8S</b><b class='flag-5'>故障</b>處理集錦

    K8S(kubernetes)學(xué)習(xí)指南

    K8S(kubernetes)學(xué)習(xí)指南
    發(fā)表于 06-29 14:14 ?0次下載

    mysql部署在k8s上的實(shí)現(xiàn)方案

    的 RDBMS (Relational Database Management System,關(guān)系數(shù)據(jù)庫管理系統(tǒng)) 應(yīng)用軟件之。這里主要講 mysql 部署在 k8s 上,mysql 部署在 k8s 上的優(yōu)勢主要有以下幾點(diǎn)。
    的頭像 發(fā)表于 09-26 10:39 ?2630次閱讀

    k8s是什么意思?kubeadm部署k8s集群(k8s部署)|PetaExpres

    k8s是什么意思? kubernetes簡稱K8s,是個(gè)開源的,用于管理云平臺(tái)中多個(gè)主機(jī)上的容器化的應(yīng)用,Kubernetes的目標(biāo)是讓部署容器化的應(yīng)用簡單并且高效(powerful
    發(fā)表于 07-19 13:14 ?1193次閱讀

    什么是K3sK8sK3sK8s有什么區(qū)別?

    Kubernetes,通常縮寫為 K8s,是領(lǐng)先的容器編排工具。該開源項(xiàng)目最初由 Google 開發(fā),幫助塑造了現(xiàn)代編排的定義。該系統(tǒng)包括了部署和運(yùn)行容器化系統(tǒng)所需的切。
    的頭像 發(fā)表于 08-03 10:53 ?7873次閱讀

    k8s生態(tài)鏈包含哪些技術(shù)

    1. Apache APISIX Ingress 定義 ? 在 K8s 生態(tài)中,Ingress 作為表示 K8s 流量入口的種資源,想要讓其生效,就需要有個(gè) Ingress Con
    的頭像 發(fā)表于 08-07 10:56 ?1355次閱讀
    <b class='flag-5'>k8s</b>生態(tài)鏈包含哪些技術(shù)

    K8S落地實(shí)踐經(jīng)驗(yàn)分享

    k8s 即 Kubernetes,是個(gè)開源的容器編排引擎,用來對容器化應(yīng)用進(jìn)行自動(dòng)化部署、 擴(kuò)縮和管理。
    的頭像 發(fā)表于 01-02 11:45 ?1306次閱讀
    <b class='flag-5'>K8S</b>落地實(shí)踐經(jīng)驗(yàn)分享

    k8s云原生開發(fā)要求

    Kubernetes(K8s)云原生開發(fā)對硬件有定要求。CPU方面,建議至少配備2個(gè)邏輯核心,高性能CPU更佳。內(nèi)存至少4GB,但8GB或更高更推薦。存儲(chǔ)需至少20-30GB可用空間,SSD提升
    的頭像 發(fā)表于 10-24 10:03 ?349次閱讀
    <b class='flag-5'>k8s</b>云原生開發(fā)要求

    k8s和docker區(qū)別對比,哪個(gè)更強(qiáng)?

    Docker和Kubernetes(K8s)是容器化技術(shù)的兩大流行工具。Docker關(guān)注構(gòu)建和打包容器,適用于本地開發(fā)和單主機(jī)管理;而K8s則提供容器編排和管理平臺(tái),適用于多主機(jī)或云環(huán)境,具備自動(dòng)化
    的頭像 發(fā)表于 12-11 13:55 ?283次閱讀

    自建K8S集群認(rèn)證過期

    今天使用kubectl命令查看pod信息時(shí),直正常運(yùn)行的k8s集群突然不能訪問了,輸入任何命令都提示以下報(bào)錯(cuò)。
    的頭像 發(fā)表于 02-07 12:32 ?167次閱讀
    主站蜘蛛池模板: 无毒成人社区 | 久久亚洲高清观看 | 精品一成人岛国片在线观看 | 手机在线观看毛片 | 又硬又粗又大一区二区三区视频 | 欧美精品亚洲精品日韩专区一 | 国产成人AV永久免费观看 | 午夜视频无码国产在线观看 | 回复术士人生重启在线观看 | 一个人高清在线观看日本免费 | 久久re视频精品538在线 | 双性将军粗壮H灌满怀孕 | 亚洲AV无码乱码国产麻豆穿越 | 欧美久久综合性欧美 | 久久久久久久久久久福利观看 | 跳蛋按摩棒玉势PLAY高H | adc我们的永久网址 adc网址在线观看 | 熟女强奷系列中文字幕 | 97蜜桃123| 久久精品热在线观看30 | 国产一在线精品一区在线观看 | 国产综合自拍 偷拍在线 | 免费撕开胸罩吮胸视频 | 精品久久日日躁夜夜躁AV | 久久99精品国产99久久6男男 | 国语自产一区第二页 | 国产精品99久久久久久AV色戒 | av淘宝 在线观看 | 亚洲精品卡2卡3卡4卡5卡区 | 中文字幕久精品视频在线观看 | 在线免费观看毛片网站 | 国产在线视精品在亚洲 | 变形金刚7免费观看完整 | 嫩草欧美曰韩国产大片 | 久久热这里面只有精品 | 猫咪www958ii| 一区二区三区国产 | 被cao的奶水直喷高H | 在教室伦流澡到高潮H免费视频 | 久久才是精品亚洲国产 | 日韩精品在线观看免费 |