工作內容編輯
在軟件產品的整個生命周期中運維工程師都需要適時地參與并發(fā)揮不同的作用,因此運維工程師的工作內容和方向非常多:
事件管理:目標是在服務出現(xiàn)異常時盡可能快速的恢復服務,從而保障服務的可用性;同時深入分析故障產生的原因,推動并修復服務存在的問題,同時設計并開發(fā)相關的預案以確保服務出現(xiàn)故障時可以高效的止損。在這方面主要工作內容有:
問題發(fā)現(xiàn):設計并開發(fā)高效的監(jiān)控平臺和告警平臺,使用機器學習、大數(shù)據(jù)分析等方法對系統(tǒng)中的大量監(jiān)控數(shù)據(jù)進行匯總分析,以期在系統(tǒng)出現(xiàn)異常的時候可以快速的發(fā)現(xiàn)問題和判斷故障的影響。
問題處理:設計并開發(fā)高效的問題處理平臺和工具,在系統(tǒng)出現(xiàn)異常的時候可以快速/自動決策并觸發(fā)相關止損預案,快速恢復服務。
問題跟蹤:通過分析問題發(fā)生時系統(tǒng)的各種表現(xiàn)(日志、變更、監(jiān)控)確定問題發(fā)生的根本原因,制定并開發(fā)預案工具。
變更管理:以可控的方式,盡可能高效的完成產品功能的迭代的變更工作。在這方面主要工作內容有:
配置管理:通過配置管理平臺(自研、開源)管理服務涉及到的多個模塊、多個版本的關系以及配置的準確性。
發(fā)布管理:通過構建自動化的平臺確保每一次版本變更可以安全可控地發(fā)布到生產環(huán)境。
容量管理:在服務運行維護階段,為了確保服務架構部署的合理性同時掌握服務整體的冗余,需要不斷評估系統(tǒng)的承載能力,并不斷優(yōu)化之。在這方面主要工作內容有:
容量評估:通過技術手段模擬實際的用戶請求,測試整個系統(tǒng)所能承擔的最大吞吐;通過建立容量評估模型分析壓力測試過程中的數(shù)據(jù)以評估整個服務的容量。
容量優(yōu)化:基于容量評估數(shù)據(jù),判斷系統(tǒng)的瓶頸并提供容量優(yōu)化的解決方案。比如通過調整系統(tǒng)參數(shù)、優(yōu)化服務部署架構等方法來高效的提升系統(tǒng)容量。
架構優(yōu)化:為了支持產品的不斷迭代,需要不斷的進行架構優(yōu)化調整。以確保整個產品能夠在功能不斷豐富和復雜的條件下,同時保持高可用性。
能力要求編輯
基礎技能:
熟練掌握常用數(shù)據(jù)結構和算法,并能靈活運用
熟悉網(wǎng)絡基礎知識
深入理解Linux操作系統(tǒng)
加分技能:
熟悉開源的監(jiān)控平臺工具,比如:Ganglia、Nagios、Zabbix等
熟練掌握Shell腳本熟悉Awk、Sed等基礎工具
熟悉分布式計算或者存儲系統(tǒng),比如Hadoop/Hbase/Storm等
熟悉機器學習原理能付諸實踐者更佳
熟悉TCP/IP、HTTP等網(wǎng)絡協(xié)議,精通socket網(wǎng)絡編程
軟素質要求編輯
強烈的責任心與主動性,對所負責工作有owner意識,并能自我驅動成長
能承擔較大工作壓力,有較強獨立分析、解決問題的能力
工作中需要膽大心細,具備探索創(chuàng)新精神
-
運維工程師
+關注
關注
4文章
39瀏覽量
8270
發(fā)布評論請先 登錄
相關推薦
評論