運(yùn)維工程師至少要能做以下的工作:
1,網(wǎng)絡(luò)工程師的工作
你至少要能配置CISCO 6509以下的設(shè)備,熟悉各種網(wǎng)絡(luò)協(xié)議,否則網(wǎng)絡(luò)出問(wèn)題的時(shí)候你會(huì)傻掉。
2,系統(tǒng)工程師的工作
你至少要理解各種系統(tǒng)服務(wù),在出問(wèn)題的情況下要迅速解決問(wèn)題,而不是等系統(tǒng)工程師來(lái)解決。
3,安全工程師的工作
我不要求你一定要會(huì)各種網(wǎng)絡(luò)編程,但是在服務(wù)器收攻擊的情況下,沒(méi)有防火墻的情況下,做一些簡(jiǎn)單的處理工作。
4,存儲(chǔ)工程師的工作
至少要熟悉各個(gè)廠商的設(shè)備,各種備份和還原的辦法
5,測(cè)試工程師的工作
在新版本上線之前,你至少要協(xié)同測(cè)試工程師做測(cè)試工作,因?yàn)槟闶沁\(yùn)維人員,不了解程序架構(gòu)導(dǎo)致無(wú)法解決故障,你也有一份責(zé)任。
6,研發(fā)人員的工作
運(yùn)維工具都需要自已開(kāi)發(fā),熟悉開(kāi)發(fā)語(yǔ)言,需要有過(guò)實(shí)際開(kāi)發(fā)經(jīng)驗(yàn),否則工作會(huì)非常痛苦,我深有體會(huì)。
7,英語(yǔ)
英語(yǔ)四級(jí)至今未過(guò),但真的很重要,英語(yǔ)能學(xué)多好就要學(xué)多好。
8,好的溝通者
不出問(wèn)題時(shí)候你可以打游戲睡覺(jué),出問(wèn)題的時(shí)候要能和項(xiàng)目人員溝通,快速解決問(wèn)題,而不是推;我知道有很多人能推責(zé)任,你可以做替死鬼,但是離開(kāi)這個(gè)工作你還能找到更好的;把責(zé)任推到別人身上的人,下次出問(wèn)題的時(shí)候,絕對(duì)沒(méi)人幫你。你要能和各個(gè)兄弟部門關(guān)系非常的密切,出了問(wèn)題有兄弟幫你擔(dān)責(zé)任;也要能非常扯皮,沒(méi)事在會(huì)議上把別人都搞定。
9,庫(kù)房管理員
數(shù)萬(wàn)臺(tái)服務(wù)器讓你來(lái)管理,任何丟失或者損壞都是不負(fù)責(zé)任和失職的表現(xiàn)。
10,運(yùn)動(dòng)員
不要回家就睡覺(jué),有空還是運(yùn)動(dòng)下吧;在服務(wù)器down機(jī)的時(shí)候,機(jī)房恰巧就你一個(gè)人,機(jī)柜沒(méi)有空間,你需要更換一臺(tái)HP 585 4U的服務(wù)器,滿配約80公斤的服務(wù)器,你怎么做?
11,責(zé)任心
這個(gè)我不想說(shuō)什么,這是你的職業(yè)精神。
12,組織者
給你2個(gè)啥都不會(huì)的民工,再給你2000臺(tái)服務(wù)器,要求你2天把服務(wù)器裝完,你咋辦?
13,1-7條中,你必須有一條非常精通,是這個(gè)行業(yè)的專家。否則過(guò)了32歲,沒(méi)有公司要你。
大家看了肯定覺(jué)得這個(gè)人是神仙,但是這必須是你慢慢能做到的,至少是我6年來(lái)運(yùn)維經(jīng)驗(yàn)的一點(diǎn)總結(jié)。
因?yàn)楝F(xiàn)在的公司都在用招聘民工的錢招聘神仙,其次我也是想讓各位看看,運(yùn)維工程師要擔(dān)負(fù)多少責(zé)任。
我去面試過(guò)的一些公司都說(shuō),你什么都會(huì),什么都不精。我說(shuō)對(duì),正是需要我們這些什么都會(huì)的人領(lǐng)導(dǎo)什么都精的人。
我這句話沒(méi)有貶低大牛的任何意思,只是當(dāng)時(shí)一個(gè)臨場(chǎng)的發(fā)揮。雖然說(shuō)完就知道這個(gè)面試白來(lái)了,但是我還是想為廣大的運(yùn)維工程師出口氣。
不怕千招會(huì),就怕一招精。這仍舊是我給大家的建議。
最后給大家最后最大最重要的建議,做什么工作都可以,千萬(wàn)別做SA。
我把SA的定義成:speediness answer而不是system admin。為什么?你可以想象一下哪些工作需要快速響應(yīng)。網(wǎng)絡(luò)工程師需要,機(jī)房網(wǎng)絡(luò)骨干交換機(jī)故障,整個(gè)機(jī)房所有服務(wù)器無(wú)法連接,需要快速響應(yīng)不?系統(tǒng)工程師需要,系統(tǒng)出問(wèn)題了,要快速響應(yīng)不?安全工程師需要,服務(wù)器被攻擊了,要快速響應(yīng)不?存儲(chǔ)工程師需要,公司核心存儲(chǔ)有問(wèn)題了,要快速響應(yīng)不?
你可以做研發(fā),出了問(wèn)題可以測(cè)試,可以想辦法慢慢解決;你可以做DBA,出了問(wèn)題可以推到網(wǎng)絡(luò)工程師或者系統(tǒng)工程師身上,說(shuō)不是DB連接問(wèn)題;你可以做測(cè)試工程師,你說(shuō)有問(wèn)題這個(gè)東西就可以不上線……在出問(wèn)題的時(shí)候,倒霉的就是SA,所以不要再爭(zhēng)論SA包含哪些工作,SA就是一個(gè)倒霉的快速響應(yīng)者,你想,哪個(gè)SA 24小時(shí)不開(kāi)手機(jī)?哪個(gè)SA 晚上可以舒服的睡覺(jué)或者安心的出去度假?走在路上一聽(tīng)到和自己手機(jī)短信鈴聲一樣的,利馬下意識(shí)的抓出自己的手機(jī)看看是不是服務(wù)器報(bào)警;晚上和老婆 XXOO00,一個(gè)電話過(guò)來(lái),立馬停下,抓出手機(jī)看流量圖;包里放著筆記本,但是因?yàn)檫€要開(kāi)機(jī),太慢,拿著手機(jī)上putty ping或者telnet機(jī)器……
這就是大家羨慕的SA ,你也不要抱怨自己做了SA,生活就是這樣。所以不要再爭(zhēng)論哪些xxx員應(yīng)該歸屬于SA,系統(tǒng)管理員或是運(yùn)維工程師,如果想做這行,就安生的當(dāng)一個(gè)“快速響應(yīng)者”,這是你的職業(yè),也是你需要做到的。作為一個(gè)SA,你肯定經(jīng)歷過(guò)通宵好幾天加班做事,你肯定經(jīng)歷過(guò)飯買來(lái)已經(jīng)忘記了吃,你肯定經(jīng)歷過(guò)幾天加班沒(méi)睡覺(jué),著個(gè)沙發(fā)坐下就失去知覺(jué)睡倒……沒(méi)有經(jīng)歷過(guò)不能說(shuō)你不好,只能說(shuō)你管理的機(jī)器太少。
一,架構(gòu)設(shè)計(jì)
現(xiàn)在你要做的,就是設(shè)計(jì)你的服務(wù)器架構(gòu)和網(wǎng)絡(luò)架構(gòu)。這要先看你的網(wǎng)站是做什么的,每日有多少的人數(shù)訪問(wèn),
例如,我打算站點(diǎn)初期每日有20000左右的訪問(wèn)量,和1000人左右的并發(fā)量。我可以用我的人數(shù)并發(fā)量1000×站點(diǎn)中每個(gè)頁(yè)面的平均大小200k×每個(gè)訪問(wèn)用戶可能要打開(kāi)4個(gè)網(wǎng)頁(yè)=800 000k=800M的網(wǎng)絡(luò)流量(當(dāng)然這個(gè)數(shù)字肯定是非常的過(guò)分,至于為啥,自己可以想下)
然后可以用測(cè)試環(huán)境用軟件檢測(cè)在你的真實(shí)環(huán)境下的服務(wù)器壓力,比如在2000人在線的情況下,服務(wù)器的cpu占用多少,內(nèi)存占用多少。
那么你可以得到你大致配置,其實(shí)市面上的標(biāo)準(zhǔn)服務(wù)器配置都足夠你用了,比如現(xiàn)在的DELL 1950,HP DL360G5,IBM X???(忘記了)
等服務(wù)器,足夠我跑一個(gè)這樣簡(jiǎn)單的網(wǎng)站。其實(shí)說(shuō)白了,雙奔3都?jí)?,真的。?dāng)然你網(wǎng)站的流量比我要大的多,那你可以買的更好一點(diǎn)的服務(wù)器?;蛘哓?fù)載均衡器。
網(wǎng)絡(luò)架構(gòu)
站點(diǎn)現(xiàn)在是一***立服務(wù)器,未來(lái)采用的是分布式架構(gòu),比如bbs.hilinux.com是一臺(tái)服務(wù)器,man.hilinux.com是一臺(tái)服務(wù)器……
mysql是一臺(tái)服務(wù)器。這樣你要算服務(wù)器要多少臺(tái),交換機(jī)要多少口,防火墻要買什么級(jí)別的。
哪些服務(wù)器可以放在一個(gè)防火墻下,哪些服務(wù)器不用防火墻保護(hù),哪些服務(wù)器是內(nèi)網(wǎng)服務(wù)器,
需要什么樣的網(wǎng)絡(luò)連接,最好是畫出大致拓?fù)洌奖隳泐A(yù)算設(shè)備花費(fèi)。
服務(wù)器交換機(jī)等設(shè)備選型和購(gòu)買
說(shuō)的簡(jiǎn)單點(diǎn)就是買什么機(jī)器,你可以和google一樣開(kāi)始,買幾臺(tái)pc作為你的網(wǎng)站服務(wù)器,也可以自己組裝一臺(tái)服務(wù)器
或者也可以和我一樣,去挑選品牌服務(wù)器當(dāng)然,現(xiàn)在你要看你服務(wù)器做什么的,
你可以親自去電腦城看組裝服務(wù)器,也可以打電話到IBM,HP,DELL的各地銷售商讓他們送服務(wù)器來(lái)測(cè)試,
當(dāng)然你不要告訴他們你只買一臺(tái),那你就別指望測(cè)試了。我告訴供貨商hilinux.com需要200臺(tái)服務(wù)器,一個(gè)F5,10臺(tái)CISCO 2960交換機(jī),3個(gè)NETSREEN206防火墻,一個(gè)EMCCX500+滿硬盤
那么不到3天,hilinux.com所需要的4臺(tái)測(cè)試服務(wù)器,就送來(lái)了……當(dāng)然,不要牛了這么多最后只買1臺(tái),那么你晚上走夜路會(huì)被人打的。
最后就是價(jià)錢問(wèn)題了,這個(gè)你自己看著辦吧。讓你公司的財(cái)務(wù)或者采購(gòu)出馬砍價(jià)付錢就是了。當(dāng)然,除了服務(wù)器的服務(wù),你最好還是想想有利于自己的服務(wù),比如人家公司可以幫你拆箱子了什么的。我做的最弱智的一件事情就是,來(lái)了400臺(tái)服務(wù)器,50個(gè)交換機(jī),8臺(tái)EMC,我一個(gè)人花了一星期把箱子才全部拆完……
機(jī)器選型的時(shí)候你也要為自己考慮,比如HP的ILO功能,可以讓你遠(yuǎn)程BIOS級(jí)操作服務(wù)器,比如浪潮的自動(dòng)資產(chǎn)管理等等,為自己管理服務(wù)器提供便利,否則機(jī)器10來(lái)臺(tái)還好,100臺(tái)還一般,我這里3萬(wàn)來(lái)臺(tái),我不死幾百遍了。丟失一臺(tái)服務(wù)器,幾個(gè)月工錢就沒(méi)了……
二,IDC選擇
首先要看你服務(wù)的地區(qū)是哪里,然后再去找當(dāng)?shù)氐碾娦艡C(jī)房。畢竟,雖說(shuō)全國(guó)已經(jīng)互聯(lián)了,但是各地的網(wǎng)速還是有差異的。
或者說(shuō)有的IDC機(jī)房利用率高,雖然出口帶寬大,但是利用率高的結(jié)果是導(dǎo)致你網(wǎng)速慢的原因之一。
我的做法是在全國(guó)各個(gè)機(jī)房的服務(wù)器用pingplus這個(gè)軟件進(jìn)行一周的的流量測(cè)試。可以看到平均丟包,最大延時(shí)等等。
當(dāng)然,你也可以到你目標(biāo)服務(wù)的地方,找個(gè)可以上網(wǎng)的地方進(jìn)行網(wǎng)絡(luò)測(cè)試,比如說(shuō)網(wǎng)吧包個(gè)機(jī)器……
好了,網(wǎng)絡(luò)測(cè)試完了。那么你已經(jīng)決定去哪個(gè)IDC了吧。
然后你就可以電話或者自己提著禮品登門拜訪一下IDC服務(wù)商的老大了
當(dāng)然,你也可以找代理服務(wù)商,因?yàn)樗麄兡玫降膬r(jià)錢有時(shí)候比電信或者網(wǎng)通給你的價(jià)錢低,但是,關(guān)鍵還是一個(gè)服務(wù),因?yàn)槟惝吘狗?wù)器放在那,晚上關(guān)鍵著急沒(méi)人給你重啟,機(jī)器出了問(wèn)題其實(shí)按個(gè)F1就可以解決的問(wèn)題,服務(wù)商的值班人員不懂。你就只能打晚上的打飛機(jī)去機(jī)房維護(hù)吧。
提著東西拜訪一下服務(wù)商老大是禮節(jié)性的東西,東西不在多而在精,這樣你未來(lái)談事情人家也給你綠色通道,做事情要好做很多。當(dāng)然,我也不反對(duì)你空手去,你一次租個(gè)100個(gè)機(jī)柜+10G帶寬,人家還是很優(yōu)惠的。哈哈。大家都是混口飯吃,也不至于難為你什么。
最后你要知道現(xiàn)在的中國(guó)還是賣方市場(chǎng),你給人家牛,那你買的產(chǎn)品只能是……蒙牛
然后是開(kāi)始去參觀機(jī)房
細(xì)心的檢查一下空調(diào)數(shù)量,空調(diào)出廠和最后維護(hù)日期,網(wǎng)絡(luò)布線類型和架構(gòu),是否可擴(kuò)展,主備從電力等。
基本都是非常關(guān)鍵的東西,出問(wèn)題了,人家可以給你更換一個(gè)新的,服務(wù)很好,但是你服務(wù)器掛一天的損失是多少,你可以自己掂量。
還有機(jī)柜電力,現(xiàn)在的機(jī)柜放置16臺(tái)1U的服務(wù)器是正好,多了過(guò)于熱,少了資源浪費(fèi);但是你發(fā)現(xiàn)人家只讓你用10安培電力,過(guò)了要交錢買電;
或者不限制你用電,但是插線板只有10個(gè),你還真買個(gè)托線板去轉(zhuǎn)接?你要想想你一個(gè)托線板掛了,你服務(wù)器要掛幾個(gè)?
最后,我的一個(gè)機(jī)房包間里140個(gè)機(jī)柜,2個(gè)空調(diào),結(jié)果某天掛了一個(gè)空調(diào),雖然6小時(shí)人家IDC商就給更換了一個(gè)空調(diào)機(jī)(這速度已經(jīng)非??炝耍?,
結(jié)果我機(jī)器至少被熱死了100臺(tái)以上,機(jī)器是HP的,機(jī)器過(guò)熱,HP會(huì)自動(dòng)關(guān)機(jī),而且會(huì)不讓你啟動(dòng)。你崩潰不?注:不是給hp做廣告哈。
三,服務(wù)器上架
好了,要是你買的服務(wù)器到了,你會(huì)發(fā)現(xiàn)你接到電話后,樓下一個(gè)N大的“擎天柱”集裝箱車給你送服務(wù)器來(lái)……(某次我收2000臺(tái)服務(wù)器就是這樣的陣勢(shì));在這里有個(gè)重大的提示,你們財(cái)務(wù)給廠商下單的時(shí)候,收貨地址一定要寫對(duì)。比如XX路XX號(hào)XX大廈XX樓XX室,你寫到xx號(hào),送快遞的會(huì)給你堆到院子里,你寫到xx樓,送快遞的會(huì)給你送到電梯口,你寫到xx室,他們才會(huì)給你搬到室內(nèi)。因?yàn)樗拓浀亩际欠?wù)器廠商找的,你因?yàn)檫@個(gè)事情去聯(lián)系廠商修改送貨地址,至少要多等N小時(shí)。而且他們視你的單子的數(shù)量和樓層,判斷來(lái)多少搬運(yùn)人員。而且,一定要把服務(wù)器搬到你指定的地方再簽字收貨,否則……嘿嘿……
我最霉氣的是:來(lái)了20臺(tái)機(jī)器(還好不多),下著大雨人家給我往院子里一丟,讓我自己搬上19樓,我沒(méi)推車沒(méi)啥的……
你可以說(shuō),找電信的幫忙撒,廢話,這個(gè)我還不知道。那我告訴你,我在某電信大樓工作時(shí),從CCIE到機(jī)房主管到機(jī)房工作人員,全部是美女……
雖然我在這個(gè)地方只干了5天活,我的同事們口水都有3尺長(zhǎng)……你還叫人家給你搬機(jī)器不?
你可以說(shuō),雇民工撒,我又不是沒(méi)雇過(guò),錢得你自己支付,公司不給你報(bào)銷的話,爽不?
下面是拆箱子,面對(duì)著堆積如山的2000臺(tái)服務(wù)器,我是連抬手的力氣都拿不出來(lái)……當(dāng)時(shí)機(jī)房只有我們公司3個(gè)人+電信值班2個(gè)人……
這時(shí)候,我的辦法是……我打電話找來(lái)了2隊(duì)收廢品的:
這么多箱子,除了機(jī)器和電源線留下,里頭的導(dǎo)軌光盤等等你全部拿走,誰(shuí)拆的多誰(shuí)拿的多……
最后按照我的要求幫忙搬到機(jī)柜上……于是我們5個(gè)人是監(jiān)工……看人家拆箱子搬機(jī)器。
于是人家2隊(duì)人找來(lái)了30多號(hào)人,一早上把2000臺(tái)機(jī)器全部拆箱子完畢放到機(jī)柜上。
要是我們幾個(gè)人拆,估計(jì)…………
最后再說(shuō)個(gè)行價(jià),服務(wù)器箱子一個(gè)價(jià)值5塊錢甚至更多。你服務(wù)器到了,賣賣箱子請(qǐng)大家吃飯吧。別讓掃地的阿姨拿走,幾個(gè)無(wú)所謂,10來(lái)個(gè)箱子,夠大伙兒吃頓烤肉了……還有EMC的木箱子……拿去養(yǎng)個(gè)小雞小鴨的……
42U機(jī)柜1U的服務(wù)器最好是16臺(tái)。你就看著上吧。呵呵
四,安裝系統(tǒng)和布線
好了,面對(duì)幾千臺(tái)服務(wù)器開(kāi)始裝系統(tǒng),我不知道你會(huì)怎么想……
全部是1U服務(wù)器有什么辦法安裝系統(tǒng)?(我們公司窮,買不起刀片;而且電信不配合,要是上刀片,電路你們自己拉線,價(jià)錢還是原來(lái)的價(jià)錢;最重要的……我們公司以人為本,寧愿多養(yǎng)個(gè)人也不愿意買個(gè)好服務(wù)器讓人失業(yè)),而且不允許GHOST,因?yàn)槟氵@是服務(wù)器,不是網(wǎng)吧……GHOST出來(lái)的系統(tǒng),我不知道誰(shuí)用過(guò),爽不。我自己是郁悶郁悶到了,莫名問(wèn)題的時(shí)候,你就知道GHOST還是靠不住的。
其次,我們公司安全部要求:必須得一臺(tái)一臺(tái)安裝,先安裝光板的系統(tǒng)(比如沒(méi)有SP的WIn2000),然后手工打SP4補(bǔ)丁,不能網(wǎng)絡(luò)打補(bǔ)丁。于是我們就光盤堆成山。最扯淡的,為了快,我做了一個(gè)補(bǔ)丁共享的服務(wù)器,所有的補(bǔ)丁CP的本地來(lái)打。結(jié)果忘記拔網(wǎng)線,導(dǎo)致人家說(shuō)我們是插了網(wǎng)線打補(bǔ)丁,有中毒的危險(xiǎn),需要重裝。我直接崩潰……
辦法1,你可以1臺(tái)1臺(tái)慢慢裝,反正這么多機(jī)器,你可以管公司要更多的時(shí)間。但是我們公司一般是機(jī)器到了,最多2-3天就要要,一向是那種計(jì)劃不如變化快的沒(méi)有計(jì)劃沒(méi)有進(jìn)度管理的“小”公司,項(xiàng)目組拿著雞毛當(dāng)令箭,牛x哄哄的公司。郁悶!
這個(gè)時(shí)候前期的準(zhǔn)備就比較重要了(我公司多用windows2003),因?yàn)槭紫任乙b一個(gè)光系統(tǒng),再打驅(qū)動(dòng),再打補(bǔ)丁,再安裝遠(yuǎn)程控制軟件。一臺(tái)機(jī)器裝完大約要1小時(shí)多點(diǎn)。那么機(jī)器多了怎么辦?光盤不夠怎么辦?等等問(wèn)題就來(lái)了。
我的辦法是,我一看TMD全部是DVD,IBM的機(jī)器直接佩combo,公司給我們發(fā)的全部是CD,娘的,典型的沒(méi)有最慢只有更慢,出了問(wèn)題閑你慢的領(lǐng)導(dǎo)班子。于是只好自己出錢買了DVD,用軟件把RAID,網(wǎng)卡,顯卡其他驅(qū)動(dòng)做到光盤里,需要安裝的軟件也直接做成自動(dòng)安裝的方式,補(bǔ)丁也刻錄到光盤里(我們要求補(bǔ)丁必須單打,不能安裝集成補(bǔ)丁的ISO,shit),這樣弄,你只用把光盤往光驅(qū)里一丟,分區(qū)一分,就可以下一臺(tái)機(jī)器了。然后等你在去關(guān)注這個(gè)機(jī)器的時(shí)候,已經(jīng)可以設(shè)置IP插網(wǎng)線了。靈感來(lái)自番茄花園。吼吼。
當(dāng)然這時(shí)候你最好是買個(gè)KVM,16口的KVM,一次準(zhǔn)備16張光盤就可以用一套鍵盤鼠標(biāo)操作16臺(tái)機(jī)器。當(dāng)然啦,KVM是可以級(jí)聯(lián)的,我最牛一次一次一套鍵盤安裝166臺(tái)機(jī)器。郁悶的是,塞光盤塞死,插KVM線插死,配置IP配死,有時(shí)候還會(huì)弄錯(cuò)……
辦法2,你可以用NETKVM去遠(yuǎn)程安裝,但是你插那些NETKVM的線路,2000個(gè)插下來(lái),爽不?然后你繼續(xù)扎KVM和網(wǎng)線的時(shí)候,看著和瀑布一樣的網(wǎng)線和KVM線交錯(cuò)在一起。估計(jì)直接崩潰。遠(yuǎn)程KVM有的牛x的是可以分發(fā)ISO的,就是傳說(shuō)中的遠(yuǎn)程分發(fā)安裝。可以自己買一個(gè)研究研究了,我們公司以人為本,從來(lái)不買這類高科技。
辦法3,我犯賤時(shí)候發(fā)明的:我們的機(jī)器全部是RAID1,于是我安裝一臺(tái)raid1的機(jī)器,系統(tǒng)全部安裝好,然后拔掉一個(gè)硬盤,插上一個(gè)新硬盤自動(dòng)恢復(fù)鏡像,基本10來(lái)分鐘恢復(fù)好一個(gè)硬盤,插到機(jī)器上去。這樣,還是比裝系統(tǒng)來(lái)的快。當(dāng)然啦,型號(hào)是一模一樣的……
辦法4,HP的ILO2功能,實(shí)現(xiàn)遠(yuǎn)程分發(fā)。前提你得一臺(tái)一臺(tái)配置好BIOS里的ILO2。也是蠻痛苦的。IBM和DELL現(xiàn)在也都有這個(gè)功能,但是你在分發(fā)以前,還是得一臺(tái)一臺(tái)機(jī)器插上網(wǎng)線,配置好BIOS的IP,痛苦。然后把操作系統(tǒng)和機(jī)器的驅(qū)動(dòng)程序和后續(xù)的軟件全部做到一張DVD里,讓他自動(dòng)運(yùn)行。然后所有的服務(wù)器遠(yuǎn)程運(yùn)營(yíng)這一個(gè)ISO,最好多弄幾臺(tái),否則一臺(tái)機(jī)器弄的慢死。
辦法5,絕對(duì)最簡(jiǎn)單的辦法!??!就是買機(jī)器前,讓廠家給你在硬盤里灌好系統(tǒng),和你買筆記本一樣,打開(kāi)是個(gè)安裝完成需要你輸入序列號(hào)的系統(tǒng)。但是弱點(diǎn)是后續(xù)的軟件需要自己裝。因?yàn)榉?wù)器廠商是不會(huì)幫你安裝別的軟件的。
還有更多的辦法,只是暫時(shí)沒(méi)想到,大家也可以談?wù)撟约旱霓k法?;ハ嘟涣髀?。(51CTO編輯注:其實(shí)現(xiàn)在已經(jīng)有很多無(wú)人值守安裝系統(tǒng)的管理軟件,比如KickStart和現(xiàn)在流行的Cobbler,都是不錯(cuò)的批量安裝工具,而且都是開(kāi)源的。現(xiàn)在都追求自動(dòng)化,希望越來(lái)越多的運(yùn)維們將不必面對(duì)一臺(tái)一臺(tái)裝機(jī)的困擾)
所以我喜歡linux,可以用N種辦法安裝系統(tǒng)。
windows就是個(gè)讓IT人當(dāng)裝機(jī)男,挨踢人當(dāng)民工。
好了系統(tǒng)裝好了,電源線和網(wǎng)線連接完,和瀑布一樣的。這時(shí)候還是盡量把他扎一下吧。
否則機(jī)器通風(fēng)不暢,會(huì)導(dǎo)致熱死。
簡(jiǎn)單辦法就是電源線扎一邊,網(wǎng)線扎一邊。有錢的公司可以買個(gè)網(wǎng)線序號(hào)標(biāo),沒(méi)錢就自己拿膠布標(biāo)。
你可以隨便扎,或者和給你老婆梳頭一樣,好好扎。哈哈
插交換機(jī)的時(shí)候,從上往下,從1-24往后,這樣網(wǎng)絡(luò)異常,數(shù)一下就知道了。
想來(lái)想去這里也沒(méi)啥值得關(guān)注的地方。所以就幾行帶過(guò)。
五,資產(chǎn)統(tǒng)計(jì)
假如你的機(jī)器只有2000臺(tái)反而好容易管理了,但是現(xiàn)在我要管理的全國(guó)IDC有31個(gè),平均每個(gè)機(jī)房有不同品牌服務(wù)器1500臺(tái)。
一共大約有45000臺(tái)的樣子(我的資產(chǎn)管理系統(tǒng)里的數(shù)字,不包含交換機(jī),防火墻等)
這時(shí)候怎么辦?
每季度和財(cái)務(wù)小MM一起出去旅游盤點(diǎn)IDC資產(chǎn),幸福啊……(我們財(cái)務(wù)小mm很PL的哦)
到了機(jī)房就是我一個(gè)人干活點(diǎn)資產(chǎn),小mm帶著大口罩,披著雙層的放輻射服……
可憐我們這些干活的,短褲背心,IDC里一呆就是好幾個(gè)月(IDC辦公室就在機(jī)房邊上……),不知道精子被輻射殺死多少……
1,必須有資產(chǎn)管理系統(tǒng),雖然這個(gè)其實(shí)是個(gè)很簡(jiǎn)單的數(shù)據(jù)庫(kù),但是你可以把每一臺(tái)機(jī)器的品牌,硬件信息,操作系統(tǒng)信息,購(gòu)買年限,質(zhì)保年限等,你非常關(guān)注的東西做一個(gè)詳細(xì)記錄,并配發(fā)同一的資產(chǎn)編號(hào)。
比如我們的資產(chǎn)號(hào),F(xiàn)WQ-123456
服務(wù)器-123456,這是一個(gè)總的資產(chǎn)號(hào),這個(gè)服務(wù)器哪怕搬到美國(guó),也是這1個(gè)資產(chǎn),直到丟失,或者拋棄,都是這一個(gè)資產(chǎn),永遠(yuǎn)不會(huì)變。
比如我現(xiàn)在的板凳就是一個(gè)資產(chǎn)號(hào)是:服務(wù)器-000010的一個(gè)4U服務(wù)器,配置是P2300*2 256M內(nèi)存 16G硬盤×4
購(gòu)買時(shí)間是1999年10月,從中維修過(guò)1次,升級(jí)過(guò)1次,在哈爾濱機(jī)房-廣州機(jī)房-河南機(jī)房-北京網(wǎng)通機(jī)房-上海公司內(nèi)部測(cè)試機(jī)房-上海庫(kù)房服役過(guò)。
有歷史吧……。
2,送到機(jī)房
看過(guò)我這個(gè)服務(wù)器去過(guò)的地方,羨慕不?見(jiàn)證我們公司的發(fā)展史。9年過(guò)去了,終于成了我的板凳……
服務(wù)器在購(gòu)買合同確定以后,就應(yīng)該按照配置記錄資產(chǎn),并且在財(cái)務(wù)備案,資產(chǎn)編號(hào)一定和財(cái)務(wù)記錄相同。這樣這個(gè)服務(wù)器走到哪里,都有備案和記錄?,F(xiàn)在要把這個(gè)服務(wù)器送到某個(gè)機(jī)房去,搬著走吧……汗
送到機(jī)房,我們要給服務(wù)器按照財(cái)務(wù)給的表格粘貼資產(chǎn)編號(hào),選個(gè)順眼的地方,不會(huì)磨損的地方。
一般是機(jī)器正面某個(gè)地方,然后是機(jī)器屁股后面某個(gè)地方,然后機(jī)器側(cè)面把手的地方,粘貼3個(gè),以防掉了就煩了。
然后在粘貼這個(gè)機(jī)器的應(yīng)用資產(chǎn)號(hào)和IP標(biāo)簽:
應(yīng)用資產(chǎn)號(hào)舉例:FWQ-SH-XX-B31-WEBSERVER 意思是:服務(wù)器-上海-xx機(jī)房-B列31號(hào)機(jī)柜-web服務(wù)器
IP標(biāo)簽舉例:外123.234.123.234內(nèi)10.0.0.1。這2個(gè)標(biāo)簽?zāi)憧梢苑珠_(kāi)也可以在一張標(biāo)簽上寫清楚。
并且在安裝服務(wù)器的時(shí)候。把FWQ-SH-XX-B31-WEBSERVER-123-234 把這個(gè)作為你的HOSTS信息,windows里叫做計(jì)算機(jī)名
這樣遠(yuǎn)程上來(lái)都非常清晰自己在哪個(gè)服務(wù)器上,出問(wèn)題時(shí)候也非常容易找到這個(gè)機(jī)器,不要閑麻煩,一切的麻煩都是為了以后快速的解決down機(jī)問(wèn)題而做的。
當(dāng)然啦,甚至在密碼管理上你也可以用這個(gè)規(guī)則來(lái)設(shè)置密碼,但是最好規(guī)則別讓別人知道了……
3,把這些信息全部錄入你的資產(chǎn)管理系統(tǒng)
系統(tǒng)無(wú)非服務(wù)器名,IP信息,用途,機(jī)架位置,或者是否在使用一類的,我就不多講了
4,資產(chǎn)系統(tǒng)軟件交互,也可以說(shuō)是監(jiān)控系統(tǒng)。
企業(yè)可以開(kāi)發(fā)一個(gè)軟件,在裝機(jī)的時(shí)候安裝到服務(wù)器上。然后資產(chǎn)管理系統(tǒng)定時(shí)去取服務(wù)器上的信息,比如網(wǎng)絡(luò)流量,CPU內(nèi)存硬盤負(fù)載一類的東西,這樣你的資產(chǎn)管理系統(tǒng)又變成了一個(gè)監(jiān)控系統(tǒng);
當(dāng)然啦,你也可以在資產(chǎn)系統(tǒng)里集成一個(gè)遠(yuǎn)程桌面管理系統(tǒng),自動(dòng)載入用戶名和密碼,還有隨機(jī)碼,就可以登錄系統(tǒng)。省的還得管理服務(wù)器密碼。
然后用戶的訪問(wèn)權(quán)限不同,看到的節(jié)面權(quán)限就不同。
比如說(shuō),監(jiān)控人員沒(méi)有登錄權(quán)限,或者IDC人員沒(méi)有登錄權(quán)限一類。權(quán)限分配你自己研究好了。
5,還是IDC的工作。
話題繼續(xù)回到我和財(cái)務(wù)小mm去盤點(diǎn)(你公司比較大的話,你可以多派幾個(gè)人分開(kāi)去各個(gè)地方……)
小mm一看我們機(jī)房服務(wù)器黑壓壓的一片,鋪天蓋地的,直接無(wú)語(yǔ)。為啥,因?yàn)橐弥Y產(chǎn)表一個(gè)一個(gè)核對(duì),面對(duì)幾千個(gè)機(jī)器,直接暈倒。
雖然按照資產(chǎn)管理系統(tǒng)里導(dǎo)出的信息,機(jī)柜號(hào),IP號(hào),機(jī)器從上到下的順序都非常精確,但是你一個(gè)一個(gè)核對(duì),還是慢。
怎么辦?
庫(kù)房管理的工作用上了,哈哈。你買服務(wù)器或者買筆記本電腦的時(shí)候有沒(méi)有注意到箱子上的條碼?
那個(gè)條碼非常清楚的記錄了這個(gè)機(jī)器的詳細(xì)信息。所以黑莓手機(jī)或者NOKIA手機(jī)(別的我沒(méi)用過(guò))都有掃描條碼的功能……好像與主題無(wú)關(guān)……
那么剩下的就簡(jiǎn)單了。
去買個(gè)這種條碼標(biāo)簽的打印機(jī),編輯成自己需要的條碼,一個(gè)一個(gè)貼好,上面有你所有需要盤點(diǎn)的信息……
比如我們是從資產(chǎn)到機(jī)柜號(hào)到服務(wù)器名字到內(nèi)外網(wǎng)IP都要盤點(diǎn)……小崩潰
打印出來(lái)貼上去。然后買個(gè)掃描槍,和超市那種一樣,不過(guò)你要買有存儲(chǔ)功能的,否則你要端著筆記本去掃描,SB了。
然后我和財(cái)務(wù)mm本來(lái)需要一個(gè)人念號(hào)碼一個(gè)人核對(duì)(你要直到在機(jī)房里大喊資產(chǎn)號(hào),喊一天的結(jié)果是啥,自己想),現(xiàn)在一個(gè)人拿一個(gè)掃描槍,按照規(guī)則一個(gè)一個(gè)掃描。完成后把數(shù)據(jù)導(dǎo)出后重新整理分析。直接和數(shù)據(jù)庫(kù)核對(duì)(當(dāng)然這個(gè)也需要你自己開(kāi)發(fā)),核對(duì)完成生成一張表。
表上寫的非常清楚你哪個(gè)機(jī)架沒(méi)有哪個(gè)機(jī)器,哪個(gè)機(jī)器不在特定的位置上,哪個(gè)機(jī)器缺少……等等
這樣比如說(shuō),機(jī)器位置不對(duì)扣5塊錢工資,機(jī)器IP不對(duì)扣2塊錢工資,或者……反正扣到最后……這月不給發(fā)工資了,還得倒貼點(diǎn)……哈哈哈
六,監(jiān)控架構(gòu)
監(jiān)控架構(gòu)其實(shí)每個(gè)地方都有自己的做法,我也知道我的辦法不是很先進(jìn),但是仍然拿出來(lái)和大家一起討論
首先談?wù)劚O(jiān)控軟件,一說(shuō)起這個(gè)常用的東西MRTG,cacti一類的就都可以用了。只要稍微歸類一下,流量展示看的還是很清楚的。
要是要監(jiān)控服務(wù)一類的,那就只好啟用大名鼎鼎的nagios,和一些牛x人基于這個(gè)做的一些別的商業(yè)軟件。
或者就是自己做個(gè)腳本去定時(shí)探一下,不通了給你發(fā)郵件了啥的,你vim一下nagios的chack_xxx,學(xué)習(xí)一下里頭人家探測(cè)的辦法,自己也能搞出來(lái)個(gè)啥東西,都還是很不錯(cuò)的了。
作為IDC工程師,我們所要關(guān)注的東西就是個(gè)流量了,我們要很清楚某臺(tái)65下的某臺(tái)35上每個(gè)口的應(yīng)用,當(dāng)遭受攻擊或者流量異常的時(shí)候,一眼就能知道是怎么回事。我不相信你天天看著10M的流量,某天突然一下給你來(lái)個(gè)80M,你說(shuō)這是正常事件吧。哪怕正常,你也找相關(guān)的人確認(rèn)一下吧,一個(gè)100m口跑 80M,估計(jì)電信的人都來(lái)找你了。
每天看著這些流量圖是很枯燥的事情,那么我們沒(méi)事只能想辦法讓他自動(dòng)報(bào)警給我們了,于是EMAIL報(bào)警,然后把他發(fā)送到一個(gè)有手機(jī)提示新郵件的郵箱,你手機(jī)就有了。MSN報(bào)警,還是不錯(cuò)的吧,手機(jī)報(bào)警一類的辦法都是不錯(cuò)的。這樣你你可以和我一樣放心的去打網(wǎng)游了。
這里只談經(jīng)驗(yàn),不談詳細(xì)的技術(shù),因?yàn)槲乙徽f(shuō)我的系統(tǒng)架構(gòu)地球人都知道我是哪個(gè)公司的了,雖然已經(jīng)離職,但是咱也有個(gè)職業(yè)道德,謝謝。
當(dāng)然了,有些公司是有網(wǎng)絡(luò)監(jiān)控部門的。但是我就一直在想這個(gè)問(wèn)題,所有的數(shù)值都可以用短信報(bào)警,你隨時(shí)都可以收到信息。用這個(gè)部門干啥,讓一群可憐的家伙 8小時(shí)一動(dòng)不動(dòng)盯著屏幕,公司又在他們電腦上安裝了抓屏軟件,上班事件聊天上網(wǎng)就扣錢……我估計(jì)他們每天最期望的事情也莫過(guò)于服務(wù)器掛了,可以給我們打個(gè)電話重啟個(gè)服務(wù)器或者連到服務(wù)器上檢查一下啥問(wèn)題,重啟個(gè)服務(wù)了啥的。當(dāng)然了,這些兄弟最后的職業(yè)方向也只能是進(jìn)入運(yùn)維部門了,至少公司服務(wù)器宕機(jī)維護(hù)的流程性東西掌握的非常熟練了。但是這是用好幾年時(shí)間換來(lái)的經(jīng)驗(yàn),太……所以我是奉勸兄弟們有發(fā)現(xiàn)監(jiān)控部門招聘人,就別去了吧。面前8臺(tái)顯示器,猛一看還以為是黑客帝國(guó)吶,結(jié)果仔細(xì)一看全tmd是流量圖。常年對(duì)著8個(gè)顯示器,那個(gè)輻射……
我就不清楚設(shè)置個(gè)節(jié)點(diǎn),出現(xiàn)問(wèn)題告訴人,人去操作會(huì)死啊,非要讓人和機(jī)器一樣一動(dòng)不動(dòng)的盯著顯示器,TMD,官僚。雖然我沒(méi)經(jīng)歷過(guò),但是想也能想到。做SA,最大的要點(diǎn)是懶,把一些需要人做的事情都自動(dòng)化……但是話說(shuō)回來(lái),我公司以人為本,人海戰(zhàn)術(shù)嘛,可以理解。
上面的帖子位子已經(jīng)滿了,下來(lái)的帖子在這里寫。
企業(yè)實(shí)際面對(duì)的一些問(wèn)題
我大概通讀了veyron 大俠的文章,認(rèn)為系統(tǒng)架構(gòu)方面的我絕對(duì)不如他。我就不在這里賣藝了,那么我賣企業(yè)都會(huì)實(shí)際面對(duì)的一些問(wèn)題。
1,自動(dòng)化,流程化你的信息管理
為什么要自動(dòng)化,這年頭流行辦公自動(dòng)化,你丫沒(méi)事還拿著工單四處簽字,老土了吧。
為什么要流程化,這念頭流行流程管理,假如你公司沒(méi)有一個(gè)固定的流程管理,出了事情,大家都不知道怎么做,各個(gè)部門的電話亂打,大家都一鍋粥沒(méi)有效率。所以,未雨綢繆,在沒(méi)有出問(wèn)題的時(shí)候,模擬出問(wèn)題,多多準(zhǔn)備,建立規(guī)范的流程,公司的每個(gè)人都要遵守,這樣,流程化的管理+辦公自動(dòng)化,大家只用在電腦上翹翹鍵盤,點(diǎn)擊確定,流程就發(fā)出去,一路審批,OK,流程發(fā)送到做事的人地方,也許這個(gè)做事的人在美國(guó),也一樣方便。
上面說(shuō)的是一個(gè)原理和意思,用這樣的理念去管理你的服務(wù)器應(yīng)該如何去做?當(dāng)然了,你假如只有10來(lái)臺(tái)服務(wù)器,就不用考慮這個(gè)了……。
首先服務(wù)器采購(gòu)錄入資產(chǎn)管理系統(tǒng)(詳細(xì)見(jiàn)上面有寫),服務(wù)器的去向和調(diào)度都在管理系統(tǒng)里有提現(xiàn)。
這里說(shuō)的是:如何去上架,維修,下架等流程控制
先說(shuō)上架下架:服務(wù)器到機(jī)房以后,別人要用服務(wù)器怎么辦?先可以到你的資產(chǎn)管理系統(tǒng)里,看你機(jī)房還有什么配置的機(jī)器多少臺(tái),然后讓他們選擇自己項(xiàng)目服務(wù)器的配置,數(shù)量。在流程管理系統(tǒng)中,把這些機(jī)器選中,生成一個(gè)表單,表單名字為xx項(xiàng)目上架需求,寫清楚誰(shuí)用,做什么,數(shù)量,哪個(gè)機(jī)房等。然后提交給他們部門領(lǐng)導(dǎo),他們部門領(lǐng)導(dǎo)同意后,轉(zhuǎn)給需要審批的領(lǐng)導(dǎo),一層層下來(lái),流轉(zhuǎn)到我們部門領(lǐng)導(dǎo),我們部門領(lǐng)導(dǎo)流轉(zhuǎn)給部門機(jī)房員工,員工收到流程,檢查上架下架服務(wù)器;如要上架,安裝完系統(tǒng)后填寫IP,機(jī)器名,機(jī)架等相關(guān)信息。如要下架,刪除相關(guān)信息,提交給流程控制的人員,流程控制人員確認(rèn)后,這個(gè)流程完成。屆時(shí),所有的人審批過(guò)的數(shù)據(jù),經(jīng)手人,數(shù)據(jù)庫(kù)里都有,出現(xiàn)什么問(wèn)題找相關(guān)責(zé)任人,一下就找到了,省的和某些XX部門JJYY。
維修也一樣了,機(jī)器壞了,或者需要重裝系統(tǒng),按照上面的流程,一步步走一遍,就可以了。年底統(tǒng)計(jì)機(jī)房一天要干多少活,省的某些領(lǐng)導(dǎo)認(rèn)為機(jī)房人TMD都在閑著。機(jī)房的人呢?沒(méi)有流程不干活,否則白干。
在流程系統(tǒng)里重啟服務(wù)器,重啟服務(wù)器要是要流程,就太慢了,那么你可以做一個(gè)綠色通道,寫清楚原因,重啟哪個(gè)機(jī)器,直接提交給相關(guān)機(jī)房人員,在你的流程系統(tǒng)里綁定一個(gè)短信網(wǎng)關(guān),機(jī)房人員可以收到需要重啟服務(wù)器的短信。準(zhǔn)確無(wú)誤。
這樣代替了無(wú)紙化辦公,既有自己做的事情的每一個(gè)記錄,又有相關(guān)人員管理,可以量化自己的工作,免得年終獎(jiǎng)的時(shí)候xx人有說(shuō)你干的少,發(fā)的少。你把記錄拉出來(lái)對(duì)比對(duì)比就知道誰(shuí)多誰(shuí)少了。
2,如何升級(jí)你的服務(wù)器
服務(wù)器老了,或者需要加內(nèi)存加硬盤,怎么升級(jí)。
雖然說(shuō)是很簡(jiǎn)單換個(gè)CPU,加個(gè)內(nèi)存,加個(gè)硬盤很簡(jiǎn)單。
但是,如何控制你的配件不丟失,確定的安裝到機(jī)器上利用了呢?
簡(jiǎn)單,在服務(wù)器上做一個(gè)探測(cè)服務(wù)器配置的客戶端,每天探測(cè)一次硬件配置發(fā)送到資產(chǎn)管理服務(wù)器上。
與資產(chǎn)管理系統(tǒng)的硬件配置做對(duì)比,出了問(wèn)題就報(bào)錯(cuò)發(fā)一封郵件到機(jī)房工作人員,抄送流程控制人員一封就可以了。
至于的加內(nèi)存的時(shí)候注意型號(hào)啥的問(wèn)題就不說(shuō)了,大家應(yīng)該都沒(méi)問(wèn)題了
要說(shuō)的是,假如你一個(gè)機(jī)柜上放的機(jī)器比較多,比如4個(gè)6個(gè)機(jī)器一摞,恰巧壞了,恰巧一個(gè)人在機(jī)房,非得解決,怎么辦?
簡(jiǎn)單,一個(gè)辦法,但是還是需要你有力氣,雖然有力學(xué)原理
比如有4臺(tái)服務(wù)器,最下面的壞了,
你可以拽住最下面的把4臺(tái)一起往出拉,拉出來(lái)一點(diǎn),把上面3臺(tái)往后推,這樣一點(diǎn)一點(diǎn)的拉出來(lái),
下面最關(guān)鍵:
拉到最后,前面要留出來(lái)一點(diǎn),輕輕的把上面3臺(tái)的尾巴著地,然后一只手抬住上面3臺(tái)機(jī)器,一只手拉出下面一臺(tái)機(jī)器。
上面3臺(tái)一定要留出來(lái)一點(diǎn),否則放下的時(shí)候,機(jī)器和機(jī)柜托板會(huì)壓住你的手,你一松手,機(jī)器震一下,硬盤就掛了……
所以在推進(jìn)去的最后仍舊要留一點(diǎn)在外面,最后放下來(lái)了再推進(jìn)去這最后一點(diǎn)。
然后就可以換或者加內(nèi)存了。相對(duì)比較省勁,不危險(xiǎn),不會(huì)壓倒自己,不會(huì)砸壞服務(wù)器的辦法就是這樣了。
-
運(yùn)維工程師
+關(guān)注
關(guān)注
4文章
39瀏覽量
8256
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論