Wuhan Keman Optical Communication Co., Ltd. Language Switching
關(guān)于數(shù)據(jù)中心運(yùn)維工作的提升技巧
數(shù)據(jù)中心的穩(wěn)定運(yùn)行離不開數(shù)據(jù)中心的運(yùn)維人員,而數(shù)據(jù)中心運(yùn)維的工作涉及到方方面面,它不同于其它的運(yùn)維,處理的問題都是比較專業(yè)的問題。在很多的公司都是將服務(wù)器和設(shè)備托管到專門的數(shù)據(jù)中心機(jī)房讓專業(yè)的人士進(jìn)行維護(hù),只有一些技術(shù)實(shí)力比較強(qiáng)的大公司才建設(shè)有自己的數(shù)據(jù)中心。如今的信息技術(shù)更新得很快,什么大數(shù)據(jù)、云計(jì)算、虛擬化、綠色數(shù)據(jù) 中心等等新技術(shù)層出不窮,各種設(shè)備的CPU、內(nèi)存、轉(zhuǎn)發(fā)芯片等也都在不斷地發(fā)展。
從單核CPU到多核、四核、八核、十六核、三十二核,網(wǎng)絡(luò)單端口帶寬從 10M、100M、1G、10G、100G,這些技術(shù)的進(jìn)步給數(shù)據(jù)中心帶來了高速的信息處理能力,但是也讓這個(gè)數(shù)據(jù)中心的系統(tǒng)變得異常復(fù)雜,傳統(tǒng)的數(shù)據(jù)中心運(yùn)維技能已經(jīng)難以適應(yīng)信息高速發(fā)展的需要了,需要我們?nèi)ゲ粩鄬W(xué)習(xí),提升自己,才能在未來的數(shù)據(jù)中心里,將運(yùn)維的工作開展好。下面將結(jié)合一些實(shí)際工作經(jīng)驗(yàn) 講述提升運(yùn)維技能的一些方法。
數(shù)據(jù)中心是一個(gè)復(fù)雜的信息處理系統(tǒng),包括系統(tǒng)、網(wǎng)絡(luò)、存儲(chǔ)、協(xié)議、需求、開發(fā)、測(cè)試、安全、空調(diào)、供電、監(jiān)控等多個(gè)環(huán)節(jié),運(yùn)維的工作就 是要包含到所有這些方面,可見 運(yùn)維的工作是一個(gè)集多IT工種技能于一身的崗位。然而這里說的每一個(gè)部分都需要多種技術(shù)學(xué)科的支撐,比如系統(tǒng)可能有Linux、Windows的,應(yīng)用有 LVS、HA、WebServer、DB、中間件,網(wǎng)絡(luò)就更復(fù)雜了,各種二三層協(xié)議,虛擬化,環(huán)路協(xié)議,路由協(xié)議等等
這么多的技術(shù)不可能每個(gè)人都精通,不可否認(rèn)可能有這種全面精通的人存在,但人的精力畢竟是有限的,要有所得也要有所失。
首先、是溝通能力、團(tuán)隊(duì)協(xié)作
運(yùn)維的工作涉及跨部門、跨工種特別多,這樣運(yùn)維的人員需要善于溝通,團(tuán)隊(duì)協(xié)議能力要強(qiáng),這樣在處理問題時(shí),可以充分調(diào)用各種資源和技術(shù)力量,迅速解決問題。
對(duì)于數(shù)據(jù)中心時(shí)間就是利潤(rùn),流量就是金錢,一年365天要保持?jǐn)?shù)據(jù)中心的穩(wěn)定運(yùn)行,不出故障或者少出故障才行。當(dāng)業(yè)務(wù)部門反饋有故障時(shí),根據(jù)反饋的故障現(xiàn)象迅速鎖定故障點(diǎn),然后集中資源解決,這其中需要大量的溝通,有效的溝通將為排除故障節(jié)省下來大量時(shí)間。其次是運(yùn)維工作要膽大心細(xì)。
然后、膽大才能創(chuàng)新,不走尋常路
即使數(shù)據(jù)中心再小,它也有自己的特點(diǎn),充分利用它的優(yōu)勢(shì),才能發(fā)揮出數(shù)據(jù)中心最大的效能。數(shù)據(jù)中心本來就是一個(gè)技術(shù)更新很快的領(lǐng)域,愿意接受新事物,大膽引入先進(jìn)運(yùn)維的 技術(shù)將可以大大提升數(shù)據(jù)中心的工作效率。
其次、做好日常監(jiān)控工作
一個(gè)健壯的身體離不開每天的觀察,我們需要時(shí)時(shí)刻刻觀察我們的數(shù)據(jù)中心,看看數(shù)據(jù)中心發(fā)生的細(xì)小問題。每天都要對(duì)數(shù)據(jù)中心的所有方面運(yùn)行參數(shù)進(jìn)行全面檢查和記錄,慢慢地就會(huì)對(duì)數(shù)據(jù)中心運(yùn)行狀態(tài)有了掌握,當(dāng)某些參數(shù)變化時(shí)及時(shí)做應(yīng)對(duì)之策。比如設(shè)備運(yùn)行的CPU占用率,平時(shí)監(jiān)控所有設(shè)備CPU占用率都在30%左右,突然有一天幾臺(tái)設(shè)備的CPU占用率無緣無故升到了60%,這就需要進(jìn)一步檢查升高的原因,直到消除掉為止。如果沒有這些平日里的統(tǒng)計(jì)記錄,這樣的參數(shù)變化就不會(huì)引起人們的注意,故障遲早會(huì)到來。
再次、做好統(tǒng)計(jì)工作
一般的數(shù)據(jù)中心都擁有上千臺(tái)的服務(wù)器設(shè)備,還有其它不少的電子設(shè)備,要做好統(tǒng)計(jì)工作。比如服務(wù)器多少臺(tái),都處于什么位置,都和網(wǎng)絡(luò)設(shè)備如何互連的,每臺(tái)設(shè)備的配置,應(yīng)用的特性等等,這些統(tǒng)計(jì)工作馬虎不得,都關(guān)系著數(shù)十萬設(shè)備的物理安全。在平日接觸到的運(yùn)維人員讓我們感受到不同的人員對(duì)自己數(shù)據(jù)中心的了解差異是非常大的,有的人可以對(duì)詢問的某個(gè)網(wǎng)段IP給什么應(yīng)用使用脫口而出,而有的人卻對(duì)詢問的服務(wù)器放在哪個(gè)機(jī)架上都一無所知,當(dāng)遇到問題或者進(jìn)行數(shù)據(jù)中心變更時(shí),后者的表現(xiàn)是顯而易見會(huì)出問題的。