2012春節(jié)長(zhǎng)假IT系統(tǒng)運(yùn)維支招之管理篇
春節(jié)將近,辛苦勞作一整年的IT人終于可以著手準(zhǔn)備期待已久的春節(jié)長(zhǎng)假,或收拾行裝準(zhǔn)備回家或約上幾多好友安排春節(jié)娛樂項(xiàng)目,工作隨著年關(guān)將近開始放松下來。春節(jié)長(zhǎng)假的到來不僅對(duì)于人來說,對(duì)于IT系統(tǒng)、設(shè)備也可以適當(dāng)進(jìn)入短暫難得的休息階段。然而越是這種輕松的環(huán)境,越容易釀成大問題,過去血粼粼的教訓(xùn)教導(dǎo)我們無論是對(duì)人還是對(duì)設(shè)備都要做好經(jīng)受無人值守考驗(yàn)的準(zhǔn)備。
很多企業(yè)會(huì)建立規(guī)?;虼蠡蛐〉臋C(jī)房以承載為業(yè)務(wù)部門服務(wù)的應(yīng)用,長(zhǎng)假期間雖說大部分的企業(yè)業(yè)務(wù)部門都放假,很多企業(yè)為了響應(yīng)和倡導(dǎo)節(jié)能減排的綠色I(xiàn)T會(huì)選擇讓IT系統(tǒng)都進(jìn)入停機(jī)狀態(tài),但是還是有很多行業(yè)無法進(jìn)入完全停機(jī)的狀態(tài),較為明顯的是金融銀行業(yè)、石油業(yè)、通信業(yè)、電商等其他要求在線服務(wù)的行業(yè)都無法完全進(jìn)入休假狀態(tài)。有這么多無法暫停的業(yè)務(wù)造成了如今IT系統(tǒng)運(yùn)維在長(zhǎng)假期間的難度,面對(duì)這樣的困難IT經(jīng)理與高層領(lǐng)導(dǎo)年復(fù)一年的忙于應(yīng)付。長(zhǎng)此以往,很難保證IT系統(tǒng)的運(yùn)維工作穩(wěn)定與高效。
重新認(rèn)識(shí)系統(tǒng)運(yùn)維
無論工作日還是長(zhǎng)假我們都要清楚的認(rèn)識(shí)到IT運(yùn)維所包含的內(nèi)容和范圍,當(dāng)然每個(gè)企業(yè)都有不同的業(yè)務(wù)模式,IT系統(tǒng)的運(yùn)維內(nèi)容會(huì)有所不同,但是廣義上對(duì)于IT系統(tǒng)運(yùn)維理論指導(dǎo)則包含八個(gè)主要方面。
1.設(shè)備管理,主要是對(duì)網(wǎng)絡(luò)設(shè)備、服務(wù)器設(shè)備、操作系統(tǒng)運(yùn)行狀況進(jìn)行監(jiān)控和管理;
2.應(yīng)用/服務(wù)管理,包括各種應(yīng)用支持軟件如數(shù)據(jù)庫、中間件、群件以及各種通用或特定服務(wù)的監(jiān)控管理,如郵件系統(tǒng)、DNS、Web等的監(jiān)控與管理;
3.數(shù)據(jù)/存儲(chǔ)/容災(zāi)管理,主要針對(duì)系統(tǒng)和業(yè)務(wù)數(shù)據(jù)進(jìn)行統(tǒng)一存儲(chǔ)、備份和恢復(fù);
4.業(yè)務(wù)管理,包含對(duì)企業(yè)自身核心業(yè)務(wù)系統(tǒng)運(yùn)行情況的監(jiān)控與管理,對(duì)于業(yè)務(wù)的管理, 主要關(guān)注該業(yè)務(wù)系統(tǒng)的 CSF(關(guān)鍵成功因素 Critical Success Factors)和KPI(關(guān)鍵績(jī)效指 標(biāo)Key Performance Indicators);
5.目錄/內(nèi)容管理,該部分主要對(duì)于企業(yè)需要統(tǒng)一發(fā)布或因人定制的內(nèi)容管理和對(duì)公共信息的管理,如企業(yè)門戶發(fā)布的對(duì)公對(duì)私的公告、行文等;
6.資源資產(chǎn)管理,管理企業(yè)中各 IT 系統(tǒng)的資源資產(chǎn)情況,這些資源資產(chǎn)可以是物理存在的,也可以是邏輯存在的;
7.信息安全管理,目前信息安全管理根據(jù)國(guó)際標(biāo)準(zhǔn)涵蓋了信息安全管理的十大控制方面,36個(gè)控制目標(biāo)和 127種控制方式,如企業(yè)安全組織方式、資產(chǎn)分類與控制、人員安全、物理與環(huán)境安全、通信與運(yùn)營(yíng)安全、訪問控制、業(yè)務(wù)連續(xù)性管理等;
8.日常工作管理,主要用于規(guī)范和明確運(yùn)維人員的崗位職責(zé)和工作安排、提供績(jī)效考核量化依據(jù)、提供解決經(jīng)驗(yàn)與知識(shí)的積累與共享手段.
IT系統(tǒng)運(yùn)維是一項(xiàng)系統(tǒng)的工程,內(nèi)容雖然繁多,不是三言兩語的簡(jiǎn)單描述就可盡收與本文。理論畢竟是對(duì)具體工作的指導(dǎo),但明確了工作的重要性和復(fù)雜度,能更好的幫助企業(yè)規(guī)劃自身的運(yùn)維工作,尤其是長(zhǎng)假期間運(yùn)維工作。
盤點(diǎn)系統(tǒng)、設(shè)備,規(guī)劃運(yùn)維點(diǎn)
平日中IT系統(tǒng)的運(yùn)維工作縱然有完善的巡查、記錄體系,但遇到長(zhǎng)假運(yùn)維人員不能像正常工作日一樣不停的關(guān)注系統(tǒng)運(yùn)行的狀態(tài),因此需要徹底清點(diǎn)盤查系統(tǒng)和設(shè)備。清點(diǎn)不意味著簡(jiǎn)單計(jì)數(shù),常見的有以下幾方面:
1.盤點(diǎn)計(jì)數(shù),包括有多少套應(yīng)用/服務(wù)在運(yùn)行中,多少應(yīng)用可以再長(zhǎng)假期間停止服務(wù)。另外,還應(yīng)業(yè)務(wù)系統(tǒng)中流轉(zhuǎn)的業(yè)務(wù)流程數(shù)等能夠量化的業(yè)務(wù)數(shù)據(jù);
2.盤點(diǎn)狀態(tài),主要針對(duì)應(yīng)用/服務(wù)和設(shè)備兩方面,前者在停機(jī)前是否是完整系統(tǒng)、版本號(hào)、是否在此次停機(jī)過程中部署更新等狀態(tài)信息,后者主要記錄硬件設(shè)備環(huán)境及運(yùn)行狀態(tài)如內(nèi)存、硬盤狀態(tài)是否有損壞更換等;
3.規(guī)劃壓力調(diào)整設(shè)備投入,根據(jù)業(yè)務(wù)在長(zhǎng)假期間不間斷服務(wù)要求,結(jié)合平時(shí)休息日業(yè)務(wù)系統(tǒng)的壓力進(jìn)行預(yù)估,規(guī)劃設(shè)備投入量保證業(yè)務(wù)不間斷的基本要求。
4.規(guī)劃運(yùn)維等級(jí)和工作分?jǐn)?,按照工作日正常運(yùn)維工作等級(jí)適當(dāng)調(diào)整級(jí)別和工作分配,將必要運(yùn)維工作進(jìn)行分?jǐn)?,盡量減少人員的直接占用。
5.規(guī)劃設(shè)備檢修更換,針對(duì)硬件設(shè)備的更換在很多要求IT服務(wù)7*24小時(shí)的企業(yè)中多半會(huì)在夜間進(jìn)行,也有的設(shè)備因?yàn)閼?yīng)用的重要性和壓力等原因在某些硬件設(shè)備允許的情況下是帶病工作的,因此可以規(guī)劃長(zhǎng)假前將存在隱患的硬件設(shè)備進(jìn)行維護(hù)與更換。
6.規(guī)劃UPS承載,UPS全稱Uninterruptible Power Supply顧名思義不間斷電源,在長(zhǎng)假期間難免遇到突發(fā)情況,UPS的作用不言而喻。因?yàn)樵诠ぷ魅辗?wù)器全部運(yùn)轉(zhuǎn)情況下UPS可能維持幾十分鐘或幾小時(shí),而在長(zhǎng)假期間能夠保證多少臺(tái)服務(wù)器運(yùn)轉(zhuǎn)多少時(shí)間是需要根據(jù)實(shí)際情況重新計(jì)算并規(guī)劃的。#p#
案例分析:
圖1是國(guó)內(nèi)某出版機(jī)構(gòu)在很多IT系統(tǒng)中邏輯結(jié)構(gòu)比較線性的“圖書資源管理與發(fā)布系統(tǒng)”的邏輯模型,其中最前端的是“發(fā)布與存儲(chǔ)系統(tǒng)”采用2U服務(wù)器掛載磁盤陣列服務(wù)器的簡(jiǎn)單模式實(shí)現(xiàn)。工作日期間該完整系統(tǒng)的維護(hù)人員保持4人左右的團(tuán)隊(duì)規(guī)模,而長(zhǎng)假期間經(jīng)過盤點(diǎn)發(fā)現(xiàn):
1.長(zhǎng)假期間資源數(shù)據(jù)來源停止轉(zhuǎn)換數(shù)據(jù);
2.資源維護(hù)系統(tǒng)無新數(shù)據(jù)可維護(hù),老數(shù)據(jù)可以安排長(zhǎng)假結(jié)束繼續(xù)完成,系統(tǒng)可以暫停;
3.三方數(shù)據(jù)公司屬于第三方機(jī)構(gòu)無法安排加班等因此無介入數(shù)據(jù),系統(tǒng)也可暫停;
因此,只有“發(fā)布與存儲(chǔ)系統(tǒng)”和“安全監(jiān)控系統(tǒng)”需要運(yùn)行。而“安全監(jiān)控系統(tǒng)”又與機(jī)房?jī)?nèi)其他應(yīng)用服務(wù)的監(jiān)控是整體部署,由于業(yè)務(wù)需要前端系統(tǒng)需要保證長(zhǎng)假期間不間斷服務(wù),因此實(shí)際上僅需要單獨(dú)維護(hù)“發(fā)布與存儲(chǔ)系統(tǒng)”。如果沒有盤點(diǎn)確實(shí)很難在眾多系統(tǒng)中正確辨明真正需要長(zhǎng)假期間維護(hù)的系統(tǒng)。
▲圖 1出版機(jī)構(gòu)資源管理系統(tǒng)
總之,IT系統(tǒng)運(yùn)維是一項(xiàng)系統(tǒng)工程,按照IT運(yùn)維理論中要求的其實(shí)遠(yuǎn)不止上述6點(diǎn)需要盤點(diǎn)規(guī)劃的地方,但是企業(yè)是經(jīng)營(yíng)之所,要根據(jù)自身情況平衡長(zhǎng)假期間投入的資源能力而量力而行。切忌長(zhǎng)假期間沒有業(yè)務(wù)使用但仍然開機(jī)運(yùn)行不予維護(hù),很多安全問題尤其是信息安全重大問題往往就在這個(gè)時(shí)刻發(fā)生,所以長(zhǎng)假期間的盤點(diǎn)與規(guī)劃是必須落實(shí)的。本文僅以盤點(diǎn)軟件應(yīng)用和硬件設(shè)備方面拋磚引玉,后續(xù)會(huì)有更詳細(xì)分析與落實(shí)的報(bào)道,讓長(zhǎng)假成為IT運(yùn)維工作的一個(gè)部分,長(zhǎng)假前不再讓運(yùn)維部門抓耳撓腮,長(zhǎng)假中不再讓運(yùn)維部門從上到下忐忑不安。
【編輯推薦】