從“支付寶”“攜程”事件看業務連貫性保障
在過去一周,熱衷“互聯網+”主題的大家冷汗不已,“支付寶”和“攜程”接踵而至的運維保障事故,讓一直以互聯網為傲的IT圈一片唏噓。公開報道的事故原因涉及網絡線路中斷、運維人員誤操作,因此造成其服務較長時間無法恢復。作為一個在IT運維領域工作多年的老兵,看到這些有多年運維經驗的企業仍然會在應急響應、操作規范性等基礎運維管理工作上栽跟頭,其背后折射出的是國內大多數企業運維管理水平還無法保障業務穩定運行的現狀。
目前國內企業IT運維管理工作中突出存在的問題主要有四個:
***:自動化程度不高導致誤操作幾率倍增。當前企業運維例行操作的工作大多還依賴手工,年復一年,這樣即便是簡單重復的工作,出現誤操作的幾率也會成倍提升。隨著企業業務量的增長,IT設備數量和運維工作將同步增加。但基于編制和成本的考慮,企業的IT人員配備無法滿足運維需求。這樣會導致工作壓力過高,促使誤操作幾率提升。另外,IT人員的穩定性較低,新人在技能和業務熟悉程度都有限的情況下,出現誤操作的幾率更大;所以通過自動化運維系統替代大量重復繁雜的例行人工操作,這種方法可以降低誤操作幾率;同時,也是IT運維的發展趨勢。
第二:缺乏有效的資源管理使運維效率低下。企業做好IT運維服務,首先需要及時收集、分類、更新相關機房資源、物理資源、平臺資源、虛擬資源、應用資源到數據資源各類服務對象的信息;如果出現變更的情況,一旦變更前不能準確獲悉可能影響的所有相關資源信息,就會引起無法估量的損失;如果在承接業務需求時,不能知曉現有系統性能、存儲和網絡情況,就會讓業務上線成為空談;如果在采購新設備建設新機房時,不能了解當前運算資源的忙閑程度,就會讓企業浪費投資決策失誤;所以只有完整準確可用的資源管理服務,才能將運維工作的效率大大提升。
第三:風險評估與應急準備流于形式使“狼來了”成真。不可否認當下企業越來越重視風險評估,考慮業務連貫性的問題;但能夠真正從業務出發,考慮所有可能風險并給出相應對策,同時能夠堅持演練的企業卻少之又少;首先風險評估需要運維團隊中具備或協調理解業務需求的資源,能夠對風險做出正確判斷,尤其不能遺漏自認為不會發生的或小概率的問題,通常確是損失較大的風險;其次對風險能合理分類分級,提供企業能承受的恢復方案,其中不只包括IT部門還包括業務部門、市場宣傳部門、法務部門等整套方案;***為確保恢復方案的可行,一定要定期演練并及時總結和完善方案,風險模擬越真實,演練帶來的效果越可信,當然企業要做好承擔由于演練帶來的新風險以及演練的相關成本;流于形式的風險應急準備工作只會讓“狼來了”成為現實。
第四:能否敏捷應對業務需求變化是判斷 IT價值的***因素。***一個問題就是IT運維不能只埋頭拉車而不懂抬頭看路。運維的目標說到底就是要保障業務的平穩運行,在業務需求變化時也能保持敏捷感知,并隨之做出相應調整。但IT運維的管理者們常常會被每天變更、故障、應急等具體事物糾纏的不可開交,而且管理者們大多是技術出身,更喜歡研究專業的問題。所謂不能跳出畫看畫,迷失在忙碌中卻忽視了最終的目標。其實從運維工作的規劃開始,就要瞄準業務規劃的目標設計;具體工作中也要時刻保持與業務部門的密切溝通,確定運維的保障工作也是業務工作中所需要的內容;當業務需求發生變化時,IT運維部門更要主動出擊,了解運維工作的需求變化,并做出積極調整;業務成功,才是運維的成功。
作為多年的IT老兵與公司神州信息在IT服務領域摸爬滾打了二三十年,我們的技術人員在為行業客戶提供IT服務的過程中,不斷了解學習行業客戶的業務知識,總結行業IT服務經驗,摸索和開發出保障行業客戶業務運營的IT服務系列產品。早在2004年就提出“IT服務隨需而動”的理念,按照ITSS、ISO20000等國內外標準設計的“智慧數據中心(SDC)”服務產品,強調自動化平臺、一線服務團隊和高端運維專家三位一體的服務模式。通過自動化平臺完成數據中心所有資源的監控、巡檢、作業和流程流轉等工作,一線服務團隊統一接口提供快速響應的故障支持和項目配合,通過專家團隊提供業務和IT多方面主動的調研評估和優化改進工作。
通過多年的實踐,采用“智慧數據中心”運維的完整或局部方案,能為企業直接帶來業務開通成功率提升3-10倍、變更成功率提升15%-30%、IT故障減少30%-50%、例行操作效率提升2-10倍等顯著的回報,從而客戶可以釋放自己的IT精力,將有限的IT資源投入到自身的業務需求中去。
說一千道一萬,做好運維服務,就要以業務發展為綱,智慧服務為翼,專業和管理并重,才能讓運維服務的價值得以充分體現!