IT運維管理之自動化運維篇
何謂自動化運維,即在最少的人工干預下,結合運用腳本與第三方工具,保證業務系統7*24小時高效穩定運行。這應該是所有業務系統運維***目標。
按照運維的發展成熟度來看,運維大致可分為三個階段:
(一)、依靠純手工,重復的進行軟件的部署與運維;
(二)、通過編寫腳本,方便的進行軟件的部署與運維;
(三)、借助第三方工具,高效的進行軟件的部署與運維;
我們對運維的要求通常是:
(一)、事前預警
在故障出現之前,管理人員應該能在任何時間,任何地點接收到告警信息,并及時處理問題,把故障隱患扼殺在搖籃中。
(二)、事中恢復
天有不測風云,即使是再***的方案也可能有預料之外的故障,為保證在最短時間內恢復業務,關鍵數據不因故障丟失,我們需要有完整備份方案來應對自如。
(三)、事后存檔
這里更加強調運維管理的方法,針對處理過的故障,應該記錄在案,在處理過程當中運用過的處理技術,處理方案,應該形成經驗文檔,以供知識分享。
要實現以上三個要求,并不是一件容易的事情。需要一個經驗豐富且高效的運維團隊,隨著我們的業務系統不斷增加,業務量的不斷上升,傳統依靠純手工的運維方式,逐漸被淘汰。
我們更多的將注意力集中在通過腳本與借助第三方工具的運維方式上,這樣不僅能滿足我們對運維的要求,解放生產力,還能使我們的運維管理更加規范化,標準化,從而真正意義上的實現自動化運維。
自動化運維的實現工具(腳本與第三方工具,通常這兩者須結合使用。):
腳本(SHELL、DOC)
1、硬件狀態監控:通過編寫腳本,對CPU、MEM、DISK、TOPProcesses、Network等關鍵硬件參數狀態進行實時監控,發現異常觸發告警信息給管理員;
2、業務撥測:通過編寫腳本對常用業務的網站實時進行撥測,發現網站頁面異常觸發告警信息給管理員;
3、系統安全加固:通過編寫腳本對常用的Windows、Linux、Unix服務器進行快速的安全加固;
4、補丁更新:通過編寫腳本實現應用及操作系統補丁的快速更新;
5、數據備份:通過編寫腳本實現關鍵業務數據,關鍵日志,數據庫,操作系統,中間件等的快速備份(本地與異地);
6、過期日志清理:通過編寫腳本實現過期日志清理;
第三方管理工具
針對一些輕量級的業務系統,我們可以使用一些開源的管理工具。而對于重量級(100萬量級以上)的業務系統,建議采用成熟度比較高的第三方管理工具。一般來說比較成熟的第三方工具都能實現以上運維需求,而且管理操作起來也更加方便。
運維方式對比表:
運維方式 |
參數對比 |
||||
運維規模 (設備臺數) |
運維效率 |
技能要求 |
勞動力損耗 |
規范管理 |
|
純手工 |
小 (<100) |
低下 |
一般 |
較大 |
難度較大 |
腳本 (shell、doc) |
中 (100<X<500) |
適中 |
較高 |
較低 |
相對容易 |
第三方 工具 |
大 (>500) |
高效 |
一般 |
較低 |
相對容易 |
注:以上參數來自經驗值,僅供參考。