運維必備制度:故障分級和處罰規(guī)范
作者簡介
唐文,《海量運維、運營規(guī)劃之道》一書作者,關(guān)于海量運維、運營規(guī)劃,我想業(yè)界都沒有準(zhǔn)確的定義,假如說互聯(lián)網(wǎng)的架構(gòu)師用能否設(shè)計多高的摩天大樓來衡量架構(gòu)能力,那運維、運營更多的是在關(guān)注互聯(lián)網(wǎng)服務(wù)的質(zhì)量、效率、成本、故障、瓶頸,用戶的忍耐、抱怨等問題。
在接下來的日子里,將以質(zhì)量、效率、成本為核心,從運營規(guī)劃、管理、流程/規(guī)范、系統(tǒng)/平臺,監(jiān)控、告警、安全、優(yōu)化、考核等幾個維度結(jié)合案例來與大家分享自己的體會,內(nèi)容大致如下所示。
編者按:一個好的制度是可操作、可執(zhí)行的,不是高高掛起的。每個公司情況不同,制度需要定期根據(jù)公司自身情況進行適當(dāng)修改,以下文章算是一個制度的模板,僅供參考,要想使用肯定還需要修改。
正文
互聯(lián)網(wǎng)產(chǎn)品提供7*24小時服務(wù),而因人為操作、程序Bug等原因?qū)е路?wù)不可用是影響服務(wù)持續(xù)運行的重要原因,為了提高各業(yè)務(wù)產(chǎn)品的運維和運營質(zhì)量,規(guī)范各業(yè)務(wù)線的服務(wù)、故障響應(yīng),擬定和發(fā)布“故障分級和處罰規(guī)范”是非常必要的。
故障分級標(biāo)準(zhǔn)
運營故障中,對非不可抗力所造成的故障歸類為“故障”,對于故障將追究故障的分級,故障責(zé)任人,及故障處理結(jié)果。下面將就各類故障級別進行定義說明,由于故障可能在多方面體現(xiàn)影響,所以故障的綜合等級評定原則,取各個方面中嚴重等級***者為該故障綜合嚴重等級,故障分級如下所示。
故障分級表
故障獎懲制度
運營故障處理評定是根據(jù)相關(guān)責(zé)任人對故障的響應(yīng)、處理、完成結(jié)果等因素來對故障的處理情況進行綜合評定,部門內(nèi)會依據(jù)這個評定來對故障處罰等級進行調(diào)整。該評定只用于由部門內(nèi)決定的故障處罰分級,公司的處罰條例不受此約束。符合下面條件者,可以對故障處罰等級進行適當(dāng)降級,具體所降等級由部門領(lǐng)導(dǎo)決定,故障升級制如下所示。
故障升級制度表
對于所出現(xiàn)的各級運營故障,如果運營故障的主要原因由人為工作疏忽/失誤所導(dǎo)致,參照以下處罰標(biāo)準(zhǔn)對個人和項目組進行相關(guān)懲處,任何運營故障,要及時通報相關(guān)領(lǐng)導(dǎo)或相關(guān)處理人員,對于延報、瞞報故障者,將從嚴處罰,故障分級及處罰如下所示。
故障分級表