計算機正常運行最大的威脅是什么?是員工
之前有一個很老的笑話:“是人都會犯錯,但是要真正把事情搞砸,你還缺臺計算機。” 現在情況正好相反了,現如今,數據中心設備的可靠性已經得到了極大的提升,反而是使用設備的人員素質沒能跟上,從而給計算機正常運行帶來了很大的威脅。
正常運行時間協會(Uptime Institute)對數千名 IT 專業人員一整年發生的故障事件進行了調查,得出結論表示絕大多數的數據中心故障是由于人為錯誤造成的,人為錯誤導致的故障率為 70%-75%。
而且有些故障很嚴重。調查發現,超過 30% 的 IT 服務與數據中心運營商經歷了他們稱之為是“嚴重服務退化”的停機事故。2019 年有 10% 的受訪者稱他們最近的事故造成的損失超過 100 萬美元。
在正常運行時間協會在 2019 年 4 月的調查中,60% 的受訪者認為,對于最近發生的重大停機事件,他們本可以通過更好的管理/流程或配置進行防止。而對于損失超過 100 萬美元的故障事件,這一數字躍升至 74%。
正常運行時間協會認為,導致故障事件發生的最終的錯誤不一定是員工,而是令人失望的管理。
“這個行業仍然嚴重依賴于人工去完成一些最基礎和最重要的工作,易受人為錯誤的影響,這一點無法避免,也許可做的防錯/防災措施很有限。”正常運行時間協會期刊的主編 Kevin Heslin 在一篇 博客文章 中寫道。
“然而,對這些故障問題的快速調查發現,故障持續存在的主要原因不是人為失誤,而是由于管理失誤導致,如針對員工培訓投資不足,相關政策執行不力,管理程序老舊,低估一名合格員工的重要性,這一系列的管理問題導致了故障停機。” Heslin 繼續寫道。
正常運行時間協會指出,公司的 IT 基礎設施越復雜,特別是分布式特性基礎設施,可能會越容易增加簡單的錯誤層出不窮而導致業務中斷的風險。同時指出公司需要意識到基礎設施越復雜所涉及的風險就越大。
并警告說,在人員配備方面,不要以超過公司吸引和應用資源來管理基礎設施的速度擴大關鍵 IT 能力,并在影響關鍵任務操作之前意識到任何人員和技能短缺。