掌握數據中心技巧 就能少干些蠢事
書接上文,之前我們51CTO帶給大家一篇《看這些數據中心錯誤有多蠢!》的外電,本期我們針對以上錯誤找到了相應的預防措施。一攻一守,同樣是一篇外電,我們看看這些錯誤該如何化解。
數據中心停機通常是由設備故障,或突發事件的連鎖反應引起的,但引起數據中心停機的主要原因是人為失誤,據Uptime協會發起的一項研究顯示,數據中心大約70%的問題都是人為錯誤引起的,可見人對于數據中心來說是多么的可怕。
那該如何緩解這個問題呢?電力技術支持主管Ahmad Moshiri說:“毫無疑問,導致數據中心停機的人為錯誤可以通過一些簡單的步驟來回避”。下面就是其總結出來的避免數據中心人為錯誤導致故障的***實踐。
1、屏蔽緊急關閉按鈕
緊急關機(Emergency Power Off,EPO)按鈕一般都位于數據中心門口附近,通常,這些按鈕沒有蓋子或做上標記,在緊急情況下很容易錯誤地關閉整個數據中心的電力供應,給EPO按鈕帖上標簽或加裝一個蓋子,可以避免按鈕被意外按下。
2、根據文檔指定的方法操作
按照廠商給定的文檔一步一步操作,可以減少或消除執行維護任務時的誤操作,除此之外,還應該在備份計劃中包括突發事件時的應對辦法。
3、正確的組件標簽
要正確和安全地操作電源系統,所有開關設備必須正確標識,還需要數據中心的單線電路圖,確保正確的操作順序,每執行一個操作前,都應該仔細檢查設備的標簽有無不妥。
4、一致的操作方式
有時,數據中心管理人員疏于職守,不按照標準操作程序執行,忘記或直接跳過某些步驟,或是憑自己的記憶操作,可能無意中就錯誤地關閉了某個設備,因此,保持所有操作說明文檔不斷更新,并嚴格按照說明進行操作是至關重要的。
5、不斷進行人才培養
確保每個人都可以獨立進入數據中心,包括IT、應急、保安和設施維護人員,讓他們了解與設備相關的基本知識,以免誤關電源。
6、安全訪問策略
沒有數據中心登陸策略的組織安全風險是很大的,特別是外來訪問者進入數據中心時需要有人陪伴,要讓數據中心管理人員知道誰來了,什么時候離開的。
7、強制實施食品/飲料政策
液體造成的短路是計算機關鍵部件***的風險,***是在門口張貼告示禁止攜帶任何食品和飲料進入數據中心,并建立起實施監控機制,凡是有違反的情況,一律依據章程進行嚴懲。
8、避免污染物
惡劣的室內空氣質量可能會導致不必要的塵埃粒子和碎片進入服務器和其它IT基礎設施,大部分問題可以通過要求進入數據中心的人穿防靜電鞋或在數據中心門外放一個墊子得到緩解,此外,安裝設備時,應該在數據中心門外進行拆箱,如果將箱子一道搬進數據中心,箱子上的纖維附著在機架和其它IT基礎設施上的機會就大大增加了。
原文名:How to Prevent Downtime Due to Human Error 作者:Rich Miller
【本文是51CTO原創稿件,轉載請務必標明出處和作者】
【編輯推薦】