《A君的救贖》,一份IT運維工程師的自救指南
前言
苦!苦!苦!
IT運維的苦,不是兩三把頭發就能數完的。
要數,怎么也得四把。
IT運維苦低效久矣。
運維江湖,一口大鍋爐,吞掉了攻城獅們的頭發、視力和休息。
機械重復+手工操作,費時費力?——正常!
24點以后通宵加班,眼紅頭頂禿?——大家都這樣!
忙得腳不沾地,沒時間洗澡?——要習慣!
設備成倍增長,人手原地踏步;公司強勢擴張,運維人加班買單;準點下班就是放假,聽到設備上新就會頭皮發麻——IT運維苦低效久矣。
直到一對大俠橫空出世,這種積弊才得到改進。
欲知大俠何許人也,請欣賞短劇《A君的救贖》。
01***幕
服務器監控也可以很輕松
這天,A君著手服務器故障排查,他抱著筆記本在機房里巡視,穿過一排排機柜,靠肉眼尋找故障燈,然后連接鍵盤顯示器定位服務器故障——這個過程相當耗時,而且很容易漏掉目標,由于服務器故障排查不到位結果釀成大損失的情況發生過不少次。
A君揉揉發紅的雙眼,仰天長嘯:怎么才能提高服務器監控效率啊!
“嘭”地一聲,大俠來了!
- 戴爾易安信iDRAC,一對一管理單臺服務器;
- 戴爾易安信OME(OpenManageEnterprise),提供多臺服務器監控、(固件)升級、部署等服務以及Restful API接口。它可以跟iDRAC協同合作,進行大規模服務器管理。
兩位大俠出手相助之后,情況就此改觀。
使用了iDRAC和OME,A君可以直接在OME的管理界面上看到被監管服務器的運行狀況。iDRAC提供SupportAssist功能,能夠以帶外方式在iDRAC圖形界面上直接收集被監控服務器的日志與配置信息,而不需要對服務器/操作系統端做任何設置,真正實現免代理監控。
此外,要了解某一臺服務器的詳細信息,A君只需點擊某一臺服務器的Name鏈接,便可進入該服務器詳細管理界面:
還可以快速查詢服務器大部分備件的詳細信息:
這是一臺更換過內存條的服務器,從圖中可以看到該服務器配置的內存均為單一品牌,沒有出現混插現象。
工作過程中,有感于電腦端監控平臺的不便,A君又采用了戴爾易安信基于移動端的軟件OMM(OpenManage® Mobile)。
監控服務器時,iDRAC將產生的告警信息推送到OME平臺上,OME平臺可以將告警信息繼續推送到下一級平臺(比如用戶已有的統一監控平臺),或者用戶安裝了OMM軟件的手機、平板等移動平臺上。
以前,如果有多臺服務器發生故障,A君需要在機房和OME監控平臺之間往返多次。
如今,用了戴爾易安信基于移動端的軟件OMM(OpenManage® Mobile),A君可以攜帶移動端進入機房,而不必每次都從機房返回OME平臺前查看結果。
利用OMM,A君可以直接在手機上監控服務器狀態。如果公司策略允許,A君甚至能在家里或路上接收告警信息,真正做到早發現早處理,避免將小故障拖成大事故,由此大大提高了運維工作的SLA水平。
A君說自己的手機不能加入企業網,倒是可以試著申請個iPAD作為專有服務器監控工具給自己使用。
02第二幕
摒棄手工操作,(固件)升級自動化
前天晚上,公司接到了戴爾易安信TAM(Technical Account Manager)發來的信息,建議用戶立即將某一批服務器的固件升級到某個版本之上。
這個任務落到了A君頭上。
據統計,要升級的服務器足足有三四十臺之多。升級固件是純手工操作,A君面對巨大工作量只得發揚艱苦奮斗精神,通宵加班完成工作。
不過還沒完。
手工升級比不得自動化,是否會有升級不成功或遺漏的情況?
A君對此表示:“沒有記錄,后半夜實在太累了,來不及統計了。先上線吧,等業務那邊發現問題再說。”
“嘭”地一聲,大俠來了。
通過戴爾易安信提供的OME軟件,A君可以自行定義服務器固件基線,并通過簡單操作,完成大批量服務器的固件升級工作。
OME配置項下的固件升級界面:
如圖,用戶可以定義固件基線,然后點擊“查看報告”,對被篩選出來并選中的服務器進行固件升級:
A君抓抓稀疏的頭發,揉揉眼睛說道:“好是好,不過這是不是也是得等到24:00以后才能操作?”
當然不用了!你可以預約呀!
OME提供“Schedule Update”選項,可以預約升級固件時間。
(固件)升級再也不用等到24點了,下班時在OME上簡單點擊幾下,提交job后人就可以走了,OME會在24點自動執行升級工作。
第二天,A君通過OME/OMM軟件檢查服務器升級情況,看看是否有“漏網之魚”。
當然,大部分服務器應該都能夠正常完成升級工作,不過也不排除有少數升級失敗的情況。對此不必費勁找或者等業務上線后發現,所有升級記錄都會被OME保存下來,若存在失敗情況,A君只需按圖索驥,再進行一次升級即可。
這種利用軟件工具實施多臺服務器升級、部署的方式,能夠避免手工部署中的人為差錯,確保服務器部署的一致性,從而保證服務器上線前的質量。
03第三幕
人工部署一頭亂麻?試試自動化吧
P.s 盡管戴爾易安信服務器出廠時已經按照企業的要求對BIOS做了設置,公司的IT領導還是要求運維人員對這些服務器的BIOS設置做出修改。
這批服務器數量不少,A君在機房干了整整一天,才按時完成了任務。
終于結束了,A君長吁一口氣,在機房門口又是揉腰,又是“嘎嘣,嘎嘣”扭脖子,“嘭”地一聲,大俠來了。
OME提供部署功能,用戶可以通過OME完成諸如BIOS/iDRAC/NIC等服務器設置工作:
現在,同樣修改服務器BIOS設置的工作,A君不必在機房“吭哧吭哧”埋頭苦干一天,而是可以先設置好將一臺服務器的BIOS,然后使用OME將該機抓取為模板,再將模板部署到所有等待部署的服務器上去,這樣任務就完成了。
具體操作時,A君只需下班時在OME上簡單點擊幾下,預約部署時間為24點,提交任務即可正點下班。第二天來查看部署情況,對少數“漏網之魚”再次部署即可。
對此,A君給出評價:以前手工改服務器配置,機器一多就亂了。現在有了OME,真是能解決大問題。
04第四幕
自動化運維,還有很多東西可以學習
這天,A君打開了戴爾易安信的網站,一邊看電腦一邊在本子上記著東西。
同事問道:“你在干什么呢?”
A君:“學習呀,我了解到,戴爾易安信目前是提供服務器Restful API方面最積極的廠商。不論是服務器管理卡iDRAC還是OME軟件,他們都有提供豐富的Restful API接口。”
同事:“你在學習Restful API?”
A君:“是啊,Restful API采用https協議,輸出格式為JSON,無需轉化即可很方便地被第三方軟件集成。又很多用戶采用戴爾易安信Restful API 與Zabbix軟件集成,打造自己的現代化監控的平臺,我也得學習學習。”
筆者:“有資源嗎?”
A君:“要不說戴爾易安信很棒呢,戴爾易安信提供了豐富的Python腳本供用戶調用,來打造自己的現代化監控平臺,而且也在網站上放了Restful API知識呢,這就是鏈接。”
1.Python腳本,用戶可移步以下鏈接下載:
https://github.com/dell/OpenManage-Enterprisehttps://github.com/dell/iDRAC-Redfish-Scripting
2.更多戴爾易安信Restful API知識,可至以下鏈接了解更多:
https://www.dell.com/support/article/us/en/19/sln310624/redfish?lang=en
戴爾易安信RestfulAPI知識庫截圖
同事:“哇,這個不錯。”
A君:“是啊,服務器數量與日俱增,傳統的IT運維人員和IT運維方式壓力山大,咱們這些IT運維工程師要盡快掌握更多IT管理工具,提高自己的技能和IT運維水平,才能更好地適應企業發展,才能不被時代淘汰,而且我們慢慢掌握運維工具,將它們熟練運用到大規模服務器管理的過程中的同時,也提高了自身的價值。”
同事:“加油,一起努力吧!”
往期回顧
業界***?這僅僅是我們冰山一角
流數據處理難?一切都在計劃之中
不用擴建機房也能上線新設備的方法