運維人員不具備這些能力,你就是別人眼中的咸魚
運維的核心能力有哪些?
運維,在部分沒有接觸過IT的小伙伴的概念中覺得是一個比較低級的職位,很容易從字面理解為運營、維護、很多朋友認為,無論IDC機房運維、網絡運維、桌面運維、Linux系統運維、數據庫運維、云計算運維、等在互聯網公司中的工作就是安裝系統,部署服務、處理緊急故障,為公司開發人員及其它部門提供支持。同時負責內外網的網絡穩定。上面描述的工作的確是運維的一部分工作,但并不是全部,或者說是中小公司低級的運維勞動,并不能詮釋運維的核心能力。
1 運維人員必須具備運維思想
在我看來,除了上面的角色外,運維人員還是管理、制度、規范、流程的制定和推行、監督角色。運維的核心是運維思想,非運維技術本身(如部署服務等,這是部分朋友的誤區)。上百臺以上的服務器的規模如果沒有好的管理流程、規范、制度策略,是無法協調工作的,上千臺、上萬臺更是如此。運維流程、運維規范、運維制度、自動化、智能化、批量部署、批量管理、網站架構優化、監控預警、流量及日志分析統計、成本控制(注意字眼是控制,不是節省)才是真正的運維人員需要做的。
如何推進并完善上面的工作,提升工作效率,提升團隊以一當十的戰斗力才是最核心的內容。運維的宗旨:保護數據安全、7*24小時網絡穩定、用戶體驗良好(用戶包括內部的員工、外部的網站用戶)所以,我們做什么都不要離開運維的宗旨,否則,你的工作都可能是徒勞的無用功(起碼和目標沒直接對接)。有經驗的運維人員會先思考在動作,經驗不足的運維人員會先做,遇到問題在思考,這是完全不同的層次和境界。試想蓋一座大樓如果先蓋好在思考,那還能蓋好么?所以,請別輕易說你精通什么什么服務,會多少多少軟件,那只是幾塊磚頭、幾袋水泥、幾根鋼筋而已。蓋好大樓,這些僅僅是基本的元素,運維同樣是如此!
2 運維人員必須對即將面對威脅要特別清楚
專家研究和大量企業實踐表明,IT項目生命周期中,大約80%的時間與IT項目運營維護有關,而該階段的投資僅占整個IT投資的20%,形成了典型的“輕服務、重技術”現象。國際著名咨詢調查機構Gartner集團的調查發現,在經常出現的問題中,源自技術或產品(包括硬件、軟件、網絡、電力失常及天災等)方面的問題其實只占20%,而流程失誤問題占40%,人員疏失問題占40%。流程失誤包括未做好變更管理、超載、無測試等程序上的錯誤或不完整,人員疏失包括忘做某些事情、訓練不足、備份錯誤或安全疏忽等。 面對如此高的要求和壓力,IT部門就需要有一套完善的并可管理的IT服務流程,對IT運維進行有效地管理、使信息系統更加適應業務持續變化的需求、使IT部門從成本中心轉變為利潤中心。當現代企業建立完善而成熟的IT運維管理體制后,通過流程管理,不斷提高IT運維質量,實現高效運維,提升組織內IT服務滿意度。
我們的IT運維要如何保障
服務支持 事故管理 :有效解決沖突事件,盡快恢復IT服務 問題管理 :找尋問題的根源和解決方案,消除或減少問題事件的發生 配置管理 :管理更改的實施過程,避免或者減少變更的影響變更管理 :控制IT系統的軟件的發布過程及版本發布管理 :管理IT系統的所有元素及相關信息,描述IT元素之間的相互關系
服務交付
服務級別管理:提供與服務級別對等的服務內容完成量化服務器管理
可用性管理:監控IT重要資源和運行指標,保障整個業務系統的可用性
能力管理:監控和提高系統性能行進性能規劃
持續性管理:簡歷業務持續計劃,實現業務可持續化運行
財務管理:IT服務的預算管理,成本管理
3 運維人員必須具備故障管理及庫管理的能力
故障管理:
故障管理,通過系統預定義好的故障情況,準確定位故障的級別,并通過多樣的告警方法將故障信息派發給直接負責人員,避免故障的無法及時處理和是否升級的判定。
故障管理通過設定故障規則,能夠為一個設備設定多個報警規則或多個設備統一為一個事件報警規則,為每個事件規則設定相關的級別,由系統來確定故障級別和通知對象,并自動觸發相關的工單給相關人員。故障信息可以通過聲音、告警燈、短信、郵件、腳本等形式告知故障處理負責人。配置管理提供系統配置功能,包括報警配置、事件配置、視圖配置、用戶權限、監測配置等供配置控制模塊調用。IT部門可以通過此模塊簡單的進行配置控制,對配置信息進行變更,對系統設置進行管理。
問題庫管理
提供問題庫的管理,管理人員可以把在運維過程中遇到的無法解決的問題錄入到知識庫中,讓系統對相關的問題進行分配,讓對應職位的人員進行處理。同時提出人還可以對問題進行跟蹤,這樣就不會讓提出的問題石沉大海。
知識庫管理
用來記錄系統故障情況及維修記錄的;- 用來幫助管理員排查系統故障的工具;- 用來給管理員提供問題的處理辦法的;- 用來給管理員提供運維經驗。
預案庫管理
提供預案庫管理,管理人員可以讓對相關事件有過處理經驗的人員就相關的情況編寫一份處理預案,當不熟悉這個事件處理流程的人員進行處理時有據可以。同時極大的縮短了人員培訓的時間,也幫企業節約了成本
4 運維人員必須具過硬的專業技能
運維人員保護數據安全、7*24小時網絡穩定、用戶體驗良好(用戶包括內部的員工、外部的網站用戶),必須具備以下技能!
1、扎實的Linux操作系統和網絡基礎知識;
2、熟悉阿里云、騰訊云等云廠商產品知識,例如ECS、RDS、VPC等;
3:精通一門以上腳本語言(shell/python/go等其中一種);
4:至少熟悉一種開源監控系統(zabbix、prometheus、open-falcon等),對監控優化有深入理解;
5、熟悉CI/CD持續集成與持續交付,熟悉Gitlab、Jenkins、Ansible、Grafana等工具使用;
6:熟悉Nginx、Tomcat、MySQL、Redis、MongoDB、MQ、ELK等的日常維護與優化,且熟練操作Mysql、Mongodb、Redis;
7、熟悉Docker容器技術,對docker的網絡、存儲、安全有良好的理解;
8、熟悉Kubernetes部署、了解微服務架構更佳;優化具備良好的自我驅動和主動思考習慣
9、要是掌握自動化運維工具的開發前途不可限量